生物信息学¶

2024年7月22日星期一
分类于生物信息学
需要 1 分钟阅读时间

计算panel bed编码区长度

Bash
#!/bin/bash
#@File    :   run.sh
#@Time    :   2023/11/21 09:32:17
#@Author  :   biolxy
#@Version :   1.0
#@Contact :   biolxy@aliyun.com
#@Desc    :   None

inputbed=$1

# export PATH=/data/biogonco/lixy/bedtools/bedtools2/bin:$PATH  # v2.30.1 不行
export PATH=/data/bioinfo_project/bioinfo_miniconda3/bin:$PATH  # v2.30.0 不行
# /data/biogonco/lixy/bedtools/bedtools2/bin/bedtools

bedtools merge -i ${inputbed} > merge.bed

bedtools summary -i merge.bed -g /mnt/nas_001/project/oncodemo/genome_and_annotation/hg19/gatk/b37/chrom.sizes > merge.bed.summary  # 统计的是 bed 区间的长度


# 去 gencode 下载 gencode.v41.annotation.gff3
# wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_44/GRCh37_mapping/gencode.v44lift37.annotation.gff3.gz
# /mnt/nas_001/project/oncodemo/genome_and_annotation/genome/gffread-0.12.7.Linux_x86_64/gffread gencode.v44lift37.annotation.gff3 -T -o gencode.v44lift37.annotation.bed
# awk '$3 == "CDS"' gencode.v44lift37.annotation.bed | sed 's/^chr//g' > coding_CDS.bed

# coding_CDS.bed 为编码区bed

bedtools intersect -a merge.bed -b /mnt/nas_001/project/oncodemo/genome_and_annotation/genome/coding_CDS.bed | sort -k1,1 -k2,2n |  bedtools merge -i - > panel.cds.bed

# panel.cds.bed 为 pane 的 编码区 bed
bedtools summary -i panel.cds.bed -g /mnt/nas_001/project/oncodemo/genome_and_annotation/hg19/gatk/b37/chrom.sizes > panel.cds.summary 

注意

要注意bedtools的版本问题，我测试的 v2.30.0可以，v2.30.1 不行

2024年5月27日星期一
分类于生物信息学
需要 1 分钟阅读时间

准确度和灵敏度和特异性

定义

Precision 准确度：指找出来的突变中的真阳性有多少

Recall 召回率：指总突变集合有多少可以被找出来

公式

准确度（Precision）：

准确度是指在所有被预测为阳性（即突变）的样本中，实际为阳性（真阳性）的比例。换句话说，它衡量的是预测结果中真阳性的比例。其计算公式为：

\(\text{Precision} = \frac{TP}{TP + FP}\)

其中，TP是真阳性的数量，FP是假阳性的数量。

召回率（Recall）或灵敏度/敏感度（Sensitivity）：

召回率是指在所有实际为阳性的样本中，被正确预测为阳性（即真阳性）的比例。它衡量的是测试方法捕捉到所有实际阳性样本的能力。其计算公式为：

\(\text{Recall} = \frac{TP}{TP + FN}\)

其中，TP是真阳性的数量，FN是假阴性的数量。

这两个指标通常用于评估分类模型的性能，特别是在医学和生物学研究中，它们帮助研究者理解一个测试或分析方法在识别阳性样本方面的准确性和完整性。在体细胞变异检测的背景下，这两个指标对于评估变异检测算法的性能至关重要。

特异性（Specificity）：

特异性是指在实际没有某种疾病的人群中，诊断测试能够正确排除非患者的能力。它衡量了测试对非患者的"特异性"，即测试能够准确地排除非患者的能力。特异性的计算公式为：

特异性 = 真阴性（True Negative）/（真阴性 + 假阳性（False Positive））

\(\text{Specificity}= \frac{TN}{FP + TN}\)

注意：这里不使用特异性这一概念，原因是在NGS数据calling中，难以确定真阴性位点的数量，特异性无法计算。

F1_score

F1_score，是评估分类模型性能的一种指标，特别是在二分类问题中。它结合了精确度（Precision）和召回率（Recall）两个指标来提供一个单一的评分，以衡量模型的整体性能。 F1_score 是精确度和召回率的调和平均数，公式为：

\(F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}\)

F1_score 的值范围是0到1，1表示完美的精确度和召回率，0表示模型性能很差。

在处理不平衡的数据集时，F1_score 特别有用，因为它同时考虑了精确度和召回率，而不是仅仅关注其中一个。这使得 F1_score 成为一个在多种情况下都相对平衡的性能度量标准。

2022年8月11日星期四
分类于生物信息学
需要 1 分钟阅读时间