计算panel bed编码区长度
Bash | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
|
注意
要注意bedtools的版本问题,我测试的 v2.30.0可以,v2.30.1 不行
Bash | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
|
要注意bedtools的版本问题,我测试的 v2.30.0可以,v2.30.1 不行
Precision 准确度:指找出来的突变中的真阳性有多少
Recall 召回率:指总突变集合有多少可以被找出来
准确度(Precision):
准确度是指在所有被预测为阳性(即突变)的样本中,实际为阳性(真阳性)的比例。换句话说,它衡量的是预测结果中真阳性的比例。其计算公式为:
\(\text{Precision} = \frac{TP}{TP + FP}\)
其中,TP是真阳性的数量,FP是假阳性的数量。
召回率(Recall)或 灵敏度/敏感度(Sensitivity):
召回率是指在所有实际为阳性的样本中,被正确预测为阳性(即真阳性)的比例。它衡量的是测试方法捕捉到所有实际阳性样本的能力。其计算公式为:
\(\text{Recall} = \frac{TP}{TP + FN}\)
其中,TP是真阳性的数量,FN是假阴性的数量。
这两个指标通常用于评估分类模型的性能,特别是在医学和生物学研究中,它们帮助研究者理解一个测试或分析方法在识别阳性样本方面的准确性和完整性。在体细胞变异检测的背景下,这两个指标对于评估变异检测算法的性能至关重要。
特异性(Specificity):
特异性是指在实际没有某种疾病的人群中,诊断测试能够正确排除非患者的能力。它衡量了测试对非患者的"特异性",即测试能够准确地排除非患者的能力。 特异性的计算公式为:
特异性 = 真阴性(True Negative)/(真阴性 + 假阳性(False Positive))
\(\text{Specificity}= \frac{TN}{FP + TN}\)
注意: 这里不使用 特异性 这一概念,原因是在NGS数据calling中,难以确定真阴性位点的数量,特异性无法计算。
F1_score
F1_score,是评估分类模型性能的一种指标,特别是在二分类问题中。它结合了精确度(Precision)和召回率(Recall)两个指标来提供一个单一的评分,以衡量模型的整体性能。 F1_score 是精确度和召回率的调和平均数,公式为:
\(F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}\)
F1_score 的值范围是0到1,1表示完美的精确度和召回率,0表示模型性能很差。
在处理不平衡的数据集时,F1_score 特别有用,因为它同时考虑了精确度和召回率,而不是仅仅关注其中一个。这使得 F1_score 成为一个在多种情况下都相对平衡的性能度量标准。
推荐 Linux就该这么学 (0-5章节,其他的可选择性学习)
输入参数: positionFile, genomeFa, outfa (pos坐标文件,包含四列 chrom start end strand)
使用Python脚本
Python | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 |
|
S | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 |
|
Text Only | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 |
|
Python | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
|
东西有点杂乱,还需要慢慢整理。其中的 sed awk perl 等命令我觉得都可以单独分出来讲了
Bash | |
---|---|
1 2 3 4 |
|
Text Only | |
---|---|
1 2 3 |
|
Bash | |
---|---|
1 2 3 |
|
Bash | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 12 |
|
Text Only | |
---|---|
1 2 3 4 5 6 |
|
Text Only | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 |
|
Bash | |
---|---|
1 |
|
Bash | |
---|---|
1 2 3 4 5 6 7 8 9 10 |
|
Bash | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 |
|
Bash | |
---|---|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
|
Text Only | |
---|---|
1 |
|
Text Only | |
---|---|
1 |
|
Text Only | |
---|---|
1 2 |
|
Text Only | |
---|---|
1 2 |
|
Text Only | |
---|---|
1 2 3 4 5 6 7 8 9 |
|
/data/public/hanyapeng/Gm/Gma.collinear.groups # 大豆中所有旁系同源基因
/data/public/wanglei/inparanoid4.0/Soybeanparalog2.txt # 大豆中所有旁系同源基因