质控指标定义过滤方法
线粒体基因细胞中线粒体转录本的丰度过高可能表示细胞受损,需设定上限阈值过滤
核糖体基因细胞中核糖体转录本的丰度过高可能掩盖其他基因信号,需过滤
血红蛋白基因细胞中血红蛋白转录本的丰度在特定分析中(如非血液细胞分析)需过滤掉高表达的细胞
nFeature每个细胞中检测到的基因数目过小可能表示细胞死亡或空液滴,需设定下限阈值过滤;
过大可能表示多细胞污染,需设定上限阈值过滤
nCount每个细胞中检测到的分子总数辅助判断数据质量和一致性,通常结合其他指标使用


分群质量高低的评估

  通过nFeature(每个细胞中检测到的基因数量)的提琴图(小提琴图)来评估分群的质量高低,主要依据的是不同分群(或样本)中nFeature的分布情况。使用适当的软件或工具(如Seurat包中的VlnPlot函数)绘制nFeature的提琴图。提琴图能够展示不同分群中nFeature的分布情况,包括其密度估计和概率密度。

  分布形状:观察每个分群中nFeature的分布形状。理想的分布应该是相对集中且对称的,这表明分群内的细胞在基因表达水平上具有较好的一致性。如果分布形状过于离散或存在多个峰值,可能意味着分群内存在较大的异质性。
  中位数与四分位数:提琴图通常还会包含箱线图的部分,展示中位数、四分位数等信息。通过比较不同分群的中位数和四分位数范围,可以了解各分群在nFeature上的整体水平。如果中位数差异较大或四分位数范围过宽,可能表明分群间的基因表达水平存在显著差异。
  异常值检测:提琴图还能帮助识别异常值。异常值通常位于分布的尾部,其出现可能意味着分群内存在某些特殊类型的细胞或测序过程中的异常。过多的异常值可能影响分群的质量评估。

  一致性评估:如果不同分群中的nFeature分布形状相似且集中,表明分群内的细胞在基因表达水平上具有较好的一致性,从而支持分群的质量。相反,如果分布形状差异较大或存在明显的异质性,可能需要对分群策略进行调整。
  组间比较:通过比较不同分群在nFeature上的整体水平(如中位数、四分位数范围等),可以了解分群间的基因表达差异。如果某些分群在这些指标上显著不同于其他分群,可能需要进一步探究其生物学意义或调整分群策略。
  异常值处理:对于提琴图中识别出的异常值,应进一步分析其来源和性质。如果异常值是由于测序错误或数据处理不当导致的,应进行相应的数据清洗和预处理。如果异常值代表特殊类型的细胞或生物学现象,则可能需要重新考虑分群策略或进行更深入的研究。

标签: scRNA-seq