单细胞测序数据质控原理及过滤方法
在单细胞转录组分析中,需关注多个指标对细胞进行过滤,进而提高数据分析的准确性和可靠性。以下是对线粒体基因、核糖体基因、血红蛋白基因、nFeature(基因数目)和nCount(分子总数)的概述,以及相关的过滤方法和阈值设定。
质控指标及过滤方法
线粒体基因
线粒体基因表达过高的细胞往往处于凋亡状态或者裂解状态,它们的存在会干扰后续的分析。线粒体基因异常可能导致细胞功能障碍,进而引发多种疾病,如肌无力症、神经退行性疾病等。因此,在进行相关研究或临床诊断时,应谨慎评估线粒体基因的影响。
计算方法为每个细胞中线粒体基因表达量占总基因表达量的百分比。通常会根据实际情况设计一个阈值进行细胞的过滤,移去线粒体基因表达比例过高的细胞,但不能大量丢失样本细胞信息。例如,可以设置线粒体基因表达比例的上限为20%,或者通过绝对中位差(MAD)等方法来识别并过滤高线粒体基因表达的细胞。一般来说,如果线粒体基因表达百分比过高,可能表明细胞状态较差或处于凋亡/裂解状态,这些细胞应该被过滤掉。然而,具体的阈值需要根据实验情况灵活调整。例如,对于某些特定类型的细胞(如心肌细胞),线粒体基因表达量可能本来就较高,因此需要谨慎处理。
核糖体基因
核糖体基因在细胞中转录产生核糖体RNA(rRNA),这是蛋白质合成的重要组成部分。单细胞测序核糖体基因通过测量细胞中的rRNA来获得对细胞转录组的信息。然而,如果核糖体基因的表达量过高,可能会掩盖其他基因的表达变化,影响数据分析的准确性。
计算方法为每个细胞中核糖体基因表达量占总基因表达量的百分比。与线粒体基因类似,核糖体基因表达百分比过高也可能影响数据分析的准确性。然而,由于核糖体基因在细胞中的普遍表达,其过滤阈值的选择需要更加谨慎。一般来说,如果核糖体基因表达量异常高(如超过某个合理的百分比范围),可以考虑进行过滤。但具体的阈值需要根据实验数据和分析目标来确定。
在某些情况下,核糖体基因表达比例的增加可能反映细胞处于高代谢状态或正在进行活跃的蛋白质合成。因此,有部分单细胞测序分析教程中保留percent_ribo大于3的细胞,可能是为了保留那些代谢活跃或正在进行特定生物学过程的细胞。
血红蛋白基因
血红蛋白是红细胞内运输氧的特殊蛋白质,其基因在红细胞中高表达。然而,在单细胞测序中,如果样本中存在大量的红细胞,它们的RNA序列会占据较大比例的总测序深度,从而减少其他细胞的测序深度。这就意味着其他细胞的RNA序列被稀释了,其表达水平可能无法准确地检测和分析。此外,红细胞的基因表达谱与其他细胞存在较大差异,它们的存在可能会对细胞分群和功能分析造成干扰。
计算方法为每个细胞中血红蛋白基因表达量占总基因表达量的百分比。通常会对单细胞测序数据进行筛选和过滤,将血红蛋白基因高表达的细胞(即红细胞)排除在分析之外。如果红细胞基因高表达的亚群数量较少,也可以将其视为一个独立的细胞亚群进行分析。
nFeature_RNA(nFeature)
nFeature_RNA指的是每个细胞中检测到的基因数目。如果nFeature_RNA值过低,可能表示该细胞已经死亡、即将死亡或是空液滴。这些细胞对于后续分析没有价值,甚至可能引入噪声,因此需要通过设定下限阈值来去除这些细胞。如果nFeature_RNA值过高,可能表明“细胞”实际上包含两个或多个细胞。这种情况在单细胞测序中并不罕见,需要通过设定上限阈值来识别和排除这些多细胞污染的样本。
nCount_RNA(nCount)
nCount_RNA指的是每个细胞中检测到的分子总数(通常通过UMI计数来表示)。虽然nCount_RNA的阈值设定不像nFeature_RNA那样直接用于去除异常细胞,但它仍然是质控过程中的一个重要指标。通过比较不同细胞的nCount_RNA值,可以评估测序数据的整体质量和一致性。与nFeature_RNA类似,高nCount_RNA值也可能表明存在多细胞污染的情况。虽然这不是判断多细胞污染的唯一标准,但结合nFeature_RNA和其他质控指标,可以更有效地识别并排除这些样本。