TGS的方法同样具备解析复杂eccDNA结构的能力。尽管Ciderseq2能够在无参考基因组的情况下获取eccDNA序列,但其主要应用于病毒环状基因组的表征。NanoCircle选择具有连续读段覆盖的基因组区域作为候选eccDNA区域,但这种方法可能导致eccDNA断点定位的精确性不足。Flec为每个读段提供检测结果,并保留了多个eccDNA拷贝中的突变信息;然而,RCA过程导致eccDNA扩增产物的重复性较高,用户需手动减少输出结果的冗余。最近的cyrcular-calling、CReSIL和FLED则基于图论重建eccDNA的内部结构,在eccDNA断点的确定和假阳性过滤上各有特色。除ecc_finder外,所有基于TGS的方法均能识别复杂的eccDNA。特别地,Flec、CReSIL和FLED能够基于测序读段输出完整的eccDNA序列,而Flec、CReSIL和cyrcular-calling还能报告eccDNA的突变信息。尽管TGS数据在检测复杂和大型eccDNA方面具有天然优势,但某些超大eccDNA的长度超过25Mb,远超出TGS的测序长度。为了重建这些超大eccDNA的结构,组装步骤不可或缺。目前,仅有ecc_finder和CReSIL尝试了组装,但其效果仍需进一步验证。此外,基于ATAC-seq数据的工具,如Circlehunter和ATACAmp,也采用图论方法来识别简单和复杂的eccDNA;然而,由于短读长的限制,它们在检测重复区域中的eccDNA时同样面临挑战。

  除ecc_finder的组装模式、ECCsplorer的聚类模式以及Ciderseq2外,其他方法均基于测序读段与参考基因组的比对来进行eccDNA检测,因此易受到比对伪影或比对歧义的影响。为避免冗余的eccDNA识别,大多数工具为合并相邻断点设置了容忍范围。例如,FLED允许50碱基的偏差,ATACAmp允许1000碱基的偏差,而Circle-Map则通过0.99的重叠分数来合并互相重叠的eccDNA。此外,这些基于比对的方法无法处理缺乏高质量参考基因组的非模式生物,或源自参考基因组中不存在的未知序列的eccDNA。

  部分eccDNA识别工具在发表前已与其他现有工具进行了比较,以展示在不同评价标准下的性能优劣。然而,这些比较尚不全面。作者团队收集了在原始工具发表时所能找到的识别工具比较标准。大约一半的识别工具仅在eccDNA富集数据集上进行了有限的比较,且未包括需要额外实验的BP类工具,如AR和HolistIC。

  模拟数据集对于性能评估至关重要,因为模拟数据集的已知真实组成可以准确评估软件的表现。常见的模拟方法是从真实的eccDNA数据集中进行下采样,或随机选择基因组区域作为真实阳性数据集,然后应用测序读取模拟器生成具有特定测序错误和给定覆盖深度的读取数据。

  为了全面评估各种工具在eccDNA识别中的表现,作者团队从癌细胞系样本中检测到的423,018个eccDNA和健康个体中检测到的171,596个eccDNA中,分别随机选择了5000个简单eccDNA,并加入了之前识别出的43个复杂多片段eccDNA,以构成模拟数据集。此外,作者团队还向染色体基因组中引入了220个SVs来模拟背景噪音。

  作者团队总共生成了六个模拟数据集,分别来自癌细胞系(CC1、CC2、CC3)和健康个体(HP1、HP2、HP3),每个数据集中均包含5043个eccDNA。基于eccDNA和带有SV的染色体基因组的参考序列,作者团队分别使用ART和NanoSim模拟了NGS和TGS的测序读取。由于eccDNA检测工具在检测方法和过滤标准上存在差异,所选择的工具均在默认参数下运行。

  对于基于NGS的方法,作者团队评估了使用较广泛的Circle_finder、Circle-Map和ecc_finder(map-sr模式)。根据简单eccDNA的检测结果(即精确度、召回率和F1评分),以及错误识别为简单eccDNA的复杂eccDNA和SV进行了评估,因为这三种工具不支持识别复杂eccDNA。对于TGS方法,比较了五种广泛使用的工具:ecc_finder(map-ont模式)、NanoCircle、Flec、CReSIL和FLED。除ecc_finder外,其他四种工具均能检测简单和复杂的eccDNA,因此作者团队还报告了它们识别复杂eccDNA的表现。

  由于比对歧义和eccDNA断点附近可能存在的短重复序列,检测到的eccDNA断点的基因组位置可能与模拟数据集中的位置不完全匹配。通过允许一定的偏差范围来比较检测到的eccDNA断点的基因组位置,作者团队发现eccDNA检测工具报告的位置通常在真实基因组位置的50个碱基范围内。

标签: Oncogene, eccDNA, 染色体外环状DNA