eccDNA鉴定分析中的生物信息学进展
最后需要指出的是,在许多研究中,研究者们还使用了自定义的程序来识别候选的eccDNA结果,而不是前面提到的已发表工具。这些自定义脚本中采用的方法通常也是基于分裂读段、不一致读段对以及eccDNA区域的高测序深度这三大主要特征来设计的。近年来,随着eccDNA研究的不断深入和拓展,研究者们已经开始为研究人员提供综合分析eccDNA的工作流程。其中,eccDNA-pipe便是一个杰出的代表,它整合了AA、Circle-Map、CReSIL和FLED等多个工具的功能,实现了对NGS和TGS数据中eccDNA的全面检测,并支持下游的分析任务,包括候选eccDNA的尺寸分布分析、eccDNA结构的可视化展示以及与富集eccDNA相关的差异表达基因分析等。然而,需要注意的是,eccDNA-pipe只是提供了一个执行不同工具的工作流程框架,并没有进一步整合这些工具的结果信息。因此,在实际应用中,研究者们仍然需要根据自己的需求和目标来选择合适的工具和方法进行综合分析。
基于机器学习的eccDNA识别工具
虽然绝大多数eccDNA识别工具依赖于测序数据特征,最近有方法开始应用机器学习模型来预测eccDNA。通常,机器学习算法能够从实际的eccDNA数据中学习知识,并整合其他相关已知信息,从而训练出更可靠的分类模型。据作者所知,DeepCircle目前是唯一一个基于机器学习模型的eccDNA预测工具。DeepCircle专注于DNA序列这一最可用的内在特征,采用卷积神经网络(CNN)模型和双向编码器表示的转换器模型(DNABERT)来区分eccDNA和非eccDNA,展示了对人类短eccDNA的预测能力。
eccDNA识别工具的比较
不同的实验手段、测序技术,以及多样化的eccDNA检测方法,其基本原理直接决定了各自方法的优势与局限。
针对eccDNA富集实验设计的基于NGS的方法中,短读长测序在解析基因组内的重复区域和结构变异时固有的局限性,往往导致源自这些重复区域的eccDNA或结构复杂的eccDNA难以被检测。早期开发的工具依赖于较少的判定标准来识别候选eccDNA,这可能引发不同程度的假阳性结果。例如,Circle_finder仅利用拆分读段和不一致读对,因而假阳性率较高;然而,这种宽泛的标准使得Circle_finder能够适用于任何包含eccDNA文库的测序数据,无论是WGS还是ATAC-seq。相比之下,Circle-Map和ECCsplorer通过考量候选eccDNA周边的覆盖率,显著提升了检测的准确性。Circle-Map声称能够在单核苷酸分辨率下检测eccDNA,并增设了专门用于检测酿酒酵母(S. cerevisiae)基因组重复区域中eccDNA的子程序。ECCsplorer则能够在低测序深度条件下进行无参考eccDNA检测,特别适用于非模式生物的分析;不过,其比对、富集峰识别及全读段聚类等过程对计算资源的需求极大。ecc_finder在处理NGS数据时对读段分布设定了更为严格的标准,这可能会降低eccDNA的检测灵敏度。此外,ecc_finder通过提取富集的基因组位点作为参考断点组,并拆分读段与不一致读对,使得精确界定eccDNA断点的基因组位置变得更具挑战性。
值得注意的是,这些基于NGS且用于eccDNA富集文库的方法,仅限于检测跨越eccDNA断点的读段,因此无法解析复杂eccDNA的结构。针对WGS数据开发的NGS工具,如DMFinder和AA,利用SV预测结果来重构eccDNA的内部结构;然而,它们均依赖于拷贝数变异的检测,仅适用于较大的eccDNA,对于拷贝数较低或尺寸较小的eccDNA则无法识别。同时,处理WGS数据需要大量的计算资源,且DMFinder和AA在重建具有重叠区域的eccDNA时均面临困难。HolistIC和AR则分别结合Hi-C和OM(光学图谱)数据来区分eccDNA的重叠区域,并实现了在单核苷酸分辨率下对大型复杂eccDNA的重建;不过,Hi-C或OM实验的需求也限制了HolistIC和AR的广泛应用。