eccDNA鉴定分析中的生物信息学进展
此外,结合其他先进的实验技术,能够更加准确地确定大尺寸eccDNA的结构。AmpliconReconstructor (AR)便是一个成功的例子,它利用全基因组成像技术生成单分子光学图(OM),并将其巧妙地组装为基因组支架的骨架。随后,结合AmpliconArchitect的断点图信息,AR实现了对eccDNA结构的大规模和精细重构。而HolistIC则是一个更为强大的工具,它集成了来自同一样本的WGS数据和Hi-C测序数据,能够明确解析出eccDNA的复杂结构。HolistIC首先应用DMFinder和AmpliconArchitect检测WGS数据中的eccDNA断点,然后基于Hi-C数据中揭示的原则,利用最大团算法准确区分出多重扩增子的eccDNA与其他重叠扩增子的eccDNA。
然而,由于NGS技术的读长限制,单个读段往往无法跨越整个eccDNA分子。因此,研究者们通常采用de novo组装策略来重构eccDNA的结构,但这需要多个读段的协同作用,并引入了一定的不确定性。为了克服这一挑战,第三代测序(third-generation sequencing, TGS)技术应运而生。它不仅能够获取扩增产物的完整序列信息,而且通过RCA过程确保每个eccDNA分子的序列都能被完整地包含在扩增产物中。在TGS技术中,扩增产物通常表现为原始eccDNA序列的串联重复单元,这也是大多数基于TGS的工具检测eccDNA的主要依据。此外,TGS技术还能够轻松检测高度重复的基因组区域中的eccDNA,这些区域对于传统的NGS读段来说往往难以比对。
在TGS技术的应用中,ciderseq2无疑是一个开创性的方法。它采用了单分子实时测序(SMRT,Pacific Biosciences)平台,并利用DeConcat算法对SMRT循环共识测序读段进行多序列比对(multiple sequence alignment, MSA)。通过总结八种可能的DeConcat比对情况,ciderseq2能够准确获取扩增产物的重复单元信息,进而代表原始eccDNA分子的序列。随后,将获得的eccDNA序列与参考基因组进行比对,便能确定每个检测到的eccDNA的基因组来源。类似地,ecc_finder也采用了先进的算法来处理牛津纳米孔测序技术(Oxford Nanopore Technologies, ONT)产生的长读段数据,并成功识别出其中的串联重复单元及其基因组来源。值得一提的是,ecc_finder还具备处理NGS数据的能力,它能够结合不一致读段对、分裂读段以及测序深度分布等信息来全面识别eccDNA。因此,它是目前唯一一个能够同时适用于NGS和TGS数据的强大工具。
另一种有效的策略是先进行比对操作,然后根据比对结果来识别完整的eccDNA结构。NanoCircle便是这一策略的代表工具之一,它根据分裂比对的长读段信息来确定连接的基因组区域的断点坐标。而EccDNA_RCA_nanopore(Flec)则采用了更为精细的算法来处理读段数据:它将读段分割成子读段,并开发出统一的线程算法来根据每个长读段中比对子读段的顺序和邻接关系确定组成eccDNA的每个片段的断点位置。此外,Cyrcular-calling也基于分裂比对和测序深度分布信息构建了一个有向图模型,并通过分析其强连通分量来识别可能的环形路径。最后,cyrcular-calling还利用varlociraptor工具来计算每个候选eccDNA真实存在的后验概率值。而FLED则侧重于根据其比对结果独立构建每个读段的拼接图模型,并结合测序深度分布信息来过滤候选的eccDNA结果,从而获取检测到的eccDNA的完整序列信息。
尽管TGS技术在读长方面相较于NGS具有显著优势,但由于RCA效率的限制以及某些极大尺寸的eccDNA结构的复杂性,直接识别这些结构仍然面临一定的挑战。为了克服这一难题,研究者们开始尝试将de novo组装策略应用于TGS数据中,以增强对大尺寸eccDNA的检测能力。CReSIL便是一个成功的例子,它收集了长读段的比对基因组位置信息,并将分裂的子读段的基因组区域和所有连接关系表示为图模型。随后,CReSIL将来自每个独立循环图的读段进行组装并抛光处理,以生成检测到的eccDNA的共识序列结果。
此外,eccDNA还可以通过ATAC-seq数据来进行识别。基础工具Circle_finder依赖于分裂读段和不一致读段对的信息来捕捉eccDNA的信号。而针对ATAC-seq数据集的特点,研究者们还专门开发了Circlehunter工具。Circlehunter首先构建一个由剪辑读段、不一致读段对以及读段富集区域链接而成的断点图模型,然后利用贝叶斯模型来估计断点的具体位置信息。而ATACAmp则是一个更为强大的工具,它不仅能够处理大规模细胞的ATAC-seq数据集,还支持单细胞ATAC-seq数据的分析工作,从而极大地扩大了ecDNA研究的范围和深度。