eccDNA鉴定分析中的生物信息学进展
在检测简单eccDNA方面,Circle_finder和Circle-Map表现出色;然而,ecc_finder由于采用了严格的过滤标准和断点确定方法,其表现相对不佳。这三种基于NGS的方法均仅限于检测跨越eccDNA断点的读取,导致复杂eccDNA的片段或连接处被错误识别为简单eccDNA。此外,Circle_finder和Circle-Map还无法正确区分SV事件与背景噪音。
对于基于TGS的方法,作者团队同样允许检测到的简单eccDNA有50个碱基的偏差。对于复杂eccDNA,作者团队设定了更高的标准:候选eccDNA所有片段的基因组位置与模拟数据集中的位置偏差必须在50个碱基以内,并且这些片段必须按模拟数据集中的顺序连接。此外,由于Flec为每个读取输出候选eccDNA,而Circle_finder不合并相似的eccDNA,作者团队进一步处理了Flec和Circle_finder的输出,将断点偏差在50个碱基内的候选eccDNA合并以减少冗余。
在TGS数据上,ecc_finder的表现仍然不理想。Flec表现出最高的检测灵敏度,但同时也产生了最多的假阳性结果。FLED和NanoCircle在召回率和精确度之间取得了良好的平衡,获得了较高的F1评分。CReSIL和ecc_finder仅分析长度超过200个碱基的eccDNA,这影响了它们检测到的eccDNA数量。与Flec和NanoCircle相比,CReSIL和FLED对复杂eccDNA的敏感性较低,但精确度更高。尽管ecc_finder和NanoCircle适用于TGS数据,但它们主要依赖跨越eccDNA断点的拆分读取,因此更容易将复杂eccDNA和SV错误识别为简单eccDNA。
比较CC和HP数据集,尤其是TGS方法在HP数据集中的表现更稳定。作者团队推测,这一差异可能是由于CircleBase中HP样本的eccDNA较短且分布更加均匀,而CC样本中的eccDNA较大。检测CC中的大eccDNA对TGS方法来说仍是挑战。需要注意的是,尽管基于NGS的工具获得了更高的F1评分,这可能是由于NGS数据比TGS数据的数据量更大。TGS数据通常具有更长的读长,导致相对于相同数据量的NGS数据,其测序深度较低,这可能会偏向于NGS方法的比较性能。然而,TGS方法在检测复杂eccDNA、重复区域中的eccDNA、生成全长eccDNA序列以及识别eccDNA上的突变方面具有无与伦比的优势,而这些在NGS方法中难以实现。
然而,模拟数据集也有其局限性,因为它们可能无法真实再现eccDNA扩增产物的复杂背景。AmpliconArchitect、Circle-Map、CReSIL和Circlehunter也为用户提供了eccDNA模拟的脚本或子程序。
eccDNA注释数据库
在处理来自不同实验方法的测序数据时,采用统一的分析流程或工作流以准确识别eccDNA仍是一项重大挑战。因此,众多现有的eccDNA数据库采取了多样化的策略来扩充其内容:一部分数据库通过整合多种识别工具与特定的NGS数据集,广泛搜集文献资料中推测存在的eccDNA;而另一部分则专注于收集公开的WGS数据集,并运用一套统一的eccDNA识别工具进行系统性地识别,以期获得更为全面的eccDNA信息。
CircleBase作为首个专为eccDNA设计的数据库,不仅从文献中系统汇编并阐释了人类eccDNA的相关知识,还通过手动方式将eccDNA注释到复杂的调控网络中,涵盖了靶向基因、表观遗传调控机制、调控元件、染色质可及性、染色质相互作用以及遗传变异等多个层面。EccDNAdb则聚焦于肿瘤与正常样本,通过收集公开的WGS数据,并结合手动记录AmpliconArchitect工具识别出的eccDNA,有效扩大了数据库的覆盖范围。
TeCD数据库开创了包含多种真核生物eccDNA序列与基因组信息的先河,并提供了在线BLAST,允许用户对来自五个物种的eccDNA进行序列比对,从而找到最相似的eccDNA及其相关注释。EccDNA Atlas则以其丰富的物种涵盖范围著称,涉及66种疾病、57种组织及319种细胞系,对所有收集到的eccDNA进行了细致分类,并为记录的和用户提交的eccDNA提供了定制化的注释、分析及基因组可视化服务。
EccDB结合了Circle_finder和Circle-Map等多种eccDNA识别工具,从多种物种中高效识别与收集eccDNA,同时预测其转录调控功能,特别强调了染色体内与染色体间的相互作用。此外,EccDB还支持从未知DNA序列中识别eccDNA,并能进行不同物种间eccDNA的序列相似性分析。而eccBase则是目前从文献整理与数据库检索中获得Homo sapiens(人类)和Mus musculus(小鼠)eccDNA信息最为丰富的数据库。