eccDNA鉴定分析中的生物信息学进展
值得注意的是,尽管除EccDNAdb外,其余五个数据库均提供了用户下载功能,且TeCD和eccBase中的eccDNA序列可直接下载,但目前尚无统一的eccDNA命名标准。六个数据库中使用的eccDNA ID各不相同,大多数采用“ec/ecc_物种_标识符”的格式,而EccDNAdb则使用“物种_染色体_片段_标识符”的格式。由于每个数据库为eccDNA分配了独立的序列号作为标识符,因此难以通过ID实现跨数据库查询,且各数据库中收集的eccDNA可能仍需进一步的整合与去冗余处理。统一的eccDNA命名法将极大地促进未来对eccDNA数据库进行大规模分析与整合的工作。
此外,目前数据库中记录的所有eccDNA均是通过NGS数据识别得到的,而基于NGS的方法在eccDNA结构重建上存在一定的局限性。尽管已经开发了一些专门用于TGS数据集的eccDNA识别工具,但目前尚无基于这些TGS方法的公开数据库专注于eccDNA的完整结构研究。
未来展望
尽管eccDNA的发现可追溯至60年前,但这一研究领域至今仍蕴含着无限潜力与前景。随着NGS与TGS技术的迅猛发展,过去十年间,关于eccDNA生成、维持及其功能的探究实现了爆炸性增长。人们对eccDNA的认知已从最初视为基因组损伤修复过程中的副产品,逐步深化至其在基因表达调控中扮演的关键角色。正如前文所述,eccDNA在癌基因扩增与肿瘤异质性中发挥着举足轻重的作用,其独特的环状结构相较于线性基因组片段更为稳定,甚至能够进入血液等循环系统。因此,全面阐明eccDNA的功能机制对于深入理解肿瘤进展具有重大意义,并有望推动早期无创诊断技术与现有治疗方法的革新。
为了深入探究eccDNA,迫切需要准确高效的识别工具。当前的eccDNA识别工具主要依赖于eccDNA形成过程中特有的断点连接,并结合eccDNA区域测序深度的增加来进行识别。作者团队通过模拟数据评估了多种常用工具,以揭示每种eccDNA检测方法的偏好性。NGS方法在检测简单eccDNA时表现出更高的全面性,这主要得益于其通常具有的更高测序深度。然而,挑战依然存在:跨越eccDNA连接断点的reads特征有时与染色体DNA的结构变异reads难以区分,导致识别的推测性eccDNA中可能包含假阳性结果。此外,大多数NGS方法无法重构复杂的多片段eccDNA,而能够做到这一点的工具(如AA)又通常需要大量的计算资源,且仅能重构一小部分具有高拷贝数的特大eccDNA。理论上,采用或结合TGS方法能够显著减少假阳性结果,并改善复杂结构的重构问题。FLED在需要精确断点信息时表现出色,而NanoCircle和CReSIL则更适合检测复杂的eccDNA。另一种解决方案是采用集成的识别方法,整合当前稳定的工具,并合并结果以生成高置信度的eccDNA,从而降低假阳性率。然而,目前尚未发布基于集成方法的eccDNA识别流程。
在成功识别eccDNA后,后续的分析步骤仍然缺乏标准化,这包括确定eccDNA的拷贝数以及筛选具有功能性的eccDNA。目前,eccDNA的丰度通常通过跨断点reads的数量来评估,但这种方法可能无法准确反映eccDNA拷贝数的实际变化。此外,eccDNA主要在染色体损伤修复期间形成,具有一定的随机性,并且由于缺乏着丝粒,eccDNA在有丝分裂中的遗传也是随机的,这导致了细胞内eccDNA的异质性。为了解释这种异质性,一些研究尝试结合单细胞测序技术。然而,如何从大量的背景噪音中筛选出具有转录和调控能力的关键功能性eccDNA,仍是功能分析中的一项重大挑战。eccDNA的随机性同样给构建eccDNA数据库带来了挑战。与通常具有高度保守断点的circRNA不同,eccDNA断点的重复性较差,难以将新识别的eccDNA与现有数据库中的注释eccDNA进行匹配。因此,开发网页上的在线分析工具,如BLAST和基因组可视化功能,将增强eccDNA数据库的互动性,为用户提供更佳的体验。