eccDNA鉴定分析中的生物信息学进展

时间: 2024-10-10
分类: 文献
阅读: 5269

　　值得注意的是，尽管除EccDNAdb外，其余五个数据库均提供了用户下载功能，且TeCD和eccBase中的eccDNA序列可直接下载，但目前尚无统一的eccDNA命名标准。六个数据库中使用的eccDNA ID各不相同，大多数采用“ec/ecc_物种_标识符”的格式，而EccDNAdb则使用“物种_染色体_片段_标识符”的格式。由于每个数据库为eccDNA分配了独立的序列号作为标识符，因此难以通过ID实现跨数据库查询，且各数据库中收集的eccDNA可能仍需进一步的整合与去冗余处理。统一的eccDNA命名法将极大地促进未来对eccDNA数据库进行大规模分析与整合的工作。

　　此外，目前数据库中记录的所有eccDNA均是通过NGS数据识别得到的，而基于NGS的方法在eccDNA结构重建上存在一定的局限性。尽管已经开发了一些专门用于TGS数据集的eccDNA识别工具，但目前尚无基于这些TGS方法的公开数据库专注于eccDNA的完整结构研究。

未来展望

　　尽管eccDNA的发现可追溯至60年前，但这一研究领域至今仍蕴含着无限潜力与前景。随着NGS与TGS技术的迅猛发展，过去十年间，关于eccDNA生成、维持及其功能的探究实现了爆炸性增长。人们对eccDNA的认知已从最初视为基因组损伤修复过程中的副产品，逐步深化至其在基因表达调控中扮演的关键角色。正如前文所述，eccDNA在癌基因扩增与肿瘤异质性中发挥着举足轻重的作用，其独特的环状结构相较于线性基因组片段更为稳定，甚至能够进入血液等循环系统。因此，全面阐明eccDNA的功能机制对于深入理解肿瘤进展具有重大意义，并有望推动早期无创诊断技术与现有治疗方法的革新。

　　为了深入探究eccDNA，迫切需要准确高效的识别工具。当前的eccDNA识别工具主要依赖于eccDNA形成过程中特有的断点连接，并结合eccDNA区域测序深度的增加来进行识别。作者团队通过模拟数据评估了多种常用工具，以揭示每种eccDNA检测方法的偏好性。NGS方法在检测简单eccDNA时表现出更高的全面性，这主要得益于其通常具有的更高测序深度。然而，挑战依然存在：跨越eccDNA连接断点的reads特征有时与染色体DNA的结构变异reads难以区分，导致识别的推测性eccDNA中可能包含假阳性结果。此外，大多数NGS方法无法重构复杂的多片段eccDNA，而能够做到这一点的工具（如AA）又通常需要大量的计算资源，且仅能重构一小部分具有高拷贝数的特大eccDNA。理论上，采用或结合TGS方法能够显著减少假阳性结果，并改善复杂结构的重构问题。FLED在需要精确断点信息时表现出色，而NanoCircle和CReSIL则更适合检测复杂的eccDNA。另一种解决方案是采用集成的识别方法，整合当前稳定的工具，并合并结果以生成高置信度的eccDNA，从而降低假阳性率。然而，目前尚未发布基于集成方法的eccDNA识别流程。

　　在成功识别eccDNA后，后续的分析步骤仍然缺乏标准化，这包括确定eccDNA的拷贝数以及筛选具有功能性的eccDNA。目前，eccDNA的丰度通常通过跨断点reads的数量来评估，但这种方法可能无法准确反映eccDNA拷贝数的实际变化。此外，eccDNA主要在染色体损伤修复期间形成，具有一定的随机性，并且由于缺乏着丝粒，eccDNA在有丝分裂中的遗传也是随机的，这导致了细胞内eccDNA的异质性。为了解释这种异质性，一些研究尝试结合单细胞测序技术。然而，如何从大量的背景噪音中筛选出具有转录和调控能力的关键功能性eccDNA，仍是功能分析中的一项重大挑战。eccDNA的随机性同样给构建eccDNA数据库带来了挑战。与通常具有高度保守断点的circRNA不同，eccDNA断点的重复性较差，难以将新识别的eccDNA与现有数据库中的注释eccDNA进行匹配。因此，开发网页上的在线分析工具，如BLAST和基因组可视化功能，将增强eccDNA数据库的互动性，为用户提供更佳的体验。

1
2
3
4
5
6
7
8
9

标签: Oncogene, eccDNA, 染色体外环状DNA

上一篇: U6启动子与EF1α、Ubc启动子的区别
下一篇: 邻近标记技术的原理、技术迭代与应用举例