eccDNA鉴定分析中的生物信息学进展

时间: 2024-10-10
分类: 文献
阅读: 2584

　　在检测简单eccDNA方面，Circle_finder和Circle-Map表现出色；然而，ecc_finder由于采用了严格的过滤标准和断点确定方法，其表现相对不佳。这三种基于NGS的方法均仅限于检测跨越eccDNA断点的读取，导致复杂eccDNA的片段或连接处被错误识别为简单eccDNA。此外，Circle_finder和Circle-Map还无法正确区分SV事件与背景噪音。

　　对于基于TGS的方法，作者团队同样允许检测到的简单eccDNA有50个碱基的偏差。对于复杂eccDNA，作者团队设定了更高的标准：候选eccDNA所有片段的基因组位置与模拟数据集中的位置偏差必须在50个碱基以内，并且这些片段必须按模拟数据集中的顺序连接。此外，由于Flec为每个读取输出候选eccDNA，而Circle_finder不合并相似的eccDNA，作者团队进一步处理了Flec和Circle_finder的输出，将断点偏差在50个碱基内的候选eccDNA合并以减少冗余。

　　在TGS数据上，ecc_finder的表现仍然不理想。Flec表现出最高的检测灵敏度，但同时也产生了最多的假阳性结果。FLED和NanoCircle在召回率和精确度之间取得了良好的平衡，获得了较高的F1评分。CReSIL和ecc_finder仅分析长度超过200个碱基的eccDNA，这影响了它们检测到的eccDNA数量。与Flec和NanoCircle相比，CReSIL和FLED对复杂eccDNA的敏感性较低，但精确度更高。尽管ecc_finder和NanoCircle适用于TGS数据，但它们主要依赖跨越eccDNA断点的拆分读取，因此更容易将复杂eccDNA和SV错误识别为简单eccDNA。

　　比较CC和HP数据集，尤其是TGS方法在HP数据集中的表现更稳定。作者团队推测，这一差异可能是由于CircleBase中HP样本的eccDNA较短且分布更加均匀，而CC样本中的eccDNA较大。检测CC中的大eccDNA对TGS方法来说仍是挑战。需要注意的是，尽管基于NGS的工具获得了更高的F1评分，这可能是由于NGS数据比TGS数据的数据量更大。TGS数据通常具有更长的读长，导致相对于相同数据量的NGS数据，其测序深度较低，这可能会偏向于NGS方法的比较性能。然而，TGS方法在检测复杂eccDNA、重复区域中的eccDNA、生成全长eccDNA序列以及识别eccDNA上的突变方面具有无与伦比的优势，而这些在NGS方法中难以实现。

　　然而，模拟数据集也有其局限性，因为它们可能无法真实再现eccDNA扩增产物的复杂背景。AmpliconArchitect、Circle-Map、CReSIL和Circlehunter也为用户提供了eccDNA模拟的脚本或子程序。

eccDNA注释数据库

　　在处理来自不同实验方法的测序数据时，采用统一的分析流程或工作流以准确识别eccDNA仍是一项重大挑战。因此，众多现有的eccDNA数据库采取了多样化的策略来扩充其内容：一部分数据库通过整合多种识别工具与特定的NGS数据集，广泛搜集文献资料中推测存在的eccDNA；而另一部分则专注于收集公开的WGS数据集，并运用一套统一的eccDNA识别工具进行系统性地识别，以期获得更为全面的eccDNA信息。

　　CircleBase作为首个专为eccDNA设计的数据库，不仅从文献中系统汇编并阐释了人类eccDNA的相关知识，还通过手动方式将eccDNA注释到复杂的调控网络中，涵盖了靶向基因、表观遗传调控机制、调控元件、染色质可及性、染色质相互作用以及遗传变异等多个层面。EccDNAdb则聚焦于肿瘤与正常样本，通过收集公开的WGS数据，并结合手动记录AmpliconArchitect工具识别出的eccDNA，有效扩大了数据库的覆盖范围。

　　TeCD数据库开创了包含多种真核生物eccDNA序列与基因组信息的先河，并提供了在线BLAST，允许用户对来自五个物种的eccDNA进行序列比对，从而找到最相似的eccDNA及其相关注释。EccDNA Atlas则以其丰富的物种涵盖范围著称，涉及66种疾病、57种组织及319种细胞系，对所有收集到的eccDNA进行了细致分类，并为记录的和用户提交的eccDNA提供了定制化的注释、分析及基因组可视化服务。

　　EccDB结合了Circle_finder和Circle-Map等多种eccDNA识别工具，从多种物种中高效识别与收集eccDNA，同时预测其转录调控功能，特别强调了染色体内与染色体间的相互作用。此外，EccDB还支持从未知DNA序列中识别eccDNA，并能进行不同物种间eccDNA的序列相似性分析。而eccBase则是目前从文献整理与数据库检索中获得Homo sapiens（人类）和Mus musculus（小鼠）eccDNA信息最为丰富的数据库。

1
2
3
4
5
6
7
8
9

标签: Oncogene, eccDNA, 染色体外环状DNA

上一篇: U6启动子与EF1α、Ubc启动子的区别
下一篇: 邻近标记技术的原理、技术迭代与应用举例