NextDenovo软件 | 组装领先一步,发文章领先一大步!

自ONT测序数据用于基因组组装以来,适用软件一直很少,且市面上的组装软件要么极其消耗计算资源,要么组装效果非常差,该问题不仅导致大量ONT de novo项目积压、交付困难,更阻碍了高质量基因组组装及其后续科学研究,基于此希望组集团首席生信技术官胡江先生主导开发了NextDenovo软件用于解决上述组装难题。

近日,由希望组、中国科学院昆明动物研究所联合在bioRxiv预发表了题为“An efficient error correction and accurate assembly tool for noisy long reads”一文,介绍了目前广泛使用的组装工具NextDenovo,它能够快速纠正三代高错误率数据并进行后续组装,与其他类似工具相比错误更少,速度更快。

NextDenovo首先进行测序read之间的比对(图1A),然后过滤掉重复比对,同时根据比对深度分割嵌合的reads(图1B)。NextDenovo采用了kmer评分链(KSC)算法执行初始化的矫正,值得说明的是该算法也成功在我们之前发布的polish工具NextPolish中使用(图1C)。最后,从校正的区域中提取低分值区(LSR,对应高错误率区域),做进一步矫正(图1D)。进一步利用人类基因组chr.1的模拟数据和实际的生物样本测序数据,对NextDenovo、Canu(v2.0)和Necat(v0.0.1)的纠错性能进行测试。结果表明就校正速度而言,NextDenovo在模拟数据上分别比Canu和Necat快7.44倍和1.13倍,在实际生物数据上分别快69.25倍和1.63倍。对于校正后的数据大小,NextDenovo可以分别在模拟数据和实际生物数据上校正比Canu多2.21%、4.54%的数据,但比Necat少1.65%、1.00%的数据。重要的是,在模拟数据和实际生物数据上,NextDenovo校正reads的平均错误率分别比Canu低1.82%和1.31%,比Necat低0.35%和0.09%。NextDenovo校正reads的平均精度高于99%,接近PacBio-HiFi reads 准确度,而校正后reads的长度比HiFi reads长得多。总之,NextDenovo不仅纠错速度更快,而且纠错后reads错误率更低、更均匀,嵌合比例更少。

图1 NextDenovo组装示意图

研究者进一步利用NextDenovo对35名不同人种的ONT测序数据进行高质量基因组组装(其中非洲13名,东亚6名,东南亚4名,南亚6名,中东2名,欧洲2名,大洋洲1名,美国1名)(图2A)。基于单核苷酸多态性(SNPs)的主成分分析(PCA)与1000个基因组计划数据集的整合表明,35个基因组共同覆盖了现代人类存在的大部分遗传多样性。研究者首先评估了NextDenovo与Flye在人类基因组组装方面的性能(图2B)。NextDenovo和Flye组装得到的基因组大小相似(2.83 Gb),基因组覆盖率约为90.84%,但与Flye相比,NextDenovo组装覆盖了更多的单拷贝基因,保留了更多的多拷贝基因。此外,与玉米和水稻基因组组装的结果一样,NextDenovo组装比Flye组装包含更长的NGA50(大1.03-1.61倍)和更少的contigs (LGA50的68.18%-96.97%)。更重要的是,NextDenovo组装平均包含388个错误装配,约为Flye组装的70%,而NextDenovo组装的平均QV也略高于Flye组装。

图2 35个人类基因组的从头组装

片段重复(SDs)是复杂的DNA片段,具有几乎相同的序列,很难通过短读长来组装。长读长基因组测序组装技术的发展促进了SDs的检测。本研究通过使用“片段重复进化结构的Brisk推断”(BISER),确定了每个个体平均133.6Mbp的非冗余SD序列,大约相当于人类基因组的4.7%。研究结果表明,总SD大小和基因组大小之间存在显著的相关性(R2=0.9641,p<2.2e-16)。根据非洲和非非洲组装之间的SD频率差异,进一步确定了非洲特定的SD热点。结果表明,高度分化的热点在着丝粒周围区域富集(图3),这与T2T-CHM13中预测的基因组不稳定性热点一致。

长读长组装为全面发现片段重复,特别是涉及SDs的重复基因提供了希望。研究者认为这些高质量的组装应该有助于检测基因重复(图3)。特别是在10个个体(包括8个亚洲人和2个非洲人)中发现了具有开放阅读框和多个外显子的唾液淀粉酶(AMY1)基因拷贝的增加。例如,来自越南和泰国的两个人分别获得了4个和3个额外的AMY1基因,这可能有助于提高他们消化大米等淀粉类食物的能力。事实上,AMY1基因额外拷贝的获得被认为是高淀粉饮食人群的特征,尤其是东亚和东南亚人群。此外,四个基因家族簇,包括优先表达的黑色素瘤抗原(PRAME)、嗅觉受体(OR)、G抗原(GAGE)和黑色素瘤相关抗原(MAGEA),显示出具有同源基因的密集SDs簇(图3)。因此,长读测序使准确组装那些具有高度相似的同源簇特征的基因组区域成为可能,包括那些包含扩展的串联重复基因的基因组区域。

值得一提的是由于纠错步骤所赋予的高准确度,NextDenovo可以得到更多包含错误极低的连续组装。在组装ONT“超长”reads时优势更为明显,因为NextDenovo可以产生部分或接近染色体水平的组装,这不仅适用于人类基因组的组装,也适用于复杂植物基因组的组装。

图3  重复基因和SD热点的分布

总之,本研究介绍了一种高效且准确度高的适配ONT数据的组装工具NextDenovo,该工具在测试数据和真实人类基因组的组装中效果极佳,对比其他软件优势明显,在基因组组装领域应用广泛。NextDenovo软件的使用将为种群规模的长读长数据基因组组装铺平道路,从而促进利用纳米孔长读测序数据进行人类泛基因组的构建。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注