进展迅速丨高质量人类二倍体基因组组装策略来临

自T2T联盟于2021年5月在BioRixv预印版上发表了首个人类基因组完成图及相关文章之后,近日人类泛参考基因组联盟紧跟步伐在BioRixv预印版上发布了题为“Automated assembly of high-quality diploid human reference genomes”的文章。

样本来源

目前常用的人类参考基因组GRCh38,是科研团队花费20多年的努力而完成的高质量的人类基因组。该基因组极大程度上推进了生命科学相关领域的发展。但是它仍然存在着许多gaps(gap数已从原来的150,000个降低至了现今的995个)和错误。因为GRCh38是20位匿名志愿者的混合样本,所以并不代表单个个体的人类基因组。2021年,T2T联盟利用最新的长读长技术与自主研发的生信算法组装出了高质量端粒到端粒的参考基因组CHM13(首个人类基因组完成图)。由于它来源于一个带有重复基因的葡萄胎细胞系,因而几乎是纯合基因组。在组装难度上,纯合基因组比二倍体基因组组装相对较低。为了解决这些原有人类基因组序列的局限性,研究团队成立了人类泛参考基因组联盟(Human Pangenome Reference Consortium,HPRC)。该联盟旨在整合高质量、低成本、二倍体人类基因组,用以构建代表人类遗传多样性的人类泛参考基因组。

人类泛参考基因组联盟使用的是二倍体基因组,组装难度会更高。在样本选择上,选择了广泛使用的HG002的永生化淋巴细胞GM24385,用于ONT测序和Bionano光学图谱测序。二代illumina测序和PB测序数据使用的样本是由大量GM24385细胞而来的NIST标准样本8391 DNA样本。父系样本HG003和母系样本HG004分别来源于公开的GM24149和GM14143细胞系,并通过二代illumina测序对NIST标准样本8392(含HG002、HG003和HG004)的DNA进行测序。

组装策略及结果

本文是以HPRC的名义发表的首篇文章,该文章确定了当前基因组测序和automated组装方法的组合可以在人工干预最少的情况下产生最完整、最准确和最经济的二倍体基因组组装。在组装过程中,团队选择了最优的高精度长读长reads和父母本及子代数据进行单倍体分型组装(trio-based assembles)的方法。第一个高质量二倍体人类参考基因组(XY型),平均每条染色体仅有~4个Gaps(范围在0-12),大多数染色体长度和CHM13相比仅有±1%的差异。将近四分之一的蛋白编码基因在单倍型间存在同义氨基酸变化,而其中着丝粒区域变异的密集度最高。该研究为构建涵盖从单个核苷酸到大型结构重排的所有遗传变异的人类泛参考基因组奠定了基础。

测序及组装方法的测试总结

HPRC Trio pipeline v1.0组装流程图

小结

使用目前已有的方法和技术,研究者们可将二倍体HG002基因组的组装达到整体完整度的98.5%。利用这些方法组装不同的二倍体人类基因组,构建人类泛参考基因组,将会更全面地了解人类遗传多样性,提高精准医疗的准确性,并对生物基因组学有更深入的了解。

美国学者Erich D. Jarvis为论文的第一作者,中南大学王建新团队、中山医眼科肖传乐团队、中国农科院阮珏团队、昆明动物所张国捷团队以及华大基因杨琛涛团队均参与该项项目研究。

希望组一直致力于推动各个物种基因组完成图的组装及应用。近期还为动植物基因组完成组量身定制包含测序及组装在内的全套解决方案,敬请期待!

原文链接:https://doi.org/10.1101/2022.03.06.483034

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注