完成图里程碑丨首个完整人类基因序列发布

基因组完成图一直以来都是组学研究领域的前沿,近期发表的人类X染色体完成图8号染色图完成图极大地推动了人们对基因组完成图的认知及研究。近日,T2T联盟(端粒到端粒联盟小组)研究人员几乎同时在bioRxiv杂志上公开3篇文章,宣布完成首个无gap的人类基因组完成图,并首次解锁了基因组完成图级别的结构变异和表观遗传。这些研究成果将会成为人类测序史上里程碑事件!下面跟着组学君一起学习下这3篇文章吧。

The complete sequence of a human genome
2001年,Celera Genomics和国际人类基因组测序联盟公布了人类基因组草图,自此掀起了基因组学的一场革命。这些草图和随后更新的基因组序列,尽管有效地覆盖了基因组全染色质部分,但异染色质区域以及许多复杂区域仍然未能测通或者存在错误序列。为了解决这悬而未决的8%基因组部分,T2T联盟(染色体端粒到端粒联盟)开始了相关工作,完成了首个真正完整人类基因组测序,共计30.55亿bp的人类基因组序列。这是自人类参考基因组首次发表以来至今,最大的飞跃。新的T2T-CHM13参考基因组包括了所有22条常染色体和x染色体的无GAP组装,纠正了许多错误序列,并引入了近2亿bp(即200Mb)的新序列,其中包含有2,226个同源基因拷贝序列以及115个蛋白质编码区域。最新完成的区域还包含所有着丝粒卫星阵列(centromeric satellite arrays)以及所有5个端粒染色体(acrocentric chromosomes)的短臂区域。首次解锁的这些基因组复杂区域,以便于进行结构变异以及功能相关的研究。

在过去6年的时间里,研究者们采用了多种技术对CHM13进行测序,包括了30x PacBio CCS(HiFi)测序,120x Oxford Nanopore ultra-long测序,100x Illumina PCR-Free测序,70x Hi-C测序,以及Bionano光学图谱和Strand-seq。为了更好的利用这些数据集,研究者们开发了新的组装、校正以及验证的方法。和T2T联盟组装出的第一个X染色体(依赖于ONT测序reads搭建骨干,之后利用其它技术进行校正)相比,研究者们采用了新的组装策略,综合利用HiFi reads的准确性和读取长度,完成了高度重复着丝粒卫星阵列以及密切相关的重复片段的组装。

T2T-CHM13人类完整基因组序列与GRCh38的比较

T2T-CHM13v1.1组装包括了22条人类常染色体和x染色体的端粒到端粒的无GAP组装,由3,054,815,472bp的核DNA16,569bp的线粒体基因组组成(CHM13没有Y染色体)。和GRCh38相比,这个完整组装的参考序列增加或修正了238Mb的序列。该序列的大部分是由着丝粒卫星序列(180Mb)、重复片段(68Mb)和rDNAs10Mb)组成,表明在着丝粒和重复片段确定区域之间存在重叠。在这些区域中有182Mb的序列是首次发现,因此对CHM13组装而言是全新区域。最终发现T2T-CHM13v1.1组装版本显著增加了人类基因组中的已知基因数目和重复序列数量。T2T-CHM13共注释出63,494个基因和233,615个转录本,其中有19,969个基因和86,245个转录本预测为蛋白质编码区域。

Segmental duplications and their variation in a complete human genome
大片段复制(segmental duplications,以下简称SDs)在人类疾病和进化中具有重要意义;但由于其结构的复杂性,这些高度相同的大片段重复(SDs)是人类参考基因组(GRCh38)中最后完成的区域之一。基于完整的 T2T人类基因组(T2T-CHM13),研究者们呈现了一个综合的人类SD结构组织。在染色体级别的scaffolds中鉴定了218Mbp的SDs,其中1/3(81.3 Mbp)的SDs为新发现的或其结构与GRCh38中是不同的,将人类基因组片段复制的占比预估值从5.4%提高到了7.0%,发现近端着丝粒染色体的63%(35.11/55.7Mbp)由SDs组成,且SDs长度比其他SDs长1.75倍(p=0.00034)。使用DupMasker对所有T2T-CHM13 SDs进行注释,鉴定了30个在T2T-CHM13和GRCh38之间拷贝数变化最大的复制子,而这也是基因注释最有可能改变的区域,然后,研究者们集中关注了这30个SDs结构组织的验证,将来自人类fosmid基因组文库(25)的可用末端序列数据比对到T2T-CHM13组装结果中选择合适的探针以确认高同一性(>95%)SDs的模式,结果显示所有30个基于T2T-CHM13预测的SDs都得到了验证。与独特区域相比,SDs有更丰富的单核苷酸变异多样性,而基于T2T-CHM13和GRCh38参考基因组的高质量和单倍型性质,研究者分析比较了全基因组模式的单核苷酸变异,同时基于GRCh38 and T2T-CHM13的共有区域,研究者预估了unique regions 的单核苷酸变异(SNV)密度为0.95SNVs/kbp,而当加上SDs区域时,密度上升为1.47 SNVs/kbp,这50%的增加可能是因为SDs突变率的增加(例如,由于中间基因转换的作用),或是重复序列的平均聚合程度加深。此外,研究者关注了重复基因转录相关的甲基化特征,发现SD区块通常作为一个整体被甲基化或非甲基化,分析预测了182个新的蛋白质编码候选基因,其中许多代表扩张的串联重复(例如,X染色体上的GAGE基因家族成员)或大的散布重复(例如,β-防御素基因座),将几乎相同的基因的额外拷贝添加到人类基因组中。比较了其他人类(n=12)和非人灵长类(n=5)基因组的长读长组装结果,使用T2T-CHM13基因组系统地重建了在人类额叶皮质扩张中重要的生物医学相关(LPA、SMN)和重复基因(TBC1D3、SRGAP2C、ARHGAP11B)的进化和结构单倍型多样性。此项研究揭示了人类及其近亲在SD结构中前所未有的结构杂合度模式和巨大的进化差异。

T2T-CHM13GRCh38SD的统计

T2T-CHM13基因组中的SD占比

Epigenetic Patterns in a Complete Human Genome
人类第一个端粒到端粒基因组T2T-CHM13的完成,使人们能够探索完整的表观基因组,消除之前参考序列缺失所带来的限制。现有的表观遗传研究忽略了未组装和无法定位的基因组区域(如着丝粒、着丝粒附近、端粒臂、亚端粒、片段重复、串联重复)。利用人的基因组完成图,我们能够通过k-mer辅助绘图方法测量表观遗传标记的富集。这使得阵列级富集信息能来表征这些卫星重复的表观遗传调控。利用Nanopore测序数据,我们生成了迄今为止最完整的人类甲基化基因组。我们分析了卫星DNA的甲基化模式,并揭示了沿单个分子有序的甲基化模式。在探索着丝粒表观基因组时,我们发现了一个与着丝粒组装的活性位点一致的着丝粒甲基化的显著下降。并且发现低甲基化区域极其难以接近,并与CENP-A/B结合配对。利用长读长,我们研究了复杂的大卫星阵列(如X染色体失活)中特异等位基因的大范围表观遗传模式。利用单分子测序,可以基于甲基化状态区分表观遗传异质性和均质区来聚类。该研究应用长读长和短读长技术为表观遗传调控提供了新的见解,为研究人类基因组最难以捉摸的区域提供了一个框架。

 

2001年人类基因组计划完成,使人们不仅能够了解编码序列,而且能够了解基因组的其他部分如何通过表观基因组调控基因表达。但表观基因组只能通过生成人类基因组的完整基因组才有机会来探索最后的前沿——基因组的重复区域。在T2T-CHM13中,绝大多数新序列位于着丝粒间、着丝粒和端中心区域(+180.5 Mb)和片段重复区域(+44.2 Mb)。基因组的表观遗传调控不仅控制基因表达,而且通过调控异染色质提供基因组的稳定性。

长读长生成人类染色体完全甲基化图谱

利用T2T-CHM13基因组,我们已经开始探索新完整区域的表观基因组。通过k-mer辅助制图,我们利用现有的短读数据来探索重复阵列水平的表观遗传图景。为了检测重复区域,我们应用Nanopore的长读长表观遗传学分析。与合成测序策略不同,Nanopore测序直接探测DNA,可以同时测序碱基序列和表观遗传状态,长读长提供了对单个分子表观遗传模式的更深入的了解。结合T2T-CHM13组装和来自同一CHM13细胞系的超长读长CpG甲基化数据,我们生成了迄今为止最完整的人类甲基化组。染色体臂上的着丝粒卫星和大卫星的高分辨率甲基化图谱揭示了这些区域的新机制和表观遗传特征。纳米孔测序的单分子读取特性允许进一步了解表观遗传细胞间的异质性和单倍型甲基化。随着对完整基因组组装的大规模改进和超长Nanopore数据的可定位性的结合,研究大范围卫星阵列的表观遗传调控在技术上成为可能,并可揭示新的机制和调控事件。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注