早前发表的多个非人类灵长类基因组质量和完整度不一致,且这些基因组的组装注释往往以人类基因组为参考,造成了这些非人类灵长类基因组组装和注释结果的“人源化”。上述因素严重制约了关于人类和其近亲进化的比较基因组研究。美国华盛顿大学Eichler研究组利用PacBio SMRT长读长测序平台(基因组de novoiso-seq)进行了人和猩猩、黑猩猩的基因组进行从头组装和注释,同时不使用之前的人类参考基因组做指引,首次获得高级猿类的高分辨率基因组,并获得一系列比较基因组结果。

尽管近年来人们在类人猿和人类基因组的测序组装中做了很多努力,但我们对其基因组结构上的差异的理解,特别是对人类谱系特异性的理解还远远不够。在以往的研究中存在两个问题:一是在类人猿基因组中存在相当大的杂合性;二是高质量的人类基因组常常被用来指导非人类基因组计划的后期分析,包括序列的顺序和方向,甚至是基因的注释。这造成了其他非人类基因组的“人源化”,结果导致很难发现在这些物种之间的结构变异和转录本差异。

为了解决这个问题,美国华盛顿大学Eichler研究组使用PacBio SMRT长读长测序技术及光学图谱技术,完成了两个人和猩猩、黑猩猩的基因组的从头组装和注释,同时不使用之前的人类参考基因组做指引,使得这些新组装的基因组处于同一组装水平上。这些首次获得的高分辨率基因组与先前产生的大猩猩基因组进行比较, 确认了人类特异的和猿谱系特异的基因组结构变异(Fig.1),该文于2018年6月8日在线发表于Science杂志[1] 。

Fig.1 SMRT 组装及SV分析

研究者对两个人类(CHM13和YRI19240)、一个黑猩猩(Clint)和一个苏门答腊猩猩(Susie)的基因组进行高深度PacBio SMRT测序(>65X)并使用Falcon组装,Quiver和Pilon校正,并结合BioNano光学图谱辅助构建scaffold;同时结合了RNA-Seq数据和Iso-Seq数据完善了基因注释(Table 1)。

Table1 组装结果

基因组组装质量的提高更有利于系统的研究结构变异(SVs>50 bp)。以人基因组为参考,两个新组装的人基因组为对照,共发现17,789个确定的人特异性结构变异。我们还检测到了614,186个缺失(deletions),插入(insertions)和倒置(inversions),研究结果表明,与人的进化距离越远,结构变异的数目越多(Fig.2)。

Fig.2 基于结构变异的猿进化分枝图

研究者利用光学图谱、BAC以及荧光原位杂交技术在基因丰富区域发现了更大、更复杂的染色体倒置现象(Fig.3)。

Fig.3 染色体倒置

该研究还进一步研究了人-黑猩猩脑器官差异表达相关基因,研究表明,与黑猩猩相比,人特异性结构变异基因中与放射状胶质神经组细胞相关的基因表达下调(Fig.4)。

Fig.4  人-黑猩猩脑器官基因表达的差异性

这项研究充分体现了Pacbio SMRT长读长测序技术在基因组de novo组装及Pacbio iso-seq在完善基因组注释中的作用,不依赖于参考基因组的测序组装最大程度地保留了物种的特异性基因组信息,为研究近缘物种的演化及结构变异提供了有效方法。

未来组拥有PacBio SMRT、Oxford Nanopore、BioNano光学图谱及Hi-C染色体构象捕获等技术和平台,并于2016年完成了基于三代测序的亚洲人基因组“华夏一号”,拥有丰富的三代测序项目经验,三代测序研究文章已有多篇发表于国际知名期刊。在承诺高标准交付指标的同时,未来组将进一步大幅压缩项目服务周期,为合作伙伴提供优质专业的服务。
参考文献【1】Kronenberg, Z.N. et al. High-resolution comparative analysis of great ape genomes. Science 360(2018).

图片来源于网络|侵删