辞旧迎新贺岁篇|走出非洲,人类基因组丢了10%?
许多年以后,面对曾经科幻片[2]里才有的万能医疗舱,人类一定会想起他们第一次宣布HGP启动的1986年。
——测序技术敲开人类基因组大门
1990年,在经过长达四年的争论和筹划后,人类基因组计划(HGP)终于获批启动,计划15年内完成绘制分析,投入资金30亿美元。
2000年,国际人类基因组测序联盟与Celera公司联合发布了基于全基因组鸟枪发测序的人类基因组草图,在2001年成果分别见刊Nature和Science杂志[3-4],发现人类基因数目仅3-3.5万个左右。值得一提的是,中国作为六个参与国家中唯一的发展中国家,测定3116Mb的序列,即完成了人类基因组的1%,精度达到了99.99%[5]。问题是,常染色质序列覆盖度只有90%,且序列之间存在近15万个空缺,导致了早期建立的很多基因模型是错误的。
2003年,中、美、英、德、日、法六国宣布比预期提前了两年完成了人类基因组序列图并于2004年发表在Nature上,进一步压缩人类编码蛋白的基因到2-2.5万个,精度达99.999%[6]。相较于2001年,常染色质的空缺只有341个,在这前后,研究者们也陆续将性染色体注解出来。
2005年,我国参与度达10%的人类单体型图谱问世[7]。
2006年,基因含量最多、解码难度最大的1号染色体登上Nature[8],标志着HGP的传奇乐章画上了休止符。
——第二代测序掀起测序行业革命
2007年全球第一个白种人基因组图谱的公布标志着个体基因组时代的来临[9]。很快,深圳华大基因研究院就骄傲的宣布:第一个亚洲人基因组图谱“炎黄一号”发表于Nature[11],覆盖了36×的深度,拿到了一千一百七十七亿碱基对,比对了NCBI人类相关基因组,短reads序列达到99.97%覆盖率,而且根据参考的基因组,研究人员利用唯一的mapped reads获得了一个92%亚洲个体基因组的高质量序列集合。同时研究人员从中识别出了大约300万个SNPs,其中13.6%在dbSNP数据库中没有出现过,基因型分析证明这些SNP具有高精确性和一致性。研究人员还将这些序列与另外两个个体基因组(J. D. Watson and J. C. Venter)进行了比较,证明了第二代测序技术在个人基因组方面的应用潜力[12]。得益于第二代测序技术的高通量,整个项目不过一年时间,耗资1000万人民币!这项里程碑式的成果对中国以至整个亚洲人的治病基因、疾病预测等研究都有着非同寻常的意义。接着,第一张女性个人基因组图谱、第一张非洲人基因组图谱也相继出炉。但是第二代测序技术读长比重复元件要短,而人类基因组中已知的重复序列和片段化的重复元件占了近一半,这就导致在拼接的时候难免遗漏很多重要的信息。

2008年炎黄一号首张中国人基因组 图谱登 《Nature》封面
——第三代测序助力人类精细图谱问世
第三代测序技术以单分子测序且读长超长著称,因无需PCR,所以几无测序偏好性,由于荧光基团并不是附着于碱基而是磷酸键之上,大大降低了测序过程中的三维阻力,再加上ZMW孔锁定荧光检测区域,使读长远超二代测序。
通过PacBio SMRT,未来组助力暨南大学粤港澳中枢神经再生研究院主导的亚洲人参考基因组“华夏一号”收录于Nature Communications[10]。
“华夏一号”基因组组装策略结合了PacBio SMRT单分子实时测序技术和BioNano光学图谱分析技术,从头组装得到2.93G基因组,Contig N50为8.3Mb,Scaffold N50为22Mb,得到一个中国人个体的基因组接近完成图。
图2 相较已发布人类参考基因组,“华夏一号”的Contig N50有将近10倍的提高
研究者还发现PacBio数据可以轻松跨越从5’末端到3’-Poly A tail的完整转录本,从而准确鉴定异构体,并对可变剪接、融合基因、等位基因表达等进行精确分析。在对Illumina和PacBio的测序数据的覆盖率比较后发现PacBio数据不受GC含量高低的影响,所以可以覆盖到多Illumina数据覆盖不到的区域,所以在基因组组装上优势就很明显。
图3 a.PacBio数据对GC含量异常区域覆盖更均匀,b.PacBio覆盖到Illumina覆盖不到的区域
“华夏一号”的发布填补了中国人群的疾病研究缺少精细参考基因组的不足,并将推进临床和科研大数据应用的重要基础性工作,大力推动中国的遗传疾病研究与诊断的发展。
第三代测序技术不仅有PacBio,更有人类历史上首次实现的纳米级别、也是唯一一种通过电信号的波动进行测序的技术Oxford Nanopore Technology(ONT),如2018年Nature Biotechnology上就发布了使用ONT首次高精度解析人类Y染色体着丝粒的研究[13]。
——非裔泛基因组补充10%人类DNA
最新的GRCh38基因组只有875个gaps[14],虽则如此,研究者们的目光多是聚焦在单个人身上,这样无疑滞碍了混血群体的研究,例如非裔人群。
近期,有约翰斯·霍普金斯大学的研究者使用全基因组鸟枪法测序法深度测序了910个非洲人种,构建了人类参考基因组中缺失但却在这910个非洲人中共有的DNA序列集,并鉴定出非洲人泛基因组在参考基因组中缺失的区域,最后发现了125715个特异contigs相当于比人类参考基因组多出超过约10%的DNA。研究者揭示出其中387个contigs来自315个特异的蛋白编码基因,余者来自基因间区域。这一研究成果发布在Nature genetics[15]上。
在这份研究中,研究人员收集了来自910个非洲人后裔群体的基因组,横跨全球20个地区包含美国、中非和加勒比等地的CAAPA(美洲非裔群体哮症协会)成员,使用Fig.1图示步骤去除了污染及冗余的contigs,最后鉴定到了GRCh38基因组中缺失的296.5Mb共125715条新序列,并且研究者将其中1548条序列(4.4Mb)锚定到了GRCh38基因组上的特异位点上,平均每个个体包含了859条插入序列,其中有一条序列同时可以在六个个体中找到。1548条序列中的302条完整定位到了基因组中的位置并解决了剩下1246条序列插入末端的断点。最长的定位到的序列为79938bp,存在于在197个样本中,而最长的未定位到的序列为152806bp,存在于11个样本。所有定位到参考基因组上的序列中的387条与已知基因相交,48个特异基因在外显子上,另外267个基因属于内含子区域;其中315个基因含插入序列,其中292个被命名(非“假设”或无意义的鉴定)。研究组装出的contigs中的31354079个碱基可以比对到GRCh38基因组上(一致性≥80%),组装成单个基因组后可以匹配上60202871个碱基(一致性≥80%)。
另外,研究还将该研究中的125715个泛基因组contigs比对到未来组参与完成的华夏一号(HX1)基因组和韩国人基因组(KOREF1.0)上,发现有42207个contigs共120.7Mb可以比对到韩国人或华夏一号基因组上且一致性≥90%,覆盖度≥80%,优于对GRCh38的匹配度,其中一个区段的示例见表1和图4,这个发现表明生成GRCh38基因组的个体缺失了一部分序列。
表1 非裔泛基因组contigs和华夏一号及韩国人基因组的比较
图4 将非裔泛基因组和华夏一号、GRCh38基因比对
Shi et al等人于2016年组装的华夏一号基因组报道了12.8Mb的新DNA,研究者则发现华夏一号和该研究中生成的特异序列共享68.1Mb的DNA。总之,该研究发现,亚洲人泛基因组产生的序列中有296.5Mb相当于10%的基因组大小在标准人类参考基因组中是缺失的,这其中有120.7Mb可以在韩国人或者华夏一号基因组中找得到,间接表明这些DNA代表的基因区域在GRCh38基因组所代表的群体中于更近的时期丢失了或者十分罕见,也可以说明单个参考基因组不适宜基于群体的人类遗传学研究,将来或许会有更好的方法获取综合性的人类泛基因组,捕获所有人类中的DNA。
随着“中国十万人基因组计划”、“地球生物基因组计划”的相继问世,人类仍在组学研究的大潮中寻找属于自己的那朵浪花,现有的成果距离揭示人类的奥秘还有很长的路要走。武汉未来组有幸也成为了一名弄潮儿,由未来组发起的“个人参考基因组服务计划”、“华夏万人结构变异计划”正在如火如荼的进行,并且进展顺利。人的智慧无穷尽,探索的脚步永不停,总有一天,人们只需要带着自己的基因图谱去看医生,扫描一下数据就可以直达病灶,然后躺进万能的医疗舱,出来的时候百病全消……
辞旧岁,迎新年,在这里,组学君默默祝祷,期望每一个善良的人都平安喜乐,百病不生。在新的一年,未来组将创造更多的成绩回馈社会,回馈组学领域,也祝愿每一位科研工作者硕果累累,万事如意!
已发表精细人类基因组图谱[10,16]
2018年NCBI上收录的人类基因组组装版本[17]

参考文献
[1]http://jiyongqing.blogchina.com/2427017.html
[2]《第五元素》、《极乐空间》、《普罗米修斯》等好莱坞科幻影片中均出现过能够复原生命或者治疗人类疾病的医疗舱。
[3]International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860–921 (2001).
[4]Venter, J. C. et al. Te sequence of the human genome. Science 291,1304–1351 (2001).
[5]骆建新, 郑崛村, 马用信, et al. 人类基因组计划与后基因组时代[J]. 中国生物工程杂志, 2003, 23(11):87-94.
[6]Finishing the euchromatic sequence of the human genome[J]. Nature:931-945.
[7]A haplotype map of the human genome : Article : Nature[J]. Nature, 2005.
[8]Gregory S G , Barlow K F , Mclay K E , et al. Corrigendum: The DNA sequence and biological annotation of human chromosome1[J]. Nature, 2006, 441(7091):315-321.
[9]高媛. 后基因组时代的生物信息学发展[J]. 中国科技信息, 2009(10):225-226.
[10]L. Shi, et al., Long-read sequencing and de novo assembly of a Chinese genome. Nature Communications (2016)
[11]The diploid genome sequence of an Asian individual[J]. Nature.
[12]https://m.antpedia.com/news/49844.html
[13]Jain M, Olsen H E, Turner D J, et al. Linear assembly of a human centromere on the Y chromosome[J]. Nature biotechnology, 2018.
[14]Schneider, V. A. et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 27, 849–864 (2017)
[15]Sherman, R. M. at al. Assembly of a pan-genome from deep sequencing of 910 humans of African descent. Nature Genetics.51, pages30–35 (2019)
[16]De novo assembly and phasing of a Korean human genome. Nature 538,243–247 (13 October 2016) doi:10.1038/nature20098
[17]https://www.ncbi.nlm.nih.gov/assembly/organism/9606/latest/
发表评论
想参加讨论吗?请尽情讨论吧!