三代测序助力精准医疗:解读“华夏一号”亚洲人精准基因组项目

发布时间:2016.07.05   浏览2817次




 

    近日,由暨南大学粤港澳中枢神经再生研究院主导,南加州大学、华盛顿大学、俄亥俄州立大学、美国国立卫生研究院生物技术信息中心、武汉生物技术研究院、未来组、哥伦比亚大学、贝勒医学院、冷泉港实验室等多家科研单位共同合作完成的第一个亚洲人参考基因组“华夏一号”在线发表于Nature Communications杂志。在该项目中,研究人员利用PacBio公司的SMRT( Single Molecule, Real Time)三代测序技术,结合BioNano光学图谱分析技术,完成了第一个参考序列级别的亚洲人基因组图谱,对于中国人群基因组学研究、遗传疾病研究、精准医疗应用等领域具有重要科学及临床价值。

 

    最终数据中,PacBio数据产出超过103X覆盖率,BioNano数据产出超过101X覆盖率,本项目平均读长达到7Kb,N50为12.1Kb,de novo组装得到2.93G基因组,Contig N50为8.3Mb,ScaffoldN50为22Mb。与目前已经发布的几个de novo的个人基因组相比较,“华夏一号”的Contig N50有将近10倍的提高,4.1Mb为首次报道的新发现序列。这也证实了三代测序确实是基因组组装的超级神器,正式带领研究人员走入Mb级别的de novo基因组组装时代。

 

   从临床医学及临床科研领域的角度,小编带您解读一下“华夏一号”数据在特定的一些与疾病相关区域检测方面其他技术无法比拟的优势。

 

1. 全基因组范围内结构变异的检测

 

a. 基因组结构变异(SV)检测

    基因组结构变异是一类常见的变异类型,较之于序列变异(SNV,indel等),影响了更多的基因组序列。由于结构变异本身的多样性及复杂性,使得常规技术(包括二代测序技术)在检测结构变异方面检出率较低,假阳性率较高。本研究中,对比了基于PacBio数据的结构变异数据与基于Illumina数据的结构变异数据,结果显示,PacBio数据检测到9891个deletion及10284个insertion,而通过Illumina数据检测到2403个deletion和783个insertion。较之于二代测序技术,三代测序技术可以检出更多的deletion和insertion等结构变异。

 

(Shi L, et al. Nat commun.2016)

 

 

b. 检测复杂的结构变异,并准确确定断裂位点位置

    PacBio超长读长的特点,可以准确地鉴定二代测序无法检测的结构变异的同时,确定结构变异的断裂位点位置。如图所示,二代测序没有办法看出KRTAP1-1中的一个deletion的断点,但是三代测序可以很明显的把断点找出来,因为一半的reads 跨越了断点(IGV图中黑色的区域)。

 

 

(Shi L, et al. Nat commun.2016)

 

2. 人类疾病相关的特定复杂基因组序列的检测

 

a. 单体型复杂的HLA高分辨率分型

    本研究中,三代测序数据的reads平均读长达到7Kb,N50为12.1Kb。这一特点使得三代测序技术可以很容易的获得一些特定复杂区域(HLA区域)的全长序列信息,达到单分子水平的分辨率,从而对HLA基因进行全长超高分辨率地分型,无需拼接。

 


 

b. 微卫星重复序列的检测

    本研究中,基于三代测序技术de novo组装出的"华夏一号”基因组数据得到了大量的二代测序技术无法获得的微卫星序列(在新发现的序列中75.5%为微卫星序列)。显示出三代测序技术在检测微卫星序列相关疾病方面明显的优势(如脊髓小脑共济失调、亨廷顿舞蹈症等由于微卫星扩增或收缩导致的疾病),不但可以获得准确的微卫星序列的长度,还可以准确的获得详细的碱基序列信息,而这些信息对于研究基因型与表型之间的复杂关系有着重要意义(图例为SCA10基因疾病相关区域微卫星序列)。

 

 

3. 由于三代测序的读长可以达到10-15Kb,可以轻松跨越完整的转录本,无需组装,准确鉴定异构体。

 

    本研究对“华夏一号”的转录组数据的分析,发现了58383个高质量的异构体,其中57个为新发现的基因(这些新发现的基因,在以前的GENCODE根据二代测序数据建立的基因模型中未检测到)。

 

(Shi L, et al. Nat commun.2016)

 

    这一结果显示PacBio数据在鉴定异构体方面具有明显的优势,可以用于检测新的剪接本、融合基因及等位基因表达等。达到对可变剪接、融合基因、等位基因表达等方面的精确分析,使得转录组学研究从基因水平精确到具体的转录本水平,极大地拓展疾病相关的转录组学研究思路。

 

    “华夏一号”的发布,表明国内科研团队在第三代测序领域已经进入世界前沿,并填补了中国人群的疾病研究缺少精细参考基因组的不足。随着基因测序成为国家健康医疗大数据战略的主要内容之一,“华夏一号”将成为推进临床和科研大数据应用的重要基础性工作,大力推动中国的遗传疾病研究与诊断的发展。    

 

    希望组成立至今一直致力于第三代测序在医学领域的研究,于今年1月在武汉生产基地引进了亚洲首批PacBio单分子测序sequel平台,经过前期长时间的研发和积累,正式成为中国首家第三代测序精准医疗公司。未来,我们将陆续推出更多第三代测序在遗传病研究与诊断中的应用,助力精准医疗。