Nature Reviews|突破黑暗——长片段测序技术的应用优势及其生物信息学算法

长读长测序和远距离映射技术的发展促进了物种参考基因组质量的提高,同时也为转录组学和表观遗传学研究提供了新的方法,使复杂结构变异鉴定成为可能。与此同时我们也需要开发新的生物信息学方法,以期达到对测序数据的高效利用。近期在Nature Reviews上发表的一篇综述文章讨论了当下流行的几种基因组学研究方法的主要应用方向,并重点关注当前适用的一些生物信息学分析工具[1]

二十世纪中后期,高通量的二代测序技术的发展降低了测序费用,实现了人们对基因组多样性、病原体变异及转录组、表观组和基因调控等的进一步研究。但是二代测序的短读长劣势,也限制了其对基因组中的重复序列和复杂结构变异等的鉴定。同时,文库构建过程中人为引入的错误也是二代测序技术面临的一大问题。

新近发展起来的基因组学技术如长读长测序技术PacBio SMRT和Oxford Nanopore(平均读长超过10kb,最长可达1Mb)、长片段测序技术Bionano、Hi-C及10X Genomics技术等可解决复杂基因组中的重复序列、微卫星序列及其他复杂的结构变异等问题。Table 1列举了这些新技术的主要应用方向。

新的数据类型催生了新的适用于其的生物信息学算法,文章中列举了基于这些新基因组学数据的大量实用分析软件。当前,新的生物信息分析工具已经结合新技术在很大程度上提高了我们对基因组的认识:

>>>>

基因组de novo组装

复杂重复片段、高杂合、测序错误、覆盖不足或偏向性等问题是基因组组装中的重难点,其中,重复片段是最难克服的一环。基于二代短读长测序极有可能会导致拼接错误。基因组de novo组装是长读长测序的一个重要应用方向——它们解决了基于二代短读长技术所不能解决的复杂重复片段及偏向性等问题。同时结合Bionano光学图谱技术等可进一步提高基因组组装质量。

>>>>

染色体scaffolding和空白填补

新技术的加入填补了许多基于一代或二代测序技术得出的参考基因组中的许多空白(如玉米、果蝇和蚊子基因组等),并进行纠错,获得了更为完善的物种基因组。与contig不同,scaffold序列含N碱基,如何确定contig的正确顺序和方向是scaffolding的难点。使用染色体构象捕获技术(Hi-C)、10X Genomics技术及光学图谱技术(Bionano)可以有效地辅助构建scaffold。例如,山羊和人的基因组组装就结合了长读长测序技术和Hi-C技术,contig N50分别达到了18.7 Mb和26.8 Mb,scaffold N50分别为87Mb和60.0Mb。

Fig.1 PacBio+Bionano组装结果与参考序列hg19比较 [2]

>>>>

复杂结构变异鉴定及分析

染色体结构变异(SVs)包括缺失、插入、重复、倒位和转座几种类型,变异区段通常大于50bp。SVs与人类健康和疾病有密切关系。过去的SVs分析通常基于短读长的测序技术,然而由于读长限制,二代测序技术对SVs的鉴定存在较高的错误率,且灵敏度较低。可喜的是,新一代的长片段测序技术为SVs的鉴定提供了新的可行性方法——与二代技术相比具更高的灵敏度和更低的错误率。

Fig.2 基于Illumina、PacBio和Oxford Nanopore的测序数据中的结构变异分析的比较

>>>>

单倍型及等位基因特异性分析

许多真核生物,包括高等动植物,其基因组往往含有不只一个拷贝的染色体组。鉴别母本和父本的基因型有利于区分复合杂合子和半基因突变,以及等位基因特异性表达等。使用测序技术直接获取个体的单倍体信息具有很大的研究价值。如Fig.3所示,当测序reads足够长,即能够跨越杂合子变异区而实现对单倍体的有效phasing。但实际上通常由于读长限制、测序错误及测序覆盖深度的波动导致变异的错误引入和真实变异的缺失。

Fig.3 长reads对单倍体的phased示意图

通过短读长测序技术获得的Phased block N50基本在1kb左右,而经长读长的PacBio和Oxford Nanopore测序获得的Phased block N50可达到100kb~500kb;由10X Genomics技术获得的Phased block N50已超过10Mb;基于Hi-C的长距离测序技术理论上甚至可以Phased到整个染色体——这些长片段测序技术的发展促进了单倍型的鉴定和分析。

>>>>

Isoform鉴定及基因定量

真核生物中的可变剪接是增加蛋白质多样性的重要机制。在果蝇中,性别特异性基因dsx的不同的剪接形式甚至决定了果蝇的性别;而在人体内,据估计有95%的多外显子基因都表现出不同的可变剪接形式,以此构成了人体中复杂的转录本。

RNA-Seq技术虽然可以实现对转录本的表达定量,但由于其读长限制,无法准确解析真核生物中复杂的Isoform结构。而三代长读长测序技术——PacBio和Oxford Nanopore测序技术可以显著地提升对Isoform结构的鉴定。无论是cDNA测序还是direct RNA测序,都可以直接得到转录本全长,直观地展示转录本结构。

Fig.4 长读长测序发现的新的Isoform类型示例

>>>>

表观修饰的直接检测

表观修饰是生物体基因表达调控机制中的重要一环,长片段测序技术实现了对表观修饰尤其是甲基化修饰的直接检测分析。目前研究较为广泛的甲基化修饰机制主要是6mA及5mC。先前对5mC的主要检测方法是基于短读长的亚硫酸氢盐测序法,该方法具有较高的偏好性。而长读长的PacBio和Oxford Nanopore测序技术可以直接对天然DNA进行测序,减少了人为引入的错误因素,更真实地还原DNA链上的甲基化修饰现象。

Fig.5 单分子测序法检测甲基化核苷酸。(A)基于PacBio Sequel的甲基化修饰检测原理图;(B)基于Oxford Nanopore甲基化修饰检测原理图

基于PacBio的 BaseMods软件根据测序过程中聚合酶引入核苷酸的速度——脉冲间隔的持续时间(IPD)来判断是否存在甲基化修饰(Fig. 5Aa、Ab)。Nanopolish和SignalAlign则是基于Oxford Nanopore的甲基化检测软件,通过分析非甲基化和甲基化核苷酸引起的电流信号变化来判断发生甲基化修饰与否(Fig.5 B),随后,利用隐马可夫模型(HMM)分析该修饰是发生在胞嘧啶还是腺嘌呤上。此外,最新的研究表明Oxford Nanopore技术甚至可以直接检测RNA分子上的甲基化修饰。

多组学技术结合对于结果分析更有利,这也就意味着我们需要更加灵活的生物信息分析工具。文章还指出了这些长片段测序技术在应用过程中所面临的一些生物信息学分析挑战(Table 2)。

新兴的长片段测序技术和映射技术结合适当的生物信息学算法,将在很大程度上提高基因组、转录组以及表观组的数据质量,为人们提供更全面的基因组学信息,有望更完整、更准确地展现基因形式,实现对基因调控区域及其他重要元件的准确识别,并提高对等位基因特异性的鉴定,在科研及临床医学领域都具有不可估量的应用前景。

武汉未来组拥有PacBio Sequel、Oxford Nanopore、Bionano光学图谱及Hi-C染色体构象捕获等技术和平台,拥有丰富的三代测序项目经验,旨在为广大合作伙伴提供优质、快捷的基因组转录组测序组装分析服务。

参考文献

[1] Sedlazeck F J, Lee H, Darby C A, et al. Piercing the dark matter:bioinformatics of long-range sequencing and mapping[J]. Nature ReviewsGenetics, 2018: 1.

[2] Pendleton M, Sebra R, Pang A W C,et al. Assembly and diploid architecture of an individual human genome via single-molecule technologies[J]. Nature Methods, 2015, 12(8):780.

图片来源于网络|侵删

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注