未来已来,单分子实时(SMRT)测序技术开启精准医疗新时代

发布时间:2018.02.09   浏览1158次




 

近年来,二代测序技术因其高通量、高覆盖度等特点,为生命科学和临床医学领域带来了革命性进展,然而由于其读长过短、存在GC偏好性等局限,无法准确检测重复序列区域以及易位、倒位等复杂的结构变异。而基于SMRT的第三代测序技术,很好地解决了这些技术瓶颈,在疾病诊断、生殖医学、癌症、微生物和病毒基因检测等医学领域有着广泛的应用前景。

 

近日,Nucleic Acids Research 杂志发表了一篇题为“Single molecule real-time (SMRT) sequencing comes of age: applications and utilities for medical diagnostics ”的综述性研究报告,全面总结了第三代测序技术——单分子实时(SMRT)测序在医学研究和诊断中的应用。

 

 

疾病诊断

 

重复序列扩张疾病

据研究,串联重复序列扩张与40多种神经性疾病有关[1]。二代测序技术由于其读长较短,在测序过程中无法跨越大多数的重复序列区域,因而无法对此类疾病进行准确的诊断,而SMRT测序技术却可以解决这一难题。脆性X综合征(FXS)作为SMRT测序技术研究的第一个串联重复序列扩增疾病,研究人员对其致病基因FMR1的CGG重复区域进行了完整测序,鉴定出了750个CGG的重复片段[2]。另一个应用是对脊髓小脑共济失调10型(SCA10)重复扩张的ATTCT区域进行了完整测序[3]

 

SMRT测序技术在FXS和SCA10研究中的成功应用,预示了该技术在串联重复序列扩张疾病检测中的重要价值,同时提高了人们对串联重复结构以及其对个体表型影响的认识。相信在不久的将来,SMRT测序技术会应用于更多重复序列扩张疾病的检测,如强直性肌营养不良症、Friedreich型共济失调、亨廷顿舞蹈症等。

 

HLA分型

人类白细胞抗原(HLA)的基因分型,对自身免疫性疾病的诊断、器官移植和干细胞移植能否成功起着至关重要的作用。HLA基因是基因组中最具多态性的基因之一,难以用二代测序技术对其分型,而三代测序技术凭借长读长的优势,可以显著提高HLA分型的准确性,许多大型的HLA分型实验室都利用SMRT测序技术进行相关研究[4]。目前该技术已逐渐成为器官移植和血液干细胞移植时进行HLA基因分型的金标准。

 

此外,SMRT测序技术还可用于基因组中其它的一些复杂区域的研究,如最近的一项研究,利用SMRT测序分析了杀伤细胞免疫球蛋白样受体(KIR)区域(该区域基因编码的蛋白具有识别人类白细胞抗原的功能),并首次对多个单倍型进行了不同阶段的分析[5]

 

假基因鉴定

假基因与真基因之间存在高度的序列相似性,短读长测序很难对二者进行区分,而长读长测序可以跨越实际的基因区域从而准确区分出真假基因。对医学诊断来说,通过对目标区域或位点捕获后再进行SMRT测序是一种性价比较高的方法,目前已成功应用于靶向药物代谢基因CYP2D6的研究[6],该基因具有高度同源的假基因和拷贝数变异,因而无法用短读长测序进行检测。然而,通过SMRT测序技术可以对靶向扩增的特定CYP2D6变异位点或外显子以及整个基因位点进行鉴别,进而增强对测试个体代谢表型的识别能力,促进个体化医疗的发展。此外,三代测序技术也已被用于其它基因的基因型鉴定和假基因的鉴别研究中,如常染色体显性遗传的多囊肾基因PKD1 [7]和原发性免疫缺陷病基因IKBKG [8]

 

生殖医学

 

生殖医学在很大程度上依赖于胚胎、病人和父母的单倍型鉴定。对目标区域进行长读长测序可以实现对胚胎或病人的同源等位基因的鉴定。利用SMRT测序技术对一个有特雷彻·柯林斯综合征(TSC)患者的家庭进行研究,结果发现了一个遗传自其父亲的TCOF1基因变异位点,该变异位点影响基因剪切并有可能导致疾病的发生。该研究同时对有复发性流产经历和生育疑似患有努南综合征胎儿的夫妇进行了SMRT长读长测序,结果发现父亲的精子有37%的变异频率,并从中找到了PTPN11 致病变异位点,为后续妊娠复发风险的评估提供了指导[9]

 

癌症

 

在癌症患者的治疗过程中,监测恶性肿瘤细胞的低频变异至关重要。慢性髓细胞白血病(CML)是一种由9号染色体和22号染色体之间的易位引起的疾病,易位导致了BCR-ABL融合基因的产生。通常对CML患者采用酪氨酸激酶抑制剂(TKIs)进行治疗,从而抑制融合基因的产生,但是这种疗法会诱导点突变,从而导致肿瘤细胞产生耐药性。SMRT测序可以检测到低于1%频率的抗性突变,与Sanger测序所达到的15-20%相比,显著降低了检测阈值。此外,SMRT测序还可以提供关于BCR-ABL1中耐药突变的分布信息,并识别出许多不同的剪接异构体[10]。在对肿瘤抑制基因TP53的研究中,SMRT测序结果显示,急性髓系细胞白血病(AML)和骨髓增生异常综合征(MDS)患者的肿瘤细胞中有多种不同的TP53突变形式,这些TP53的异质性信息可用于指导患者的治疗[11]。此外,一些与癌症无关的微小体细胞突变也可以被SMRT检测到,如该技术检测到了体细胞中GJB2 基因的嵌合突变,该突变位点影响角膜炎-耳聋综合征患者的皮肤损伤修复[12]目前SMRT测序已广泛应用于多种癌症细胞系的研究,包括急性髓系细胞白血病、慢性粒细胞白血病、浆细胞白血病、伯基特淋巴瘤和多发性骨髓瘤等。

 

微生物和病毒研究

 

目前,SMRT测序已被用于流感病毒、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)和人类免疫缺陷病毒(HIV)等引起的传染性疾病的研究中。HCV 和 HIV 是长度约为9kb的RNA分子,HBV是一种大小为3kb的环状DNA病毒,通过SMRT测序可以一次性获得病毒基因组全长序列。通过HIV-1全长测序检测到了约9700 bp的序列,该序列存在至少109种不同的可变剪切并编码了9种主要蛋白质,其中两种可变剪切可以编码新的蛋白质[13]。这将有助于在特定的基因中开展不同剪接异构体的分布研究,为感染性疾病的治疗开辟了新途径。

 

SMRT测序可以实现复杂细菌基因组的完整组装,已在结核分枝杆菌(Mycobacterium tuberculosis)、引起溶血性尿毒综合征的大肠杆菌(E. coli)以及导致人类肠胃炎的沙门氏菌(Salmonella enterica)中成功应用。

 

SMRT在不同微生物中的研究

 

全基因组和全长转录组测序

 

传统的RNA-Seq是将RNA反转录成cDNA后再进行测序,然而由于读长的限制使其无法获得全长转录本,并且会丢失可变剪切等重要信息,而长读长除了可以检测到已知的剪接异构体外,还可以发现新的剪接异构形式以及新基因。目前,全长转录组测序已成功应用于人类前列腺癌和乳腺癌细胞的研究[14]

 

目前,全基因组测序(WGS)被广泛应用于人类基因组变异的研究中。然而,由于二代测序短读长的限制,只能检测到SNPs和Indels,而三代长读长测序可以极大扩展变异的检测范围,检测到二代测序无法获得的变异信息。例如,研究者利用三代低深度全基因组测序(4–8×)进行了染色体结构变异分析,并且检测到长度为2184 bp的致病性杂合缺失[15]。此外,利用SMRT测序技术进行个体基因组de novo测序,可以检测到几百万个碱基组成的新序列,这些序列是目前人类参考基因组(GRCh38)中所没有的。例如,在一项三代全基因组测序研究中检测到了约12.8 Mb的新序列,但目前还尚不清楚这条新序列是存在于所有人类个体中,还是仅存在于某些特定的个体或群体中[16]总而言之,三代全基因组测序可以获得二代短读长测序无法获得的大量数据信息,其中包括与临床诊断相关的重要信息。

 

综上所述,三代测序在医学领域有着广泛的应用前景,并且具有二代测序、Sanger测序无法超越的优势。虽然目前大规模的应用可能会受到成本和技术条件的限制,但这种情况会随着测序成本的降低和越来越多的应用研究而迅速改变。就像当初二代测序技术超越了Sanger测序,开启了基因组医学时代一样,第三代单分子测序平台将会开启下一个基因诊断的革命时代。

 

沉迷佛系养蛙,不如读读文献

 

[1] Loomis,E.W., Eid,J.S., Peluso,P., Yin,J., Hickey,L., Rank,D.,McCalmon,S., Hagerman,R.J., Tassone,F. and Hagerman,P.J. (2013) Sequencing the unsequenceable: expanded CGG-repeat alleles of the fragile X gene. Genome Res., 23, 121–128.

[2] Yrigollen,C.M., Martorell,L., Durbin-Johnson,B., Naudo,M., Genoves,J., Murgia,A., Polli,R., Zhou,L., Barbouth,D., Rupchock,A. et al. (2014) AGG interruptions and maternal age affect FMR1 CGG repeat allele stability during transmission. J. Neurodev. Disord., 6, 24.

[3]  McFarland,K.N., Liu,J., Landrian,I., Godiska,R., Shanker,S., Yu,F., Farmerie,W.G. and Ashizawa,T. (2015) SMRT Sequencing of Long Tandem Nucleotide Repeats in SCA10 Reveals Unique Insight of Repeat Expansion Structure. PLoS One, 10, e0135906.

[4] Turner,T.R., Hayhurst,J.D., Hayward,D.R., Bultitude,W.P., Barker,D.J., Robinson,J., Madrigal,J.A., Mayor,N.P. and Marsh,S.G.E. (2017) Single molecule real-time (SMRT(R)) DNA sequencing of HLA genes at ultra-high resolution from 126 International HLA and Immunogenetics Workshop cell lines. Hla, doi:10.1111/tan.13184.
[5] Roe,D., Vierra-Green,C., Pyo,C.W., Eng,K., Hall,R., Kuang,R., Spellman,S., Ranade,S., Geraghty,D.E. and Maiers,M. (2017) Revealing complete complex KIR haplotypes phased by long-read sequencing technology. Genes Immun., 18, 127–134.

[6]Buermans,H.P., Vossen,R.H., Anvar,S.Y., Allard,W.G., Guchelaar,H.J., White,S.J., den Dunnen,J.T., Swen,J.J. and van der Straaten,T. (2017) Flexible and scalable full-length CYP2D6 long amplicon PacBio sequencing. Hum. Mutat., 38, 310–316.

[7] Borras,D.M., Vossen,R., Liem,M., Buermans,H.P.J., Dauwerse,H.,van Heusden,D., Gansevoort,R.T., den Dunnen,J.T., Janssen,B.,Peters,D.J.M. et al. (2017) Detecting PKD1 variants in polycystic kidney disease patients by single-molecule long-read sequencing.Hum. Mutat., 38, 870–879.
[8] Frans,G., Meert,W., Van der Werff Ten Bosch,J., Meyts,I.,Bossuyt,X., Vermeesch,J.R. and Hestand,M.S. (2017) Conventional and single-molecule targeted sequencing method for specific variant detection in IKBKG whilst bypassing the IKBKGP1 pseudogene. J.Mol. Diagn., doi:10.1016/j.jmoldx.2017.10.005.

[9] Wilbe,M., Gudmundsson,S., Johansson,J., Ameur,A., Stattin,E.L.,Anneren,G., Malmgren,H., Frykholm,C. and Bondeson,M.L. (2017) A novel approach using long-read sequencing and ddPCR toinvestigate gonadal mosaicism and estimate recurrence risk in two families with developmental disorders. Prenat. Diagn., 37, 1146–1154.

[10] Cavelier,L., Ameur,A., Haggqvist,S., Hoijer,I., Cahill,N.,Olsson-Stromberg,U. and Hermanson,M. (2015) Clonal distribution of BCR-ABL1 mutations and splice isoforms by single-molecule long-read RNA sequencing. BMC Cancer, 15, 45.
[11] Lode,L., Ameur,A., Coste,T., Menard,A., Richebourg,S., Gaillard,J.B., Le Bris,Y., Bene,M.C., Lavabre-Bertrand,T. and Soussi,T. (2017) Single-molecule DNA sequencing of acute myeloid leukemia and myelodysplastic syndromes with multiple TP53 alterations. Haematologica, 103, e13–e16.

[12] Yang,Y., Sebra,R., Pullman,B.S., Qiao,W., Peter,I., Desnick,R.J., Geyer,C.R., DeCoteau,J.F. and Scott,S.A. (2015) Quantitative and multiplexed DNA methylation analysis using long-read.

[13]Ocwieja,K.E., Sherrill-Mix,S., Mukherjee,R., Custers-Allen,R., David,P., Brown,M., Wang,S., Link,D.R., Olson,J., Travers,K. et al. (2012) Dynamic regulation of HIV-1 mRNA populations analyzed by single-molecule enrichm.

[14] Kohli,M., Ho,Y., Hillman,D.W., Van Etten,J.L., Henzler,C., Yang,R., Sperger,J.M., Li,Y., Tseng,E., Hon,T. et al. (2017) Androgen receptor variant AR-V9 Is coexpressed with AR-V7 in prostate cancer metastases and predicts abiraterone resistance. Clin. Cancer Res., 23, 4704–4715.

[15] Masset,H., Hestand,M.S., Van Esch,H., Kleinfinger,P., Plaisancie,J., Afenjar,A., Molignier,R., Schluth-Bolard,C., Sanlaville,D. and Vermeesch,J.R. (2016) A distinct class of chromoanagenesis events characterized by focal copy number gains. Hum. Mutat., 37, 661–668.

[16] Shi,L., Guo,Y., Dong,C., Huddleston,J., Yang,H., Han,X., Fu,A., Li,Q., Li,N., Gong,S. et al. (2016) Long-read sequencing and de novo assembly of a Chinese genome. Nat. Commun., 7, 12065.