王凯组发布新算法RepeatHMM,剑指DNA重复类“暗物质”诱发遗传病

微卫星序列扩张,尤其是三核苷酸重复扩张,会引起脆性X综合征,弗里德赖希运动失调,肌强直性营养不良和脆性XE神经缺陷等40多种遗传性疾病,这些统称为三核苷酸重复性疾病TRDs。

如,ATXN3基因通常含有13-41个CAG重复,而ATXN3基因上CAG重复超过55个后具有致病性,会引起脊髓小脑性共济失调3型疾病SCA3。除此,不同的致病性CAG重复次数,会引起其他多种多聚谷氨酰胺疾病。

TRDs的严重性和TRDs综合征发作年龄与三核苷酸重复序列大小密切相关,重复单元数量超过一定阈值后,重复单元数量越高,疾病症状将更严重,综合征发作年龄将越提前,严重的会诱发遗传早现现象。因此,对三核苷酸的重复单元准确检测不仅将提高科研人员对TRDs及其中分子机制的理解,同时,对TRDs临床诊断,风险评估和预后都尤为重要。

微卫星序列重复单元检测方法

目前,在对微卫星序列重复次数检测的方法中,通常会先对基因组中靶序列进行PCR扩增,再经毛细管电泳等技术手段鉴定,但都费时费力,且通量低;Sanger测序又对长的重复序列很无奈;而二代测序读长太短,很难测通整个重复片段区域,当然还无法覆盖高GC含量区域。

第三代高通量测序技术,如PacBio SMRT测序和Oxford Nanopore测序,可覆盖10K及以上的序列,因为是单分子测序,对GC含量异常区域没有偏好性,可解决上述检测手段在重复片段区域的瓶颈。然而由于三代测序单reads的准确度有限,如PacBio的三代测序数据的单read的碱基错误率平均达到了15%,现有的算法并不能有效地检测出基于三代的长读长reads的微卫星序列重复单元。

重复单元鉴定新工具RepeatHMM

希望组&未来组创始人之一的王凯教授,带领实验室开发了一套基于三代测序的repeat region鉴定的算法RepeatHMM,解决了目前微卫星序列重复单元鉴定的技术瓶颈,该算法不仅能识别出repeat region,同时能够鉴别重复单元,进而计算出重复单元数量和重复片段的大小。这为更进一步认识基因组、鉴定因repeat region变化导致的遗传病等,奠定了算法基础。

RepeatHMM流程如Fig. 1,先找出目标区域的起始位置;然后对覆盖该区域的长reads进行切割mapping,以提高mapping的准确率;三是要保证重复区域上下游的一些特异性片段,作为标记mapping上;四是针对三代测序的错误进行纠正;五是基于隐马可夫模型进行重复片段估算;六是基于peak calling算法,进行位点的重复片段分布估算。

RepeatHMM获取地址:

https://github.com/WGLab/RepeatHMM

RepeatHMM评估方法

模拟数据1评估:

100套不同覆盖深度PacBio模拟数据,设置ATN1正常和致病性等位基因 CAG重复次数。

模拟数据2评估:

根据真实PCR扩增情况模拟100套不同覆盖深度的PCR扩增数据。

SCA3患者数据评估:

经PacBIo Sequel对25名参与者(20名SCA3患者,5名健康对照者)ATXN3基因的扩增子进行测序。

SCA10患者数据评估:

基于SCA10的3个患者原始数据,评估RepeatHMM在更为复杂重复类型的检测性能。

NA12878不同平台数据评估:

基于NA12878的三个平台(PacBio SMRT ~50X,Oxford Nanopore ~30X,Illumina ~300X)及正常表型HX1(PacBio SMRT , ~100X)。

RepeatHMM评估结果

1.结果显示RepeatHMM和 BAMself工具在覆盖度从10至50时,正常等位基因的RMSE(评估预估重复次数和真实重复次数间差异)降低, RepeatHMM和 BAMself工具在覆盖度从10到200时,致病性等位基因的RMSE降低,但是RepeatHMM的提升更加明显,覆盖度超过200时,RepeatHMM的致病性等位基因RMSE降低至2.0以下。与BAMself相比,在大多数正常等位基因和致病性等位基因中,RepeatHMM能得到更准确的重复次数(Figure 2a和c)。

2.基于PCR扩增的模拟数据与1的结果高度一致,但,对于致病性等位基因的RMSE如要和1在一个水平,则需要更高覆盖度的数据(Figure 2b和d)。

3.基于Sequel的SCA3原始数据,RepeatHMM的预测结果非常好,与毛细管电泳检测的重复次数基本0或1,而且与BAMself和TRhist相比,特别是在病原等位基因上,预测性更好。另外, RepeatCCS(基于CCS序列的RepeatHMM)虽预测性比BAMself 和TRhist要好,但其预测错误率比RepeatHMM高很多(Figure 3)。

4.SCA10数据评估,发现BAMself 和TRhist不能准确检出3个患者的ATXN3致病等位基因的重复单元数量,而RepeatHMM评估的重复大小更接近于凝胶电泳的预测结果(Table 1)。

  1. NA12878不同平台数据评估显示,以Illumina数据为标准,两个长读长平台预测与Illumina预测高度一致,表明具不同数据错误类型的测序平台数据可在RepeatHMM上进行分析(Figure 5)

基于上述全方位的评估,从模拟数据到真实TRDs患者数据,从简单重复类型的SCA3患者数据到更为复杂重复类型的SCA10患者数据,再从不同测序平台进行评估,都显示出RepeatHMM的分析优势。

相对常规方法,RepeatHMM中HMM 对重复序列区域检测相当灵活,适用于不同重复单元类型,不同重复单元长度;其次,可将不同测序平台数据经不同参数整合到HMM中;再次,RepeatHMM运算非常高效,如在对1名患者的ATXN3的原始数据(~21,000X)分析时,通常需要2-12min。

希望组&未来组发布的分析新工具RepeatHMM,具使用灵活、高效等特征,结合长读长测序数据,将能对微卫星序列重复单元数量进行快速便捷的鉴定,可以广泛应用于微卫星重复性疾病的研究中。

作为三代测序精准医疗公司,希望组未来会将这款工具的应用延伸到临床诊断中,不断突破现有测序技术所面临的瓶颈和挑战,切实提高遗传病诊断准确度和检出率,降低出生缺陷和罕见病的发生率。

参考文献

Liu Q, Zhang P, Wang D, et al. Interrogating the “unsequenceable” genomic trinucleotide repeat disorders by long-read sequencing[J]. Genome Medicine,2017, 9:65.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注