基于Nanopore测序的结构变异分析【染色体碎裂病例解析】

基因组结构变异(structural variation),包括倒位、易位、重排、拷贝数变异等,影响基因组的稳定性、相关基因的表达调控,进而决定物种表型。研究基因组结构变异对分析动植物的进化起源,遗传育种和人类的健康及优生优育有着重要的意义。

在二代测序时代,1 kb~3 Mb亚显微水平的基因组结构变异一直受限于测序技术的短读长,无法得到准确地解析。进入到三代测序时代后,测序读长由几百bp上升到数十Kb以上,终于为基因组结构变异检测分析提供了更好的选择。

目前新兴的Nanopore测序技术,更是将最长读长提升到1Mb,研究人员遂将其应用到结构变异检测分析领域,以期更优质的表现。以下为大家解读这篇11月初发表在Nature Communications,基于Nanopore测序数据分析病人染色体碎裂重排病例的论文。

文中的两个病例(以下简称P1,P2)属于先天性发育不良,在2,7,8,9号染色体上发生了染色体碎裂重排(chromothripsis rearrangements),从核型分析(P1)可以看到9号染色体上的一段序列插入到了2号染色体中。

Fig.1 P1的核型分析

研究人员对P1和P2进行了低深度的Nanopore全基因组测序(11-16×),建立起基于Nanopore测序数据进行结构变异分析的pipline:NanoSV(Fig.2),同时以Illumina数据进行对比,构建基因组SV图谱(Fig. 3),对比了Illumina和Nanopore多种SV检测算法,并对P1的双亲进行了Illumina测序,用以后续进一步phasing。

2SV检测

基于Illumina测序数据,从P1中能检测到40个de nove染色体碎裂重排,并得到了PCR和Miseq验证(Fig.3),而基于Nanopore测序数据进行NanoSV分析,也检测到同样的SV,优于其它算法,如Lumpy, Sniffles(Fig.4)。

Fig.3基因组SV图谱

Fig.4 Illumina及Nanopore多种SV检测算法比较

在P2中,Illumina检测到29个de nove染色体碎裂重排,而NanoSV检测到24个,为了找到NanoSV为什么会 “miss” 掉5个SV的原因,研究人员进行了一代验证,原因可能是因为染色体发生了非常复杂的多位点断裂重排(Fig.5),而Illumina数据并未能准确地还原整个过程。

Fig.5 复杂的多位点断裂重连位点图例

对比Nanopore和Illumina的覆盖度受基因组GC含量的影响,发现Illumina存在很明显的GC bias,而Nanopore的测序覆盖度受GC含量的影响较小。

Fig.6 Nanopore与Illlumina测序的GC偏好性比较

总得来说,基于Nanopore数据的NanoSV分析复杂的基因组结构变异,准确度高,与二代相比GC 偏好性低,属于更优质的选择。以下为基于NanoSV分析P1 染色体碎裂重排的详细图解,在确定重排序列的顺序和方向方面,比Illumina更胜一筹(Fig.7)。

Fig.7 基于NanoSV分析P1染色体碎裂重排的详细图解

1Phasing

在二代测序时代,无法准确地区分等位基因,对SV变异也无法得知来自哪个亲本。而现在,借助于Nanopore测序的超长读长,通过更好的overlap关系,能更好地进行phasing。本文中,研究人员建立了一个pipline,通过结合分析Illumina数据的杂合SNPs和Nanopore reads,比对回亲本参考序列,准确地证实P1中的染色体碎裂起源于父亲(Fig.8)。

Fig.8  染色体碎裂中断裂重连的phasing

最近流行的Nanopore测序技术,最长读长高达1Mb,长读长在结构变异检测分析领域优势明显,不仅能灵敏地检测到结构变异,更能准确分析出重排的顺序、方向,还有助于探寻变异来源。

参考文献

MJ van Roosmalen, MC Stancu, I Renkens, et al. MappingAnd Phasing Of Structural Variation In Patient Genomes Using NanoporeSequencing[J]. Nature Communications, 2017

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注