PacBio SMRT & Structure Variation(三代测序那些事儿 第八期)

这期的三代测序那些事儿,小编要为那些研究人类疾病的小伙伴们献上一款刚刚在BMC Genomics发表(2015-04-22)的结构变异检测神器Parlianment。

文献链接:

http://www.biomedcentral.com/1471-2164/16/286/abstract

Parlianment是由Baylor医学院人类基因组测序中心生物信息学家Adam English领导开发的一个针对人类基因组的结构变异检出流程。小编看着这名字眼熟,百度一下发现原来PBjelly也是出自这位仁兄之手,PBjelly是一款利用PacBio长读取数据对现有基因组进行升级的软件。所以在Parlianment中引入PacBio三代测序数据进行SV检测也就不奇怪了。

这款软件的最大特点便是它能够同时输入多种类型数据进行SV位点的检测,比如Mate Pair / Pair End (Illmina)配对数据、PacBio长读取数据、BioNano光学图谱数据、aCGH芯片数据等,最大限度的检出存在于个人基因组中的结构变异信息,该软件的测试版目前是搭建在DNA云计算公司DNAnexus提供的云端服务器上。Parlianment工作流程见图1。

                                           图1 Parlianment work flow

        该流程首先整合了多款SV检测软件,包括针对Mate Pair数据的SVachra,针对Pair End数据发现小型变异的Breaddancer、Delly、CNVnator、Pindel、Crest、SV-STAT、Tiresias、Spiral,针对PacBio数据的PBHoney等,从而实现了利用多种类型数据检出待选变异位点,之后根据二三代数据的局部混合组装结果(PHRAP软件)、PacBio长读取Reads等进一步筛选出可信度较高的SV位点用于后续的科学研究。

关于该软件的性能,Adam等人使用了2X Illumina Nextera(6.5kb MatePair)、10X PacBio、51X的BioNano、CGH芯片数据(4,200,000个探针)的个人基因组HS1011数据对Parlianment进行了评估。

总共检出了31,007个结构变异位点,大小分布在100bp-1Mb之间。其中7,708个位点有local assembly结果支持(10X PacBio 与 48X illuminePE 利用PHRAP软件混合组装),1103个无组装结果支持的位点有多个类型的数据支持,966个无组装结果支持的位点有PacBio数据与另外一种其他数据支持。

利用Parlianment在个人基因组HS1011上找出了9,777个高可信度的结构变异位点。其中4352个位点比对到了基因组结构变异数据库(Database of Genomic variants, DGV)中,造成这一结果的原因可能是新型变异位点存在或者DGV数据库的不完善。

研究者使用long-PCR手段对这一结果进行了进一步评估。用来验证42个缺失突变(平均长度为10.6kb的)扩增子Sanger测序结果与Parlianment预测结果相差的平均碱基数仅为2个,显示出了预测结果的高度可靠性。

最后研究单独使用Illumina数据或者PacBio数据,检出的可信SV位点分别为3082、4,268,远远少于上述整合多种类型数据得到的9,777个。

到下班点了,小编就不多说了,这款软件的性能到底怎么样,还得小伙伴自己装起来run一下才知道嘛。

声明:本文原创,转载请注明来源。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注