逆境中求生存的MinION君(三代测序那些事儿 第十期)

原创文章  作者 贺少方

三代测序那些事儿开贴以来一直是在讲三代测序君PacBio的发家史,其实三代测序这个行当里还有另外一位仁兄Oxford Nanopore,一直被大家忽略却也是蛮拼的一个家伙。小编今天就换个口味,给大家聊聊Nanopore MinION君是怎么逆境中求生存的。

Oxford Nanopore 2014年推出其掌上测序仪MinION试用计划,同样具有单分子测序与超长读取能力,摒弃了边合成边测序的设计思想,采用单条核酸链中不同碱基通过蛋白纳米孔是产生的电流变化来标定碱基顺序,这一独具匠心的设计造就了其U盘大小的体积、多种大分子(蛋白质、RNA、DNA)通吃、单分子超长读取等诸多特殊能力[1]

之后其30%的原始错误率饱受诟病,这其中就包括其首批试用用户伯明翰大学的Nick Loman,他首次试用后发现λ噬菌体的MinION数据因为较高的原始错误率仅有25%可以mapping回参考基因组,表示不好用。

但是短短一年时间里,MinION似乎找到了突破这一窘境的办法,测了埃博拉、分了HLA、装了基因组(酿酒酵母、不动杆菌、大肠杆菌),显示了自己在测序领域中的三代地位[2-5]

小编分析了上述提到的那几个MinION基因组的案例,发现MinION君确实是从PacBio君身上学到了不少东西,虽然两位在测序原理上是天差地别,但所产数据类型很相似的,读取很长(平均读长数Kb级别),原始错误率略高,而学到的主要的东西还是对原始reads的比对、校正思路、算法等,这些帮助了MinION慢慢脱贫致富,以下搜集的两组案例说明了这个问题。

E.coli K12 的纯MinION数据组装

最近(2015年2月)放在冷泉港预印本网站bioRxiv上的一篇单独使用MinION数据组装大肠杆菌E.coli K12基因组到完成图级别的文章便是一个很好的例子,比较巧的是这篇文章的作者便是文章第三段提到的那个嫌弃MinION不准的那个伯明翰大学的Nick Loman教授。

Nick Loman使用了21X的MinION 2D  reads(4 MinION Runs,平均读长~8kb)对E.coli K12的基因组装。DNA链的先导链和滞后链均被测到所产生的reads称为2D (two-Direction)reads,约占总数据的25%。 相较于普通的reads具有更高的准确率,结合新型试剂测序R7.3以及新型的base caller可以使2D reads准确率达到78%-85%,略低于PacBio的85%。

E.coli K12的组装过程也采取了类似于PacBIO组装过程中的先校正后组装的思路。校正过程中采用的DALIGNER比对算法、pbdagcon一致性算法均是之前针对PacBio数据所开发的,最后使用OLC算法的Celera Assembler对校正后的数据(准确度97.7%)进行了组装。

组装得到1条4.6M的contig,基本达到了完成图级别,与E.coli K12参考基因组相比,单碱基准确率为98.4%,有两处组装错误。

这一组装结果已经确实已经显示出了MinION在细菌完成图组装中的优秀性能,准确率方面的问题相信通过后期试剂、算法的更新会有较大的改善。

基于MinION数据的混合组装(不动杆菌 & 酿酒酵母)

除过大肠杆菌E.coli K12的纯MinION三代数据组装,MinION君之前也通过二三代数据混合组装的方式在不动杆菌A. baylyi 与 酿酒酵母S.cerevisiae中进行过尝试。

不动杆菌A. baylyi的二三代混合组装过程使用了23X的MinION数据与50X的illumina数据,利用针对MinION的新型组装算法NaS最终组装得到3条Contig,最后利用MinION数据使用SSPACE做Scaffolding,最终得到1条Scaffold。

酿酒酵母的二三代数据组装过程使用了121X的MinION数据,若干Miseq数据, 采用针对PacBio的PBcR思路进行组装,不过数据校正过程中使用到的比对算法为针对MinION开发的新型比对算法Nanocorr,一致性算法为HGAP中的pbdagcon,最后组装得到的ContigN50 为479kb,单碱基准确率99%以上。

最后,对于 MinION君的前途,不管你看不看好,反正我很看好。

Paper:

[1] Bayley H et al. Nanopore sequencing : from imagination to reality. Clin Chem.  2015

[2] Nicholas J. L et al. A complete bacterial genome assemble de novo using only nanopore sequencing data. bioRxiv . 2015

[3] Madoui MA et al. Genome assembly using Nanopore-guided long and error-free DNA reads. BMC Genomics. 2015 .

[4] Oxford Nanopore Sequencing and de novo Assembly of a Eukaryotic Genome. bioRxiv. 2015

[5] Ron Ammar et al. Long read nanopore sequencing for detection of HLA and CYP2D6 variants and haplotypes. F1000Res . 2015

声明:本文原创,转载请注明来源 。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注