三代数据分析新工具MECAT:集超快比对、校正、组装于一体

导读

近日,中山大学研究团队开发的适用于长读长数据分析的新工具MECAT于Nature Method在线发布。与目前PacBio SMRT测序组装中常用工具相比,MECAT运算性能更优,运算结果结果相当或有提升,其中值得指出的是,运用MECAT分析工具,分析人员在个人计算机上即可对大基因组进行参考序列比对或基因组de novo组装。

来自Pacific Bioscience和Oxford Nanopore三代单分子测序技术的超长读长自面世就不断给基因组学领域的研究者惊喜,解决了很多基因组组学难题,助力多篇文章登上高分杂志。不过就像“你看见学霸轻松得高分,却没有看到学霸半夜挑灯夜战”一样,三代数据常用组装软件,如Falcon 、Canu和HGAP等都是基于两两比对确定overlap和纠错,这个过程非常耗时,基本上会花去整个组装过程中的大部分时间,对计算机资源消耗异常,对分析人员而言,真的会“挑灯夜战”。

未来组参与的“华夏一号”亚洲人基因组项目,当时国内外均缺乏纯三代测序数据进行大基因(>1Gb)组装的现成经验,已有生物信息分析学软件也不完善,而分析过程中面临着海量数据产出和大型基因组组装分析系列挑战,于是未来组同项目研究人员对FALCON进行改写和优化,顺利完成了这个项目。

针对以上问题,很多专注于长读长数据分析的团队,都在进行三代测序分析软件的优化工作,或开发更为高效的分析方法。中山大学研究团队开发的新工具MECAT(https://github.com/xiaochuanle/MECAT),可提高三代测序数据序列比对,校正和组装的运算速度,降低计算资源的消耗。

MECAT中算法原理

MECAT比对中采用全局种子打分算法,将长序列分成多个Blocks,序列间Blocks的k-mer进行比对(Figure 1a),以其中Block2为例,通过DDF(距离差异因子)对k-mer pair间打分(Figure 1b),以分数最高的为K-mer pair种子(Figure 1c),再以K-mer pair种子对其他block打分(Figure 1d),最后确定了2条序列间关系(Figure 1e),最终减少了局部序列比对的候选区域,进而减少比对所耗费时间。比较分析发现,通过DDF可以过滤掉50%-70%的候选区域比对(Figure 1g)。

Figure 1 MECAT算法原理图示

MECAT序列比对评估

总体来说,不论是PacBio数据还是Nanopore数据, MECAT都比其他比对工具快很多(Table 1)。

在5组PacBio数据集(E. coli,Yeast,A. Thaliana,D. melanogaster,Human)序列比对中, MECAT比对速度更快,其中在Human大型基因组数据的比对中,MECAT alignment的比对速度是MHAP-fast的5倍,是DALIGNER的17倍。

在3组Nanopore数据集(E. coli,B. anthracis,Y. pestis)序列比对结果中,由于其错误率高,MECAT运算中降低了比对参数,因此相比PacBio数据,MECAT在Nanopore中数据比对较慢。

Table 1不同比对方法在序列和参考基因组中比对结果

在对MECAT的比对敏感性和准确性评估中,基于3组模拟的PacBio数据集(E.coli,Yeast,Humanchr1)来进行了测试,相对MHAP和DALIGNER,MECAT aligner在敏感性和准确性都较高,且不论是小基因组还是大基因组,在敏感性和准确性上都表现出平衡。

MECAT基因组比对评估

MECAT在基因组比对中速度、敏感性、准确性和覆盖度都优于其他软件。

在4组PacBio数据集(E. coli,Yeast,A. Thaliana,D. melanogaster,Human)基因组比对分析中,MECAT在小基因组对比速度是BLASER的35-65倍,是BWA-mem的19-70倍,在人基因组中,比对速度也有BLASER和BWA-mem的几倍到十几倍(Table 1)。

在3组Nanopore数据集(E. coli,B. anthracis,Y. pestis)基因组对比分析中,MECAT是BLASER的2-5倍,是BWA-mem的4-6倍(Table 1)。

同时,三种比对算法的比对重叠率高达95-99%,这也表明MECAT的高可信度(Figure 2)。

Figure 2 MECAT,BLASER和BWA基因组比对重叠图示

*为Nanopore数据

同样的,MECAT在基因组比对中,不仅速度快,而且也兼顾了高敏感性、准确性及覆盖度(Table2)。

Table 2不同方法在基因组比对中的敏感性和准确性评估对比

MECAT数据纠错评估

MECAT能降低进入局部序列比对的候选序列数量,这也降低了后续校正时间,MECAT的序列校正优于其他常用校正软件。

在对4组PacBio数据集(E. coli,Yeast,A. Thaliana,D. melanogaster,Human)校正分析中,MECAT的速度是FC_Consensus的4–10倍,是FalconSense的5–21倍。

在对3组Nanopore数据集(E. coli,B. anthracis,Y. pestis)校正中,MECAT速度是FC_Consensus 的1.06~7倍,是FalconSense的1.6~11倍。

Table 3不同方法在长读长read校正中的速度和准确性对比

从以上测试评估中可以看到,与其他三代分析工具相比,MECAT在序列比对、校正方面做到了速度快,敏感性和准确性高,在组装上如何?于是研究者运用MECAT对CHM1基因组重构,结果发现也比PBcR-MHAP-fast(24.9x), PBcR-MHAP-sensitive(56.3×),Canu(5.1×) 快上几十倍,后面又利用102×PacBio数据(华夏一号-HX1)在单个32核计算机上完成了中国人基因组的组装工作。

测序技术的发展不仅局限于测序平台的不断创新,其上下游工作,如DNA/RNA提取、文库构建、数据分析等也同样重要,也需要如中山大学这样的研究团队一同努力,兼顾行业上下游工作的研发,从整体上推动行业发展和应用。

参考文献

XiaoC L, Chen Y, Xie S Q, et al. MECAT: an ultra-fast mapping, error correction andde novo assembly tool for single-molecule sequencing reads[J]. Nature Method, 2017. doi:10.1038/nmeth.4432

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注