史上最全的ONT碱基识别软件大比拼

大家都知道Oxford Nanopore Technologies(ONT)是基于单条DNA链通过纳米孔引起电流改变来进行测序的,但是这个过程可不简单!因为噪音信号和随机数据都会干扰碱基读取;而纳米孔的电阻受位于孔最狭窄处的5个核苷酸中的碱基(R9.4)决定,从而有多达45即1024种电波模式,一旦出现碱基修饰如5mc,那么就会有55即3125种电波,因此碱基识别软件(basecaller)在这个过程中至关重要。

现在的basecaller都使用的神经网络算法,且需要用原始的、即包含碱基修饰的DNA进行模拟学习;识别的准确性则由read精确度(单条read对参考数据的相似度)或一致性序列准确度(重叠reads构建的一致性序列对基因组同样位点的序列相似度)来评估,一致性准确度通过增加读取深度来提高。

事实上,read精确度和一致性准确度没有直接的相关性,在错误产生是随机的且读取深度足够深的情况下,低精度的reads也可以产生完美的一致性序列,但如果包含系统错误而不考虑读取深度的话,即使是高精度的reads也可能产生一致性准确度差的序列。

一致性准确度对于基因组组装等需要高深度数据支持的应用来说是关键的影响因素,对读取深度需求较低的应用,则是read准确度显得更重要。

 

鉴于R9.4型纳米孔自2016年十月份延用至今,来自澳大利亚莫纳什大学和伦敦卫生与热带医学院的研究人员想到通过量化R9.4适配的各种碱基识别软件的表现来帮助学者们充分利用ONT电信号,特别是给不知使用自定义数据模拟软件还是新碱基识别软件的用户以参考。研究成果最近发表在了bioRxiv上,和组学君先睹为快吧!

//方法流程//

研究者先是测试了ONT旗下四款碱基识别程序——Albacore、Guppy、Scrappie和Flappie并运行和R9.4reads配套的所有可用版本,另外还测试了一款仍处于研发状态的、基于深度神经网络算法的碱基识别软件Chiron等。

接下来是进行自定义模式模拟,研究者使用Sloika工具包——一种可生成用于Guppy的模式神经网络模拟工具,模拟的数据来自30个不同谱系的肺炎克雷伯菌、10种肠杆菌以及10种蛋白菌。对收集到的5629714条原始reads进行过滤、处理,如去掉短的和低质量的reads等,然后将这些数据修正为不同批次的定量模拟数据,再只用上述软件进行不同模式下的模拟运算。

研究者使用了MinION R9.4芯片来测序原始的肺炎克雷伯菌DNA以测试basecallers的性能,同时也准备了同样样本的高质量Illumina数据以作参考。研究还提取了肺炎克雷伯菌的ONT数据,在使用Guppy进行识别后比对到参考基因组上并排除极低质量和外源reads。除此之外,为了拓宽数据集的范围,研究用到了R9.4和R9.4.1芯片读取肺炎克雷伯菌之外的六种菌种作为测试数据集。

最后就是进行read精确度和一致性准确度的分析了,为评估read精确度,研究使用minimap2将获取到的reads识别数据集比对到参考基因组上计算“BLAST identity”,然后使用Rebaler从这些数据集中生成一致性序列再进行分析。还使用了NUCmer将组装结果比对到参考基因组上对不同的一致性序列错误类型进行分类。

考虑到在组装下游一般都会使用Nanopolish进行数据打磨,那么basecaller的选择是否还那么重要呢?为了得到这个问题的答案,研究者对每一个最终的组装结果都进行了Nanopolish打磨和一致性评估。

//结果概述//

默认模式性能

①Albacore

2017年4月释放的Albacore v1.0.1在均聚物识别上表现良好,而2017年8月释放的Albacore v2.0.1则省去了事件切割(event-segmentation )步骤直接识别原始信号(图1),这之后的版本表现相对稳定,read精确度为Q9.2,一致性准确度为Q21.9。运行速度约为120000bp/s。

②Guppy

表现与Albacore相当,不过最新版本Guppy v2.2.3在默认模式下的read精确度(Q8.9)上不如一致性准确度(Q22.8)。在使用flip-flop模式时,一致性准确度相当(Q23.0),但read精确度更佳(Q9.7)。相较其他软件,其在GPU加持下运行速度最快(约1500000bp/s)

③Scrappie和Flappie

Scrappie表现最不理想,Flappie的一致性准确度不如read精确度且速度慢(约14000bp/s)。

④Chiron

Chiron在read精确度上性能不佳(见图1),但Chiron v0.3在默认模式下得到了最高的一致性准确度。最新版v0.4.2亦不如预期。另外,其运行速度为最慢,约2500bp/s。

图1 不同日期释放的每种basecaller版本评测的一致性准确度、read精确度和识别速度。准确度以qscore(Phred quality scores)的对数刻度来表示,Q10=90%,Q20=99%,Q30=99.9%等。

自定义模式性能

和默认的模式相比,在custom-Kp模式(使用了50种菌种的模拟数据)的基准设置下运行Guppy v2.2.3生成的read精确度有了一定的提升(Q9.5),而一致性准确度提升更加显著(Q28.5)(参见图1)。该结果证实了使用分类阶元特异性模拟数据的优势。另外,两种模式下的运行速度相似。

而custom-Kp-big-net在两个方面均有更好的表现,尤其是一致性准确度达到了Q31.6,表明更复杂的神经网络也能够升级结果,只不过速度要略逊一筹。为观察结果对其他基因组是否也适用,研究将可用的Guppy模式也运用于其他的数据集上(参见图2)。结果显示,flip-flop模式相较于默认模式在所有的基因组中都表现更好。而在所有的案例中,custom-Kp-big-net模式得到了准确度最高的read和序列一致性。

custom-Kp模式和custom-Kp-big-net模式都没有使用Guppy的flip-flop模式中存在的新神经网络结构,可以推测:基于flip-flop模式且在自定义模拟数据的模拟下既可以从flip-flop模式也可以从custom-Kp模式中体现优势。

图2 使用Guppy v2.2.3在默认RGRGR模式、flip-flop模式和两种自定义模式下运行各基因组得到的read准确度和一致性准确度。

一致性错误描述

为了探索不同basecallers对各种一致性识别错误的影响,研究者量化了肺炎克雷伯菌基准基因组在Dcm甲基化位点、均聚物以及其他位点上的错误数(详见图3)。结果发现,由于模拟数据中缺少同类信息,ONT basecallers在使用默认模式下对Dcm甲基化位点的识别都不太理想,一致性错误率达到了约0.4%;相反,因模拟数据集中包含了Dcm信息,Guppy v2.2.3在自定义模拟模式下几乎没有Dcm错误(约0.002%)。

除了Dcm模体,错误的均聚物长度占据了大部分的错误(图3)。而ONT的升级则在Albacore上充分体现,不仅一致性准确度有所提升,均聚物的错误也从v.8.4的0.53%降到了v2.3.4的0.13%。同时,最新的Guppy v2.2.3也展现了较好的性能,将均聚物错误降到0.07%。最后,结果还显示对于均聚物,其在custom-Kp模式下表现略逊于默认模式,而custom-Kp-big-net模式则表现最好。

图3 肺炎克雷伯菌基准基因组在不同basecallers下的一致性错误

Nanopolish性能

Nanopolish包含对Dcm甲基化和均聚物特异的逻辑算法体系,能够修正原始信号数据中的一致性序列错误。研究者发现,Nanopolish除了custom-Kp-big-net模式之外,几乎在所有案例中都可以提升一致性准确度(见图4)。分析表明,前Nanopolish一致性准确度和后Nanopolish准确度相关,R2=0.580,这表示即使使用了Nanopolish,basecaller的一致性准确度仍然非常关键。

图4 对肺炎克雷伯菌基准基因组进行Nanopolish之前(红)和之后(蓝)的一致性准确度

因ONT测序平台的便携、经济,其在食源性或其他爆发性病原体DNA碱基替换的检测中有着潜在用途。在本研究中,研究者使用Guppy v2.2.3在custom-Kp-big-net模式下对组装基因组检出的最小替代错误是337个,这差不多是细菌和病原体基因组之间预期的真实SNPs数目的十倍,因此在这类应用中会造成不可估量的高假阳性率。该问题可以通过调用SNP识别策略得到控制,不过基于组装的序列比较则需要识别准确性更高才行。

//研究要点//

1. 从肺炎克雷伯菌基准数据集的read精确度和一致性准确度来看,碱基识别软件Guppy v2.2.3在自定义模式下进行数据模拟得到的结果最佳。这种优越的性能主要取决于对Dcm甲基化的正确处理。因不同物种之间的差异,本研究结论更多的代表一种趋势,那就是当使用相同或亲缘关系足够近(含相似的DNA修饰)的物种DNA进行模拟时,原始的DNA碱基识别准确度是最高的。

2. 对大多数basecallers而言,在默认模式下用于模拟的物种及DNA类型的信息并不是公开的,研究建议软件开发者提供多种模拟模式以供用户选择与研究对象最匹配的一款,同时在条件允许的情况下推荐自定义模式以将碱基识别准确度最大化。以本研究为案例,如神经网络更全面,custom-kp-big-net模式能够获取更精确的结果,但是可能会要耗时一些。

3. ONT自诞生以来在产量和精确度方面均在不断升级,但是仍有上升空间。本研究的模拟结果中最佳的一致性准确度为Q32.2(99.94%的一致性),可换算为5Mbp的基因组中约有3000个错误,其中很多属于会导致SNP识别假阳性的替代错误。对于完美的细菌基因组而言,标准可预期为Q70即10Mbp中一个错误。目前可采纳的升级方式可以从技术、试剂、basecaller升级或组装后polish工具等入手。因此,在达到预期目标之前,使用Illumina数据混合组装或polish可能对于高精度序列仍是不可或缺的。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注