Nanopore测序组装人类基因组初探

Nanopore自2013年初次开放试用以来,一直犹抱琵琶半遮面,到了今年9月才得以进入中国市场。

在中间这约4年的时间里,官方宣传的侧重点主要是便携式MinION测序仪的建库时间短,测序仪体积小,样本起始量小等,能够进入到比较极端的环境进行菌种鉴定和环境微生物多样性研究等,例如深入到埃博拉病毒和寨卡病毒蔓延的疫区,南下至南极泰勒谷,也曾搭乘SpaceX 9太空飞船进入国际空间站。

随着测序仪机型的升级和试剂版本的更新,单flowcell的通量不断上升,读长分布也不断提升,Nanopore继而将服务目标瞄准了更具挑战性的动植物基因组,期望借助超长读长的优势,解决大型动植物基因组的组装难题。

目前唯二发表的纯Nanopore组装的GB级别基因组,除了之前未来组解读过的野生番茄(正式发表于The Plant Cell[1]),就是今年4月预印的人类基因组了[2],以下为大家介绍其组装情况。

利用Nanopore技术测序和组装人类基因组

测序数据量:在Oxford Nanopore MinION平台上测序39 flowcells产出91.2 Gb (~30×),试剂版本R9.4,再加入~5×ultra-long reads,最长读长882 kb。

测序数据评估

通过与参考基因组GRCh38比较,每个位点的覆盖度与预期相符合,呈泊松分布(λ=27.4) (Fig.1 A),并且reads的长度并不影响比对一致性 (Fig.1B)。

Fig.1 reads与参考基因组比对

组装效果评估

未经polishing的组装结果与参考基因组比对,一致性达95.74%。经过2遍Pilon校正后,一致性达99.88%(Fig.2)。或者单独经过Nanopolish也能达到99%以上,如果Nanopolish联合2遍Pilon校正,更能达到99.9%以上(Table 1)。

最终~30×的普通reads+~5×ultra-long reads,组装contig N50达6.4 Mb。6号染色体上的MHC区域被完整地组装出(包含在一个15Mb的contig内)。

Fig.3 染色体级别的组装

黑色和灰色区域表示能mapping到参考基因组
白色区域表示unmapped 序列,可能由参考基因组中的N碱基造成

本论文成型于Nanopore MinION开始试用的初期,5家单位联合产出了这些测序数据,下机reads的准确度约在80%-90%之间,在约35×的数据量情况下,contig N50>6M,初始组装准确度95.74%,经Nanopolish(and/or)2次Pilon校正后可达99 %以上。

整个项目测序37个flowcell,项目预算低于$30,000,组装指标优越,当属性价比超高。应用Nanopore组装复杂动植物基因组,将成为近几年的主流策略。

参考文献

Jain M, Koren S, Quick J, et al. Nanopore sequencing andassembly of a human genome with ultra-long reads[J]. bioRxiv, 2017: 128835.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注