Nanopore测序揭露线虫基因组中复杂串联重复序列

真核生物的基因组组装一直是个难题,而线虫基因组更是含有大量的卫星DNA等重复序列,短读长的测序手段往往对此束手无策。而三代长读长测序技术的发展为复杂基因组研究带来了希望。

研究者以巴西日圆线虫(Nippostrongylus brasiliensis)为例,采用目前读长最长的Oxford Nanopore测序技术,对其基因组进行de novo组装,并加入二代参考基因组进行比较,结果显示:基于长读长的基因组组装,能更好地覆盖串联重复等复杂区域。

材料和方法

材料:巴西日圆线虫(Nippostrongylus brasiliensis)

测序平台:Oxford Nanopore MinION
(未来组配备Nanopore升级平台GridION X5,实时base calling,通量更大,效率更高)

比较结果

1.基因组组装

与以往WTSI的二代参考基因组比较,组装指标大幅度提升(Contig N50: 33.5Kb→209.2Kb)。

Table 1组装结果比较

2.组装评估

经不同方法校正后的BUSCO值比较,表明经三代Nanopolish自我校正后,MinION reads的组装质量优于WTSI参考基因组。

Table 2 不同方法校正后的BUSCO值比较

3.对串联重复序列的识别

由于Nanopore长读长测序能有更好的overlap关系,有助于识别复杂的重复单元。例如,本研究组装出的线虫基因组中,检测到一个由171bp的重复单元构成的21kb的串联重复序列的存在,但在二代参考基因组中未能识别出来(Fig.1)。

Fig.1一个74kb的MinION read与WTSI参考序列的比对(a);MinION read鉴定出WTSI参考序列中存在一个复杂串联重复序列(b)

与二代参考序列相比,Nanopore组装能更好地反映N. brasiliensis基因组中重复序列的多样性(Fig.2)。

Fig.2 WTSI二代参考序列中的重复序列分析(a);
Nanopore组装中的重复序列分析(b)

二代短读长测序技术在富含大量重复片段的基因组测序中存在不足,而三代长读长测序是解决含复杂重复串联序列基因组的一大利器。在本研究中,研究者通过应用单纯的MinION data,辅以改良的Base-calling算法Albacore和升级的Canu v1.5组装手段得到了不逊色于Illumina的线虫基因组。

参考文献

David Eccles, Jodie Chandler, Mali Camberis, etal. De novo assembly of the complex genome of Nippostrongylus brasiliensis using MinION long reads[J]. BMC Biology, 2018, 16(1):6.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注