Nanopore测序揭露线虫基因组中复杂串联重复序列
真核生物的基因组组装一直是个难题,而线虫基因组更是含有大量的卫星DNA等重复序列,短读长的测序手段往往对此束手无策。而三代长读长测序技术的发展为复杂基因组研究带来了希望。
研究者以巴西日圆线虫(Nippostrongylus brasiliensis)为例,采用目前读长最长的Oxford Nanopore测序技术,对其基因组进行de novo组装,并加入二代参考基因组进行比较,结果显示:基于长读长的基因组组装,能更好地覆盖串联重复等复杂区域。
材料和方法
材料:巴西日圆线虫(Nippostrongylus brasiliensis)
测序平台:Oxford Nanopore MinION
(未来组配备Nanopore升级平台GridION X5,实时base calling,通量更大,效率更高)
比较结果
1.基因组组装
与以往WTSI的二代参考基因组比较,组装指标大幅度提升(Contig N50: 33.5Kb→209.2Kb)。
Table 1组装结果比较
2.组装评估
经不同方法校正后的BUSCO值比较,表明经三代Nanopolish自我校正后,MinION reads的组装质量优于WTSI参考基因组。
Table 2 不同方法校正后的BUSCO值比较
3.对串联重复序列的识别
由于Nanopore长读长测序能有更好的overlap关系,有助于识别复杂的重复单元。例如,本研究组装出的线虫基因组中,检测到一个由171bp的重复单元构成的21kb的串联重复序列的存在,但在二代参考基因组中未能识别出来(Fig.1)。
Fig.1一个74kb的MinION read与WTSI参考序列的比对(a);MinION read鉴定出WTSI参考序列中存在一个复杂串联重复序列(b)
与二代参考序列相比,Nanopore组装能更好地反映N. brasiliensis基因组中重复序列的多样性(Fig.2)。
Fig.2 WTSI二代参考序列中的重复序列分析(a);
Nanopore组装中的重复序列分析(b)
二代短读长测序技术在富含大量重复片段的基因组测序中存在不足,而三代长读长测序是解决含复杂重复串联序列基因组的一大利器。在本研究中,研究者通过应用单纯的MinION data,辅以改良的Base-calling算法Albacore和升级的Canu v1.5组装手段得到了不逊色于Illumina的线虫基因组。
参考文献
David Eccles, Jodie Chandler, Mali Camberis, etal. De novo assembly of the complex genome of Nippostrongylus brasiliensis using MinION long reads[J]. BMC Biology, 2018, 16(1):6.
发表评论
想参加讨论吗?请尽情讨论吧!