ONT + 光学图谱 = 染色体水平的植物基因组

植物基因组的高重复性、多倍化等问题一直是阻碍获得高质量植物基因组的主要原因。而近日发表在Nature Plant上的一篇文章[1]巧妙运用ONT结合光学图谱的方法,获得了染色体级别的两种芸薹属物种和一个裂果蕉的高质量参考基因组,这为植物基因组学研究开辟了一条新的路径。

随着技术的成熟,组装策略也越来越灵活,长读长测序技术对植物基因组连续性的提升十分显著,有图有真相(见图1)。

图1 不同平台测序的105个基因组contigN50比较

从图中可以看到,大部分Illumina组装的基因组连续性欠佳,454测序平台虽然在读长上较其他第二代测序技术有明显的优势,但是和Sanger相比仍然小有距离,和PacBio、ONT相比差距十分明显。今天要为大家分享的就是使用ONT辅以Bionano光学图谱技术将两种双子叶和一种单子叶植物组装到contig N50>5Mb,并组装出包含代表全部染色体或染色体臂的scaffolds。

一起来看看吧!

研究者对白菜型油菜(Brassica rapa Z1)、甘蓝型油菜(Brassica oleracea HDEM)、裂果蕉(Musa schizocarpa)的基因组使用MinION并结合Bionano和Illumina进行从头测序。首先,对三个物种测序了38-79×深度的Nanopore长读长reads(相当于4.4-8.2×深度的reads超过50Kb),组装出的长reads基因组连续性很高:不超过1000条contigs,N50在3.8-7.3Mb之间。加入Bionano光学图谱后,最终组装出的基因组contig N50为5.5-9.5Mb,scaffold N50为15.4-36.8Mb。

同时,研究者还与已经发布的组装数据进行了比较,发现本研究组装的contig N50是之前基因组的100-450倍。在加入遗传图谱数据后,甘蓝型油菜基因组仅有129条scaffolds组成,占九条染色体中的95.3%,最重要的是,相较于已发布数据组装出的446.8Mb基因组,本研究锚定到了528.8Mb,填补了之前研究没有覆盖到的82Mb的区域。

研究者还基于可用数据重建白菜型油菜和裂果蕉基因组,最后,四分之一的染色体组装出了单条scaffold,共66%的染色体组装到一条或两条scaffolds上,代表了单条染色体或染色体臂。例如一个三条scaffold跨越了两端端粒重复序列和一段4Mb的高密度着丝粒重复区域,代表了裂果蕉完整的7号染色体,相较于参考基因组有着质的提升,也喻示着长读长reads真正蕴含解密染色体架构的能力。

表1 基因组组装统计

接下来,研究还使用近缘物种注释信息预测了三种基因组的基因:白菜型油菜、甘蓝型油菜和裂果蕉分别注释了46,721、61,279、32,809个基因(见表1)。原来的短读长组装基因组注释出的转座元件和转座富集区域低于预期,而使用长读长组装结果则检测到了更丰富的长散在重复序列(LINE)、长末端重复反转录转座子(LTR retrotransposon)和DNA转座子家族,总之,使用长读长测序组装鉴定到的转座元件更加完整,尤其是难以锚定到染色体上的转座区域基因插入,三种基因组都锚定到了98%以上(见图2)。

图2 三种ONT组装基因组和对应的参考基因组注释比较

研究者指出:读长是提升转座富集元件区域组装的关键因素,进而决定组装的连续性。由于长DNA片段的测序难度,近来基于PacBio平台的植物基因组组装contig N50不是太高。因此本研究还将这三种基于ONT组装的基因组和红小豆、葡萄、柚子、拟南芥、野草莓、月季的PacBio数据进行了比较,发现ONT数据的长reads(>50Kb)比率确实高一些,而PacBio的覆盖度深一些,也就是说要达到高连续度的基因组,PacBio需要更多长reads(见图3)。

图3 基于PacBio和ONT组装的九个基因组比较

不仅如此,研究还比较了MinION和PromethION两种ONT测序平台对裂果蕉基因组的测序表现。单个PromethION flowcell产出17.6G数据,较MinION的24Kb,PromethION的reads N50为26Kb,但最后组装质量差不多,但是差异在于使用promethION将使用MinION所需花费的US$16,300降到了US$6,500。

为了凸显新组装出的芸薹属基因组重要性,研究还将重测序的119个白菜型油菜和119个甘蓝型油菜序列分别比对到参考基因组和本研究得到的基因组上,分析发现比对到本研究基因组上的序列比例更高,而由于参考基因组重复序列的注释问题导致了映射到本研究基因组上的特异reads比例不高。另外,研究还在基因水平上检测到了高度保守的两种芸薹属油菜之间的差异,分析了和春化、花期相关的FLC。最后,研究者对裂果蕉和小果野蕉的全基因组进行比较,揭示了它们着丝粒区域的高度变异。最引人注意的一点是,小果野蕉基因组更加片段化,着丝粒区域显示了低重组率,很难正确的排序和定向,也再次证实了大型contigs对于定位着丝粒的重要性,相较于传统的遗传图谱,光学图谱的信息丰度显然更有意义。

总结该研究证实了结合ONT MinION/PromethION、Bionano光学图谱和Illumina的测序策略能够获得高质量、低花费的组装结果。本次组装的三种基因组相较于参考基因组,尤其在转座元件富集的区域有了显著的提升,且注释的结果也更加完整。需要指出的是,对于植物基因组而言,高质量的DNA提取仍然尤为重要,同时,Illumina数据对于ONT系统错误的纠正也不可或缺。时至今日,光学图谱或者染色体构象技术对于大型植物基因组而言还是组装到染色体级别的关键,可以预见,随着读长的持续提升,单纯使用长度长测序技术组装到染色体级别基因组的那天终将到来。

参考文献:Belser C,Istace B, Denis E, et al.Chromosome-scaleassemblies of plant genomes using nanopore long reads and optical maps. NaturePlantsvolume 4, pages879–887(2018)

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注