ONT + 光学图谱 = 染色体水平的植物基因组
随着技术的成熟,组装策略也越来越灵活,长读长测序技术对植物基因组连续性的提升十分显著,有图有真相(见图1)。
图1 不同平台测序的105个基因组contigN50比较
研究者对白菜型油菜(Brassica rapa Z1)、甘蓝型油菜(Brassica oleracea HDEM)、裂果蕉(Musa schizocarpa)的基因组使用MinION并结合Bionano和Illumina进行从头测序。首先,对三个物种测序了38-79×深度的Nanopore长读长reads(相当于4.4-8.2×深度的reads超过50Kb),组装出的长reads基因组连续性很高:不超过1000条contigs,N50在3.8-7.3Mb之间。加入Bionano光学图谱后,最终组装出的基因组contig N50为5.5-9.5Mb,scaffold N50为15.4-36.8Mb。
同时,研究者还与已经发布的组装数据进行了比较,发现本研究组装的contig N50是之前基因组的100-450倍。在加入遗传图谱数据后,甘蓝型油菜基因组仅有129条scaffolds组成,占九条染色体中的95.3%,最重要的是,相较于已发布数据组装出的446.8Mb基因组,本研究锚定到了528.8Mb,填补了之前研究没有覆盖到的82Mb的区域。
研究者还基于可用数据重建白菜型油菜和裂果蕉基因组,最后,四分之一的染色体组装出了单条scaffold,共66%的染色体组装到一条或两条scaffolds上,代表了单条染色体或染色体臂。例如一个三条scaffold跨越了两端端粒重复序列和一段4Mb的高密度着丝粒重复区域,代表了裂果蕉完整的7号染色体,相较于参考基因组有着质的提升,也喻示着长读长reads真正蕴含解密染色体架构的能力。
表1 基因组组装统计
接下来,研究还使用近缘物种注释信息预测了三种基因组的基因:白菜型油菜、甘蓝型油菜和裂果蕉分别注释了46,721、61,279、32,809个基因(见表1)。原来的短读长组装基因组注释出的转座元件和转座富集区域低于预期,而使用长读长组装结果则检测到了更丰富的长散在重复序列(LINE)、长末端重复反转录转座子(LTR retrotransposon)和DNA转座子家族,总之,使用长读长测序组装鉴定到的转座元件更加完整,尤其是难以锚定到染色体上的转座区域基因插入,三种基因组都锚定到了98%以上(见图2)。
图2 三种ONT组装基因组和对应的参考基因组注释比较
研究者指出:读长是提升转座富集元件区域组装的关键因素,进而决定组装的连续性。由于长DNA片段的测序难度,近来基于PacBio平台的植物基因组组装contig N50不是太高。因此本研究还将这三种基于ONT组装的基因组和红小豆、葡萄、柚子、拟南芥、野草莓、月季的PacBio数据进行了比较,发现ONT数据的长reads(>50Kb)比率确实高一些,而PacBio的覆盖度深一些,也就是说要达到高连续度的基因组,PacBio需要更多长reads(见图3)。
图3 基于PacBio和ONT组装的九个基因组比较
不仅如此,研究还比较了MinION和PromethION两种ONT测序平台对裂果蕉基因组的测序表现。单个PromethION flowcell产出17.6G数据,较MinION的24Kb,PromethION的reads N50为26Kb,但最后组装质量差不多,但是差异在于使用promethION将使用MinION所需花费的US$16,300降到了US$6,500。
为了凸显新组装出的芸薹属基因组重要性,研究还将重测序的119个白菜型油菜和119个甘蓝型油菜序列分别比对到参考基因组和本研究得到的基因组上,分析发现比对到本研究基因组上的序列比例更高,而由于参考基因组重复序列的注释问题导致了映射到本研究基因组上的特异reads比例不高。另外,研究还在基因水平上检测到了高度保守的两种芸薹属油菜之间的差异,分析了和春化、花期相关的FLC。最后,研究者对裂果蕉和小果野蕉的全基因组进行比较,揭示了它们着丝粒区域的高度变异。最引人注意的一点是,小果野蕉基因组更加片段化,着丝粒区域显示了低重组率,很难正确的排序和定向,也再次证实了大型contigs对于定位着丝粒的重要性,相较于传统的遗传图谱,光学图谱的信息丰度显然更有意义。
发表评论
想参加讨论吗?请尽情讨论吧!