未来组项目文章||Nanopore+Hi-C再发力,揭示“断肠草”染色体水平基因组

2019年8月16日,湖南农业大学动物医学院,湖南省兽药工程技术研究中心孙志良教授和刘兆颖副教授课题组与武汉未来组合作的钩吻基因组项目文章以“Whole-genome sequencing and analysis of the Chinese herbal plant Gelsemium elegans”为题,在线发表于Acta Pharmaceutica Sinica B (IF=5.808)期刊。研究者利用Nanopore平台对钩吻进行全基因组测序,结合Hi-C技术组装出染色体水平的高质量参考基因组,该研究成果的发布为钩吻属比较基因组研究提供了重要信息。

钩吻(Gelsemium elegans)别称断肠草、大茶药等,其含有的钩吻素是很强的神经抑制剂,能使人因呼吸麻痹而死,传说“神农尝百草”就是因误食钩吻(断肠草)而死。但是,钩吻也有其独特的药用价值,它作为一种治疗类风湿性关节炎、神经性疼痛等疾病的中草药已使用多年。并且小剂量地使用在畜禽时却有促进生长的作用,《本草纲目》记载:“断肠草人误食其叶者致死,而羊食其则大肥”。尽管钩吻具有相当重要的药用价值,但该物种基因组信息十分有限。

研究思路
对取自广西柳城的钩吻植株叶片进行Nanopore测序(160×),利用短读长技术进行钩吻的基因组调研、Hi-C测序以及根、茎、叶花等组织的转录组测序。
基因组装
利用二代测序数据进行基因组调研分析,预测钩吻基因组大小约338.03 Mb,杂合度约0.38%。Nanopore测序过滤后数据为53.45 Gb。采用Canu+WTDBG+Pilon的组装策略,最终获得335.13 Mb的基因组,与预测基因组大小相近,contig N50高达10.23Mb(表1)。
表1钩吻基因组组装结果
为了进一步提升组装质量,利用LACHESIS软件对Hi-C数据进行聚类、排序和定向,将contig序列挂载到8条染色体上,挂载率为99.2%,scaffold N50达40.47Mb。BUSCO数据库评估该基因组完整性为92.9%。
基因组注释
基于同源比对和de novo预测表明该基因组含有43.16%的重复序列,其中以长末端重复序列最多,占23.9%。通过de novo预测、同源比对预测并结合RNA-seq数据集,共预测基因26,768个,其中注释到功能的基因有22,636个(84.56%)(表2)。
表2 钩吻基因组注释结果
系统发育树的构建和分化时间估计
为了研究钩吻的进化地位,研究者将其基因组与其他8种植物的基因组序列进行了比较,其中包含3种能产生生物碱的植物(Calotropis gigantea, Camellia sinensis 和 Macleaya cordata),来自同一双子叶分支的3种不同植物(Arabidopsis thaliana, Brassica rapaVitis vinifera)以及2个单子叶植物(Oryza sativa  Oropetium thomaeum)作为外群。
系统发育分析表明相比茶树(C. sinensis,),牛角瓜(C. gigantea)与钩吻有更紧密的进化关系,这支持了前人的假设。钩吻与茶树的分化约在97.45 Mya,与牛角瓜的分化约在50.69 Mya(图2)。
图2 9种植物的系统发育树
全基因组复制和基因家族扩增分析
利用四重兼并性位点颠换率(4DTv)和Ks估计来检测钩吻组装基因组中的全基因组复制事件(WGD)。结果表明钩吻只经历了古老的全基因组复制事件,而没有现代WGD事件(图3)。OrthoMCL基因家族分析方法揭示了钩吻谱系中509个扩增基因家族和1013个收缩基因家族。
图3  5种植物的全基因组复制(WGD)事件
总之,本研究利用Nanopore+Hi-C技术组装了高质量的钩吻基因组,报道了该基因组的注释、进化等信息。本研究产生的高质量基因组将钩吻的相关研究带入新的水平,为钩吻的遗传改良和药用功能研究提供宝贵的信息和参考依据。该论文第一作者为柳亦松副教授,唐其副教授与程辟副教授为论文共同第一作者,论文通讯作者是孙志良教授与刘兆颖副教授。
钩吻是继赤点石斑鱼后,武汉未来组利用Nanopore+Hi-C策略组装的又一个高质量基因组。这两个案例充分表明了利用Nanopore测序技术的长读长在动植物基因组组装方面的巨大优势。武汉未来组自2017年搭建Oxford Nanopore测序平台以来,已经利用该技术完成600余个动植物基因组的测序和组装,凭借丰富的Nanopore测序经验,未来组将继续助您打造高质量的三代参考基因组,冲击高分文章!
0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注