未来组三代基因组项目再出新篇!“英雄树”木棉基因组草图首发

近日,武汉未来组携手曲靖师范学院唐利洲课题组、西南林业大学田斌课题组首次完成了我国重要林木木棉的三代基因组测序分析项目,文章于2018年5月11日在线发表于Giga Science[1]。曲靖师范学院的高永、王海波和刘潮为本篇论文的共同一作,唐利洲和田斌为通讯作者。武汉未来组凭借丰富的三代测序经验为该项目提供技术支持。

木棉又名英雄树、攀枝花、斑芝棉等,其树形高大雄伟(树高可达40米),春季红花盛开,是优良的行道树、庭荫树和风景树。广州市将木棉选定为其市花,另有攀枝花市以木棉命名。木棉具有重要的经济价值及药用价值,其纤维还被誉为“植物软黄金”,木棉纤维短而细软,中空度高达86%以上,远超人工纤维(25%-40%)和其他天然材料。

研究方法
测序物种:木棉(Bombax ceiba

基因组测序及组装:提取木棉叶片DNA,利用Illumina平台进行基因组Survey,测序数据量36.1 Gb;在PacBio Sequel平台测序19个SMRT cells,测序数据量86.0 Gb; Bionano光学图谱辅助组装,测序数据量160.0 Gb。

转录组测序:提取嫩芽、根、花朵、树皮及果实等组织RNA,利用Illumina HiSeq 2000平台进行RNA-Seq,测序数据量44.41Gb。

研究结果

Fig.1 K-mer分析

K-mer 分析估计木棉基因组大小809M,基因组杂合率0.88%(Fig.1)。结合PacBio及Bionano数据,最终组装出895Mb的木棉基因组,ContigN50为1.0Mb,Scaffold N50为2.06M。基因组组装完整性很好,BUSCO评分达到94.4%。

Table1 BUSCO分析结果

在木棉基因组中共发现454,435 个SSRs,且木棉基因组的重复序列占60.30%,其中长末端重复序列(LTR)含量最高(47.86%)。ncRNA注释共发现496个miRNAs、894个tRNAs、6,772个rRNAs及727个snRNAs。

Fig.2 木棉与其他植物的系统发育关系

为了确定木棉的进化地位,研究者比较了木棉在内的12种植物的基因组。基因家族聚类分析发现木棉中的37,736个基因分属于16,586个不同的基因家族,其中有906个基因是木棉所特有的。基于172个单拷贝的同源基因构建系统发育树,发现木棉与木本棉的的分化大约发生在2060万年前(Fig.2)。此外,基因家族分析揭示了木棉基因家族中的扩张与收缩现象(Fig.3)。

Fig.3 木棉基因家族的扩张与收缩

木棉基因组高杂合高重复,在组装中存在很大的困难。三代长读长技术的加入,克服了这些困难,获得了高质量的木棉基因组,这将为木棉品种改良和基因组学研究提供良好基础。

除木棉之外,锦葵科的另一种明星植物:榴莲也于2017年在Nature Genetics在线发表了其基于三代测序技术的基因组,该文通过基因组与转录组的联合分析,揭示了榴莲独特气味的分子基础及代谢过程。三代测序由于其长读长,无GC偏好,能轻松跨过较长的重复序列等特点,非常适合大型林木的基因组测序。

随着长读长测序技术的发展,物种的基因组组装也从草图逐渐过渡到精细图谱。未来组携三代长读长测序技术(PacBio SMRT、Oxford Nanopore)、BioNano光学图谱及Hi-C染色体构象捕获等技术,为合作伙伴提供更连续、更高质量的动植物基因组组装分析服务。

 

参考文献

[1] Gao, Y. et al. De novo genome assembly of the red silk cotton tree (Bombax ceiba). GigaScience, giy051-giy051 (2018).

[2] Teh B T, Lim K, Yong C H, et al. The draft genome oftropical fruit durian (Durio zibethinus)[J]. Nature Genetics, 2017, 49(11).

 

图片来源于网络|侵删

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注