未来组三代基因组项目再出新篇!“英雄树”木棉基因组草图首发
基因组测序及组装:提取木棉叶片DNA,利用Illumina平台进行基因组Survey,测序数据量36.1 Gb;在PacBio Sequel平台测序19个SMRT cells,测序数据量86.0 Gb; Bionano光学图谱辅助组装,测序数据量160.0 Gb。
转录组测序:提取嫩芽、根、花朵、树皮及果实等组织RNA,利用Illumina HiSeq 2000平台进行RNA-Seq,测序数据量44.41Gb。
Fig.1 K-mer分析
K-mer 分析估计木棉基因组大小809M,基因组杂合率0.88%(Fig.1)。结合PacBio及Bionano数据,最终组装出895Mb的木棉基因组,ContigN50为1.0Mb,Scaffold N50为2.06M。基因组组装完整性很好,BUSCO评分达到94.4%。
Table1 BUSCO分析结果
在木棉基因组中共发现454,435 个SSRs,且木棉基因组的重复序列占60.30%,其中长末端重复序列(LTR)含量最高(47.86%)。ncRNA注释共发现496个miRNAs、894个tRNAs、6,772个rRNAs及727个snRNAs。
Fig.2 木棉与其他植物的系统发育关系
为了确定木棉的进化地位,研究者比较了木棉在内的12种植物的基因组。基因家族聚类分析发现木棉中的37,736个基因分属于16,586个不同的基因家族,其中有906个基因是木棉所特有的。基于172个单拷贝的同源基因构建系统发育树,发现木棉与木本棉的的分化大约发生在2060万年前(Fig.2)。此外,基因家族分析揭示了木棉基因家族中的扩张与收缩现象(Fig.3)。
Fig.3 木棉基因家族的扩张与收缩
木棉基因组高杂合高重复,在组装中存在很大的困难。三代长读长技术的加入,克服了这些困难,获得了高质量的木棉基因组,这将为木棉品种改良和基因组学研究提供良好基础。
除木棉之外,锦葵科的另一种明星植物:榴莲也于2017年在Nature Genetics在线发表了其基于三代测序技术的基因组,该文通过基因组与转录组的联合分析,揭示了榴莲独特气味的分子基础及代谢过程。三代测序由于其长读长,无GC偏好,能轻松跨过较长的重复序列等特点,非常适合大型林木的基因组测序。
随着长读长测序技术的发展,物种的基因组组装也从草图逐渐过渡到精细图谱。未来组携三代长读长测序技术(PacBio SMRT、Oxford Nanopore)、BioNano光学图谱及Hi-C染色体构象捕获等技术,为合作伙伴提供更连续、更高质量的动植物基因组组装分析服务。
参考文献
[1] Gao, Y. et al. De novo genome assembly of the red silk cotton tree (Bombax ceiba). GigaScience, giy051-giy051 (2018).
[2] Teh B T, Lim K, Yong C H, et al. The draft genome oftropical fruit durian (Durio zibethinus)[J]. Nature Genetics, 2017, 49(11).
图片来源于网络|侵删
发表评论
想参加讨论吗?请尽情讨论吧!