PacBio技术破译首个木兰类植物——牛樟基因组

木兰亚纲(Magnoliidae)隶属于种子植物中的被子植物,含超过9000个种和四个目(白桂皮目、胡椒目、樟目和木兰目)。来自我国宝岛台湾生物多样性研究中心和医学科技学院的多名研究人员首次聚焦木兰亚纲樟目樟科樟属的牛樟,结合PacBio、Hi-C、Illumina等技术平台组装出了其reference级别的基因组并进行注释。13种代表性的种子植物系统发育分析表明,相较于单子叶植物,木兰亚纲和双子叶植物之间有着更近的祖先;在木兰亚纲谱系间发生了两次全基因组复制事件(WGD):一次早于樟目和木兰目之间的分化,另一次在樟科的分化之间。樟属演化史中也有小片段复制和串联重复事件的作用,如月桂中萜合成酶基因亚家族的扩张造就了肉桂单萜和倍半萜的多样性。文章见刊Nature Plants,该期刊影响因子为11.471。芳香药用植物在人类历史上有着重要的工业和药用价值,而樟属更是分布于亚洲和南美在经济和生态上重要的常绿芳香树种。但是木兰类植物之间的谱系关系却一直有待明确。牛樟作为台湾特有的植物因其巨大的树干、芳香、耐腐的特性而有着不可估量的价值,同时也因为砍伐过度、种子发芽率低而濒临灭绝。正因如此,研究者组装出了染色体水平的牛樟基因组并结合其他10种被子植物和2种裸子植物指明了木兰亚纲的系统发育地位还解析了对开花植物基因组进化问题的疑惑。那么研究采取什么样的策略又是如何进行分析的呢?请随组学君一探究竟。
方法策略
采样(12龄牛樟)
基因组DNA提取(叶片)并测序①Illumina双端测序②PacBio测序(20kb SMRT文库)③构建Chicago和Hi-C文库并进行Illumina测序

RNA提取(花、二期花芽、未成熟叶、幼叶、成熟叶、幼茎和果实)并进行Illumina测序
染色体数目评估
基因组大小评估
基因组从头组装
基因预测和功能注释
基因组杂合度分析
重复元件鉴定
基因家族和同源类群推断以及蛋白域分析
系统发育分析
分歧时间估算
基因组共线性和WGD分析
R基因和TPS基因鉴定
结果概述
牛樟基因组的组装和注释

牛樟预估基因组大小为823.7± 58.2 Mb/1 C, 2n=24。本研究先用PacBio测序覆盖85×深度,reads N50为11.1kb,contig N50为0.9Mb,组装基因组728.3Mb。然后使用141×Illumina reads进行校正,接着用207בChicago’重组染色质和204×Hi-C双端reads进行染色体挂载。最终,整合基因组大小730.7Mb,含2153条scaffolds,占流式细胞仪估算基因组大小的91.3%,scaffold N50达到50.4Mb,占12条对应于牛樟染色体超过90%的pseudomolecules,且注释蛋白质BUSCO评估不低于89%。

基因组特征

杂合位点的空间分布高度可变,有23.9%的基因组每1kb仅有不到1个SNP位点,而有10%的基因组1kb有至少12.6个。杂合区域呈现随机分布,在第11号scaffold上达到最多20.2Mb(参见图1a),但在序列覆盖上较其他杂合区域更均衡,推断与选择性清除、同系繁殖或最近的种群瓶颈效应相关。同时,位于这些杂合区域上的基因在木质素生物合成过程与半乳糖代谢中尤为富集,可能在木质素-碳水化合物复合物的合成中起到作用(见图1b)。

图1 牛樟基因组杂合度(a.每100-kb非重叠窗口的杂合双等位基因的SNPs数目对最大的12条scaffolds作图,Indels被排除;b.使用PSMC方法推断的有效种群大小的历史;c.对每个100-kb非重叠窗口,分布从顶端到末端为基因密度、转录组和三类重复序列。红色T字母表示scaffold末端存在端粒重复簇,LINE表示长散在重复序列 )

转座元件和散在重复序列占到基因组的48%,最大的类别为长末端重复转座子(LTR RT)(25.53%),其次是DNA转座子占12.67%。在LTR RT中,又分别有40.75%为Ty3/Gypsy、23.88%为Ty1/Copia(图1c)。另外,LTR富集的区域较基因组其他区域平均多覆盖了35%,正是其在组装中被折叠导致了流式细胞仪和k-mer分析对基因组大小评估的差异。

再者,染色体水平的scaffolds在染色体中心区域呈现蛋白编码基因密度低、转座元件分布密度高的特点(图1c)。同时研究还发现了687kb核质体类DNA序列(NUPTs),其中96%是小于500bp的短片段。

系统发育分析

研究从上述13个物种中搜寻到了211个单拷贝直系同源数据集,整合为超级矩阵后使用最大似然法进行系统发育树的构建,结果显示木兰亚纲和双子叶植物支系形成姐妹类群关系(见图2)。该系统树在加入额外22个木兰类物种的转录组数据后仍然保持原来的拓扑结构,只是自展支持率较之前稍低。

最后,通过化石年代的标定,研究估算出木兰亚纲和真双子叶谱系于136.0-209.4Ma分化出来,这一结果也得到了最近其他研究结果的支持(图2)。

图2 基于13个物种中211个单拷贝直系同源基因构建的物种系统发育树(+和-旁的数字分别表示基因家族的扩张和收缩;括弧里的绿色数字表示分歧时间的估算;如无额外说明,所有自展支持率为100%)

共线性分析和全基因组复制

研究在72.7%的基因组中鉴定到16498个基因对分布于992个共线性区上,这些共线性区又有72.3%与基因组上超过一个位点呈共线性,也就是说:牛樟祖先发生了不止一次WGD事件(参见图3a)。染色体区域成对的广泛共线性以及每个区域与另外两个基因组片段显著、但非共线性的配对和两轮古代WGD事件息息相关(图3a)。

无油樟(Amborella trichopoda )是其它现生所有被子植物姐妹类群的唯一物种,自现生开花植物谱系最近的共同祖先分化以来没有发生过WGD事件的证据。因此,研究做了一个假设:两轮WGD事件是牛樟祖先在牛樟和无油樟分化之后发生的,两者基因组的共线性分析发现牛樟1-4个片段匹配上了无油樟基因组的单个区域,证实了上述假设(图3b)。

那么两轮WGD事件什么演化节点上发生的呢?研究者又估算了基因组内和种间的同源染色体Ks(同义替换)分布。牛樟基因组内重复片段峰值在0.46和0.76附近(图4a),正好和两轮WGD事件对应,研究据此来推断核型进化事件。洛矶山耧斗菜(Aquilegia coerulea隶属于其它所有现生真双子叶植物姐妹类群的毛茛目,其与牛樟直系同源的分析显示主峰在Ks=1.41左右(图4a),而耧斗菜基因内重复片段Ks=1,由此推断在牛樟和耧斗菜谱系分化后发生了独立的WGD事件。通过挖掘17个樟目和木兰目转录组数据的信息,研究发现樟科Ks分布的两个峰与牛樟Ks分布一致,对应上了牛樟祖先WGD事件的两个基于共线性的推断(图4b和图3)。而其他樟目和木兰目物种仅发现一个Ks峰,推断WGD事件在其演化过程中仅发生一次。在耧斗菜数据中观测到的Ks峰可能对应的是真双子叶植物和木兰亚纲分化后毛茛目内部的WGD事件(图4a)。

图3 牛樟基因组的进化分析(a.牛樟基因组中的637个共线性区基因组内关系示意图;共线性区由五色线条表示,代表祖先染色体组型;紫色区块表示分配到第一种颜色区域上的共线性区;b.牛樟基因组内第一种颜色区域和无油樟对应的共线性关系)

图4 牛樟和其他物种之间同义替换的密度图(a.牛樟与洛杉矶耧斗菜及两者间共线性区鉴定到的成对直系同源重复序列;b.樟科和木兰目基因组内成对重复序列Ks,虚线为在牛樟上观察到的Ks峰,棕色和灰色的线条分别为牛樟和其他樟科Ks分布)

特化木兰亚纲蛋白质组学

研究试图通过对蛋白家族(pfam)域进行注释、评估其在13个用于系统发育分析的种子植物基因组中的分布来鉴定牛樟特有的基因和蛋白域。分析发现,牛樟、真双子叶植物和单子叶植物之间有相当大的重合,说明三个谱系在分化后功能发生了显著的多样化。包括萜烯合成酶(tps)羧基末端结构域在内的蛋白质结构域的获得涉及植物蒸腾效率中的防御反应和富含亮氨酸的重复序列。有意思的是,研究者发现牛樟拥有21个EIL转录因子的拷贝,比之前报道的拥有最多拷贝数的香蕉基因组还多4个;同时EIL是通过激活乙烯应答因子(ERF)来启动乙烯信号应答的,牛樟中的ERF同样高度扩张。通过EILs的扩张来刺激ERF从而实现对下游效应的调控形成了牛樟特有的属性。

接下来,研究还评估了种子植物系统发育中直系同源类群的扩张和收缩。基因家族大小的演化在系统发育过程中是动态的,进化为牛樟的支系没有呈现出显著的扩张或收缩变化。GO富集分析揭示出牛樟不同的基因家族享有共同的功能或者单个基因家族经历了大规模的扩张。

R基因和TPS基因家族

牛樟基因组注释包含了387个R基因模型,其中82%都属于核苷酸结合位点上亮氨酸富集的重复序列(NBS-LRR)或者卷曲螺旋结构的NBS-LRR类型。在13个研究基因组中,牛樟在非栽培植物中含有最多数目的R基因。2465个NBS结构域的系统发育分析也显示基因家族内的分支在真双子叶植物、单子叶植物和木兰亚纲中是独立分化的。引人注意的一点是,牛樟NBS基因最分化的一支与双子叶植物NBS基因最保守的一支形成了姐妹类群。

图5 101个CkTPS基因的系统发育位置

对于牛樟基因组,最显著的特征是其庞大数量的TPS基因(CkTPS)。本研究在牛樟基因组中预测、注释了101个CkTPS,是迄今基因组中发现数目最多的。在加了两个木兰亚纲物种转录组数据并进行系统发育分析后在之前已描述过的7个种子植物TPS基因亚族中明确了6个亚族CkTPS的系统位置(图5和表1)。101个CkTPS基因有7个与催化形成20-碳异戊二烯类化合物的关键酶有关,另外94个很可能编码10-碳单萜合成酶、15-碳倍半萜烯合成酶以及其他20-碳双萜合成酶(表1)。

值得引起注意的是CkTPS基因系统树还解决了TPS-aTPS-b TPS-fTPS-g基因亚族内部樟科特异性的TPS基因分支。总之,分析表明不论是樟科起源之前还是之后,木兰亚纲TPS基因都处于不断分化之中。

最后研究还分析了不同染色体上TPS基因的分布密度。研究提到,TPS基因在染色体上是不均匀分布的,并且独立亚族中的成员聚类以串联重复的形式存在。在牛樟基因组最大的12条scaffolds上观察到了76个TPS基因,而7号scaffold包含了隶属于多个亚族的29个TPS基因,相比之下,1号scaffold仅含CKTPS-c的两个成员,再有24个CKTPS基因定位在其他小一些的scaffolds上等等。

结 语
本研究涉及的牛樟自19世纪以来遭到过度砍伐,追溯到900万年前,它的有效种群规模其实就在持续下降,这些不仅由于牛樟复杂的种群历史也与台湾的诞生、发展休戚相关,而且还和中新世晚期以及5-6Ma的造山运动脱不开关系。那么本研究最大的贡献在哪里呢?①首次进行了木兰亚纲代表物种的测序,并纳入13个种子植物代表物种的系统发育研究中。虽然金粟兰科和Ceratophyllacae (疑似金鱼藻科)尚无基因组数据可用,但是将牛樟和真双子叶植物归为姐妹类群对于真双子叶植物演化的比较基因组学分析有着重大的意义。②与之前同工酶分析结果相一致,本研究推断出了木兰亚纲发生的两次独立WGD事件的节点,其对病原体、食草动物及其共生交互作用的基因家族的扩张和多样性演化起到了举足轻重的推进作用。③对于核心真双子叶植物六倍体祖先起源的二倍体事件重建,牛樟基因组扮演重要的参考外类群的角色。

④六个被子植物TPS亚族分别进行的基因树拓扑结构揭示了牛樟祖先TPS基因的分化和基因功能,例如证实TPS-f基因亚族在所有被子植物最近的共同祖先中存在但在禾本科中是缺失的等。

⑤研究鉴定了牛樟基因组中101个CkTPS基因并在12条染色体对应的scaffolds上是不均匀分布的且包含来自于多个亚族的基因簇。

简言之,牛樟基因组的问世为揭示其他木兰亚纲物种的遗传多样性和演化打下了坚实的基因组学基础,并对开花植物基因组进化和分化提供了更完善的见解,同时对这种具有重大文化、经济价值的阔叶林物种的多样性保护也起到了作用。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注