Nature Genetics | 八倍体草莓基因组的起源和进化

现代栽培种草莓是两个野生八倍体草莓杂交后的产物,而这两种野生草莓又都是由四个二倍体祖先在一百多万年前融合而来。来自密歇根州立大学的Patrick P. Edger 团队联合加州大学戴维斯分校的研究人员报道了栽培种八倍体草莓(Fragaria×ananassa)染色体级别的基因组组装结果,揭示了八倍体草莓的起源和演化历程。研究在八倍体草莓中普遍鉴定到了每一个二倍体祖先的近缘基因,并且结果支持了八倍体草莓起源于北美这一假说。在对八倍体草莓的四个亚基因组进行动态分析后发现,与其他亚基因组相比,其中一个显性亚基因组保留了更多的基因且基因表达丰度更高,并且在同源染色体交换时存在偏向性。通路分析显示某些代谢和疾病抗性相关基因主要由该显性亚基因组控制,这些发现将作为未来草莓演化和分子育种研究的有力平台。

种植园结出的草莓香甜美味,一直是广受世界各地消费者喜爱的水果,但是小伙伴们知道吗?和野生的四倍体东方草莓或者人工诱导的八倍体小黑麦不一样,栽培草莓中含有天然的八套异源染色体组!有意思的是,融合成为这八倍体基因组的四个二倍体物种,其中两个已经鉴定出来了,而另外两个至今仍然是谜,这就导致八倍体草莓形成的历史进化过程也扑朔迷离。

大家都知道蔷薇科是双子叶植物中的大类,其中的草莓属已有22个种为人们所熟知,因其倍性水平内部和之间的高度可杂交性,自然呈现出从二倍体乃至十倍体的多样性。相较于同源多倍体,异源多倍体更容易呈现多样化的农艺性状,且其中每个亚基因组都包含一个在单核内进化独立的遗传和表观遗传,但是当前研究对亚基因组优势的潜在机制和终极导向还不甚明朗。

那么难点在哪里呢?

由于大尺度的染色体改变和同源基因的交换导致了亲本染色体之间同源基因的乱序和替换,使得异源多倍体系统的分析无法很好的将亲本基因拷贝分配到每个亚基因组上。而选择八倍体草莓则有如下两个优势。一,其四套亚基因组仍包含完整的同源染色体子集,大大简化了同源染色体的分配;二,二倍体祖先物种现生近缘种的基因序列(可能仍存在与八倍体草莓中)能用于将同源染色体精确划分到各自亲本亚基因组中。同时,要充分利用草莓作为研究异源多倍体的模型系统,并为确定生物学和农业上重要的基因和应用基因组育种方法提供一个平台,需要一个高质量的八倍体参考基因组。

因此,本研究选取八倍体草莓通过PacBio、10×Genomics和Illumina等平台覆盖了615×的基因组数据,最终组装出0.81G的基因组、包含28条染色体水平的pseudomolecules,约占到预估基因组大小的99%,同时使用其遗传图谱进行校错并通过野草莓(Fragaria vesca)进行同源染色体鉴定。

研究者还注释了108087个编码蛋白的基因以及30703个编码长链非编码RNAs(LncRNAs)的基因,并在注释中鉴定到了高等植物数据库中99.17%的核心基因(1440个),证实了组装的优质。另外,研究也进行了重复元件如DNA转座子、LTR-RTs以及非LTR反转录转座子等的注释,分析发现转座元件(TE)占到了基因组约36%,而其中LTR-RTs丰度最高,占约28%。最后,对质体和线粒体基因组的组装注释也体现了组装的完整度。

图1 二倍体和八倍体草莓基因组的共线性(a. 本研究中的八倍体草莓和二倍体的F. vesca基因组宏观共线性比较,红色为F. vesca,紫色为F. nipponica,蓝色为F. iinumaeF. viridis 是绿色;b. 1号染色体四个同源拷贝的基因保留模式,颜色编码同a。c. 二倍体F. vesca和八倍体草莓的四个同源区在1号染色体某区域上的微观共线性比较)

起源与演化推断

系统发育分析最重要的切入点其一是物种的选取具有代表性,其二是包含足够的遗传信号。本研究从头组装了31个已描述的二倍体草莓转录组,预测出了19302个直系同源核基因用于鉴定祖先种,是草莓属目前遗传信号最丰富的分子系统发育分析。

①研究揭示了前人未知的两种二倍体祖先,结合地理分布、历史事件和遗传印记推断出了八倍体草莓形成的过程,详见图2。

图2 八倍体草莓的进化历史(图中标识了八倍体草莓的二倍体祖先现生亲缘种、推断的中间四倍体、六倍体祖先和北美现生八倍体野生种,每种二倍体祖先颜色和图1一致)

②系统发育分析表明Fragaria iinumaeFragaria nipponica是四种现生二倍体祖先的其中两个种,为日本特有,在地理分布上毗邻中国的所有五个四倍体种。

③第三个为分布于欧亚的二倍体Fragaria viridis,与独有的六倍体种Fragaria moschata在分布上部分重叠,研究据此假设四倍体和六倍体是从二倍体到八倍体进化的中间产物,该假设也得到了之前研究的支持。

④研究鉴定到的第四个种为F. vesca subsp. Bracheata,仅分布于从墨西哥到不列颠哥伦比亚的北美西部。

⑤系统发育结合现存种的地理分布推断八倍体草莓起源于北美,而F. vesca subsp.Bracheata极有可能贡献了八倍体草莓形成的最后一个二倍体。该发现与之前研究一致,也得到了本研究卡麦罗莎(美国二十世纪九十年代育成草莓品种,长势健旺)质体基因组分析的证实。因此,可以推断六倍体祖先可能从亚洲传入北美并在约1.1个百万年前与F. vesca subsp. Bracheata的当地种群杂交。

异源多倍体的亚基因组优势

大部分古老的异源多倍化事件后,其中一个亚基因组通常会呈现主导优势,如基因含量更高、高表达以及更强的选择压力等,且和亚基因组含量的差异及TEs(转座元件)调控相关(基因表达水平与其附近的TEs密度呈负相关),因此可以基于TEs富集和分布来预测基因表达优势和单个同源染色体水平上最终的基因缺失。

基于上述鉴定的二倍体近亲,研究对四个亚基因组进行了动态分析,鉴定出F. vesca祖先种为优势亚基因组的供体(见图1),保留了多出20.2%的蛋白编码基因和多出14.2%的lncRNA基因,并比其他同源染色体少了19.5%的TEs。相较于其他亚基因组,F. vesca同源染色体基因附近的TEs密度也最低,同时其串联基因重复也多出约40.6%等。这些都表明了F. vesca亚基因组承受了更多的选择压力以保留基因,包括串联重复基因。

研究还分析了影响草莓产量的疾病抗性基因(R genes)。进来研究证实很多R蛋白通过整合的诱饵结构域(decoy domains)识别病原体效应物,而F. vesca基因组编码了20个这种蛋白模型。八倍体草莓扩张了105个融合到R蛋白结构上分化的结构域且具有潜在的整合诱捕功能。

另外,研究还发现不同于F. vesca祖先种,其他祖先种染色体部分区域保留了更多的祖先基因,这些区域是同源染色体交换(HEs)或基因转化事件的产物。值得注意的是,大部分八倍体草莓的HEs涉及显性F. vesca亚基因组对应区域的同源染色体替代。如系统发育和比较基因组分析显示相对F. iinumae,HEs呈现7.3×的偏向于F. vesca亚基因组,但它们并不是像以前报道的那样是单向的。这些结果都表明,F. iinumae亚基因组部分已被F. vesca亚基因组所取代。当然,结果也表明F. vesca亚基因组在草莓抗病性上起主要作用,同时其他三个二倍体祖先种也贡献了抗性机制的多样性。

最后研究还进行不同器官的基因表达分析,而结果证实显性F. vesca亚基因组确实有更高的表达,也支持了亚基因组表达优势受亚基因组之间TEs密度差异影响的观点(图3)。

图3 亚基因组表达优势(灰色柱状图是所有可测试的同源对的表达偏倚,即HEB,可测试的同源对标准基于共线性、>80%的系统发育自展支持率以及转录组数据中至少包含一条read来判定;红色表示同源对显著偏向F. vesca同源基因,偏向三个二倍体祖先种中的一个则用黑色表示)

此外,研究还揭示八倍体草莓中的大多数HEs最终都会导致显性F. vesca亚基因组替代其他亚基因组其中一个对应的同源区域。因此,图3中观测到的F. vesca亚基因组同源基因表达倾向低估了转录组范围的表达优势(占所有转录本的68.7%)。这种偏向导致某些生物学通路如本研究中包括草莓风味、颜色和香味等的代谢通路很大程度上由一个显性亚基因组控制。

总之,本研究通过PacBio、10×Genomics和Illumina等平台的八倍体草莓数据组装出了染色体级别的基因组,并据此重建了八倍体化的进化历史,关键还鉴定出了其每一个二倍体祖先种。研究重点分析了F. vesca亚基因组在四个祖先种亚基因组中占主导地位的现象,这对其他异源多倍体物种的研究有着非常好的借鉴意义,同时也为草莓等栽培经济作物的研究提供了一个可行的分析案例。

参考文献

Edger P P, Poorten T J, VanBuren R, et al. Origin and evolution of the octoploid strawberry genome[J]. Nature genetics, 2019: 1.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注