Nature Genetics | 朱玉贤院士团队发布首个棉花基因组完整图谱,阐述棉族独特折叠胚胎形成的分子与演化机制

植物种子及其周围结构提供的营养维持了人类文明的延续与发展。植物种子胚胎是营养的储存器,展现出丰富的结构多样性,反映了植物在进化过程中对环境适应的独特策略。1946年,早期植物学家A. C. Martin根据种子胚胎大小和形态特征,将植物种子胚胎划分为10种类型 (Martin, 1946),其中被子植物的胚胎通常表现为叶轴型(Foliate axile types, FA),包含了四种基本类型,即Spatulate(FA1)、Bent(FA2)、Folding(FA3)和Investing(FA4)。棉花(锦葵科植物)作为全球最重要的经济作物之一,具有复杂折叠的叶轴型胚胎,一般情况下,其子叶通过多层折叠完全包裹胚轴和胚根。与锦葵科近缘物种木槿相比,棉花显然经历了种子胚胎形态革新,从简单折叠胚(FA3)演变成复杂折叠胚类型(complex FA3),这种复杂折叠胚胎被认为是被子植物中发育最完全、最复杂胚胎类型(图1)。胚胎复杂折叠不仅能够保护胚根和胚轴,而且种子变大,能在有限种子空间内包裹最多的子叶从而提升储存营养资源的容量。同时,这一结构还与种子萌发、休眠及对环境的适应性密切相关 (Fryxell, 1978)。然而,棉花复杂折叠胚胎的发育过程及其背后的分子机制尚未被研究。

自朱玉贤院士团队与合作者在2012年首次公布雷蒙德氏棉基因组以来,棉花基因组学取得了一系列重要进展,推动了功能基因组学研究以及棉花复杂性状的解析 (Du et al., 2018; Huang et al., 2021; Huang et al., 2020; Wang et al., 2012)。然而,棉花基因组的准确与完整解析,尤其是复杂的转座子序列及其生物学功能,尚需深入研究与探讨。

图1 棉花通过种子胚胎形态革新产生复杂折叠胚胎

2024年8月15日,武汉大学/北京大学教授朱玉贤,北京大学博士后黄盖(现为中国科学院遗传与发育生物学研究所副研究员)为主要作者在国际知名期刊Nature Genetics发表题为A telomere-to-telomere cotton genome assembly reveals centromere evolution and a Mutator transposon-linked module regulating embryo development的研究论文。该研究通过解析首个端粒到端粒的雷蒙德氏棉(Gossypium raimondii,四倍体棉的祖先种)基因组完整序列图谱,揭示了其独特的着丝粒结构类型及表观图谱。通过深入挖掘功能性转座子,发现由三个新分子(miR2947-DNA转座子MuTC01-加倍基因LEC2b)组成的三级小RNA调控机制,从而阐明了棉花复杂折叠胚胎形成的分子调控与演化机制 (Huang et al., 2024)。

图2 朱玉贤院士团队在棉花基因组和功能研究取得重要进展

该研究整合了最新的测序技术和算法(希望组为本研究提供了NGS、超长和HiFi测序。),成功获得了776 Mb首个二倍体棉花基因组完整序列图谱。与以往基因组版本相比,首个棉花基因组完整序列图谱具有高连续性和完整性,成功组装了着丝粒和端粒序列,并对转座子和基因进行了更精确和完整的注释,识别出53167个蛋白质编码基因,显著高于以往版本(37505–40976个基因)。此外,T2T基因组还修正了之前版本中的错误序列,主要是涉及着丝粒、端粒等复杂区域。通过深入解析着丝粒序列,发现了雷蒙德氏棉着丝粒独特的结构与组成(图3)。雷蒙德氏棉着丝粒主要由LTR类转座子构成,缺乏短着丝粒微卫星序列,展现出与其他植物显著不同的特征。此外,雷蒙德氏棉的着丝粒缺乏典型的核小体有相位的排布规律,这一差异主要源于其着丝粒的形成过程直接受到长末端重复逆转录转座子入侵的影响。

图3 雷蒙德氏棉基因组具有独特的着丝粒结构

基于基因组完整序列图谱,研究者对棉花转座子进行精准鉴定,得到了872549条非冗余转座子序列。棉花含有丰富的TIR类转座子,其中Mutator家族是最主要的TIR类型。转座子元件表达分析发现,只有约2%的序列编码了具有转录活性的转座子,而在棉花胚胎发育晚期有88个转座子在子叶阶段表现出组织特异性表达特性(图4)。这些具有组织特异活性转座子中,仅DNA MuDR转座子(命名为MuTC01)能够产生最丰富的正负链小RNA,是反式作用siRNA产生位点。分析发现,MuTC01起源于DNA转座子Mutator家族,在全基因组中具有34个同源拷贝,只有MuTC01能产生高丰度的siRNA,预示MuTC01可能通过siRNA在棉花胚胎发育过程中发挥作用。

图4 转座子功能分析揭示了胚珠特异表达并产生siRNA的MuTC01转座子

通过靶向预测以及降解组分析,他们发现MuTC01受棉花特异的miR2947靶向切割产生有相位的siRNA(图5)。进一步通过CRISPR–Cas9基因编辑技术,对棉花的miR2947和MuTC01进行基因突变实验。电镜观察成熟胚胎形态显示,突变体mir2947mutc01都表现出胚胎发育异常表型,子叶没有被完整包裹和折叠。

图5 miR2947靶向MuTC01产生小RNA调控棉花胚胎折叠

通过对棉花胚胎发育轨迹进行切片观察(图6),显示棉花突变体 mutc01mir2947均会导致胚胎折叠异常的表型,特别是在胚胎发育后期(开花后23天以后)变得尤为明显。这些结果表明 miR2947–MuTC01调控模块在棉花胚胎发育中起到关键调控作用,突变体胚胎形态与近缘种木槿相似,表明miR2947–MuTC01 调控模块很可能是棉花胚胎复杂折叠类型形成的关键因素。

图6 棉花突变体胚胎发育轨迹切片观察

为进一步探究miR2947–MuTC01调控模块下游的靶标,他们结合靶位点分析、转录分析以及切割位点验证等实验,确定MuTC01产生的22-nt siRNA(命名为siRNA_22nt)能够靶向棉花LEC2b基因(图7)。系统演化分析发现,LEC2基因起源于棉属全基因组加倍事件,在棉花中有两个拷贝,分别命名为LEC2aLEC2b。与拟南芥、可可同源的拷贝为LEC2a,棉花独特的基因为LEC2bLEC2aLEC2b在第一个外显子区域存在553 bp的变异区域,使得MuTC01能靶向LEC2b产生21-nt有相位的siRNA,而不能靶向LEC2a。两个同源基因独特的序列和调控演化暗示LEC2aLEC2b存在功能分化。

图7 由miR2947-MuTC01-LEC2b组成的三分子模块调控棉花胚胎折叠

作者进一步利用基因编辑实验创造了三个棉花突变体(图7),包括:在LEC2b的第一个外显子区域设计两个sgRNA,编辑siRNA_22nt 靶向LEC2b的区域,获得棉花突变体lec2b-2;在LEC2b外显子设计四个sgRNA,编辑LEC2b蛋白质编码区,而不编辑siRNA_22nt靶向区域,获得棉花突变体lec2b-1;在LEC2a设计两个sgRNA,编辑LEC2a蛋白质编码区,获得棉花突变体lec2a。他们通过棉花胚胎的发育轨迹进行切片观察,发现棉花突变体lec2alec2b-1在棉花胚胎发育过程中无明显的发育异常表型,而lec2b-2突变体子叶不能正确包裹胚胎,类似于mutc01mir2947等棉花突变体,且在胚胎发育后期(开花后23天以后)变得尤为明显。

作者进一步检测五个棉花突变体(mir2947, mutc01, lec2a, lec2b-1, lec2b-2)在LEC2b基因位点的siRNA表达水平(图7)。数据表明,在mir2947, mutc01lec2b-2棉花突变体背景下,LEC2b基因位点有相位的siRNA消失,而在lec2alec2b-1突变体背景下,不影响LEC2b基因位点的siRNA的产生。这个siRNA分布情况与突变体的表型完全一致。这些数据表明,miR2947–MuTC01–LEC2b三分子模块是通过LEC2b产生三级siRNA控制棉花胚胎复杂折叠,而不是通过影响LEC2b蛋白质功能而发挥作用。

作者进一步探究miR2947–MuTC01–LEC2b三分子模块的起源与演化(图8),结果表明该三分子模块同时存在于具有复杂折叠胚胎类型的整个棉族(包括棉属在内的100多个种),显著不同于其近缘物种木槿族所具有的简单折叠胚胎类型。因此,作者提出了三级小RNA调控棉族独特胚胎类型的分子和演化机制,即棉族特异的MIR2947产生第一级22-nt的miR2947,直接靶向DNA转座子MuTC01,产生第二级小RNA,再靶向全基因组加倍产生的LEC2b基因,产生第三级小RNA,从而调控棉族复杂折叠胚胎形成(图8)。这项研究系首次在植物界发现具有功能的三级小RNA调控机制,也是首次从发育角度阐释棉族复杂胚胎折叠过程以及背后的分子与演化机制。

图8 棉族复杂折叠胚胎形成的分子和演化机制

项目文章 | 深圳基因组所商连光团队基于结构变异图谱挖掘到重要耐盐优异基因

近日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)联合福建省农业科学院生物技术研究所、崖州湾国家实验室、厦门大学生命科学学院等单位在植物学顶级学术期刊 New Phytologist (IF= 9.4) 上发表了题为“Identification of salt tolerance-associated presence-absence variations in the OsMADS56 gene through the integration of DEGs dataset and eQTL analysis”的研究论文,该研究全面揭示了结构变异对水稻盐胁迫下基因表达和耐盐性状的重要影响,结合结构变异挖掘到关键耐盐基因OsMADS56,为水稻耐盐育种改良提供了新的优异靶位点。希望组为本研究提供优质的三代测序服务。

目前,土壤盐碱化已成为全球范围中威胁作物生长和生产力的主要环境因素之一。水稻作为全球最重要的谷类作物,时常受到盐胁迫的危害,挖掘耐盐优异等位基因,提高水稻在盐胁迫下的生产力成为农业育种的关键挑战,是实现“以种适地”的关键环节。结构变异(Structural variations,简称SVs)是遗传多样性的重要来源,对基因组的影响比起SNP更大,与许多表型变异和环境适应有关。插入缺失变异PAVs是SV一种主要类型,过去由于短读长测序的限制,PAVs很难被高效挖掘和鉴定,是未被广泛挖掘的“隐藏”的基因组变异。由于PAV和SNP并不是紧密连锁,PAV作为SNP的补充可以挖掘到更多优异变异资源。

该团队前期利用全球核心种质资源构建了群体规模最大、基因组充分注释、稻属中最为系统的图形超级泛基因组,解析了全面的基因组序列变异图谱(Shang et al., 2022);构建了核心种质群体在正常和盐胁迫下的表达谱,结合水稻超级泛基因组图谱在全基因组水平系统分析了耐盐性相关的SNP-eQTL,并成功克隆了关键耐盐新基因STG5(Wei et al., 2024),该基因优异单倍型导入到主栽品种中可以提高耐盐性,为耐盐水稻品种的培育奠定了良好的理论基础和种质材料。进一步本研究利用PAV变异挖掘耐盐新基因,评估正常和盐胁迫条件下影响基因表达的PAV,进行PAV-eQTL分析并分别鉴定到2427个和2898个正常和盐胁迫条件下的PAV影响的基因,其中盐胁迫下特异性响应的基因有1206个,为挖掘由结构变异引起的耐盐相关新等位基因提供了有价值的数据集。

图1 基于结构变异挖掘耐盐基因OsMADS56及其耐盐分子机制

利用盐胁迫下特异性响应的PAV-eGene结合群体水平的差异表达基因集,挖掘了一个位于OsMADS56基因上的PAV。这个PAV的存在导致了起始密码子ATG和第一外显子的缺失,从而降低了该基因的耐盐性。通过该基因的近等基因系、基因编辑突变体和过表达材料的耐盐性分析,表明OsMADS56基因在响应盐胁迫上发挥正向调控作用,并通过协调抗氧化酶活性调节体内活性氧的积累影响耐盐性。单倍型分析发现,在大多数耐盐品种中检测到1.0 Kb的存在-缺失变异,表明该PAV等位基因在水稻耐盐性中发挥了重要作用。另外,该基因优异的单倍型耐盐性与其他关键耐盐基因STG5SKC1表现出加性效应,为后续水稻耐盐模块耦合设计育种以应对盐胁迫提供了参考。

该研究利用水稻图形超级泛基因组结合转录组学技术,为鉴定具有功能的PAV-eQTL提供了有效的方法,这一技术使得过去难以发现的耐盐相关的PAV变异得以揭示,为耐盐基因挖掘和耐盐优异种质资源的创新利用提供了新的解决方案。同时为耐盐水稻的多基因聚合策略提供了全新的见解,使得高效、精准的水稻耐盐定向改良成为可能。这一成果将有助于提升水稻品种的耐盐性和推动水稻耐盐全基因组设计育种。

项目文章 | 基因组所商连光团队揭示转座子在水稻驯化和育种性状改良中的重要作用

中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)联合崖州湾国家实验室、沈阳农业大学等单位在《国家科学评论(National Science Review)》(IF=20.6)上在线发表了题为“A pan-TE map highlights transposable elements underlying domestication and agronomic traits in Asian rice”的研究论文。研究基于全球野生稻和栽培稻核心种质资源,构建了群体水平、最全面和高精度的水稻泛转座子变异图谱,全面评估了转座子对水稻驯化和育种改良中的重要作用,挖掘到多个与重要农艺性状相关的优异自然变异位点,丰富了水稻育种的可用变异库,对水稻全基因组设计育种及遗传育种改良提供了重要资源。希望组为本研究提供三代测序服务。

1950年Barbara Mclintock首次在玉米中发现转座子(Transposable element,TE),并由此获得诺贝尔奖(Mclintock,Cold Spring Harbor Symposia on Quantitative Biology,1951)。长期以来,TE本身被认为是垃圾DNA,但现在它们被认为是一类DNA中不同寻常的高度重复片段,不仅在生物体内甚至生物体之间具有惊人的移动能力,也能影响基因、创造新性状、增加不同个体的独特性,更会在压力条件下被激活,并帮助生物体适应复杂多变的自然环境。大量文献表明,基因组结构变异在调控水稻农艺性状具有重要作用,而水稻基因组中的结构变异大多源自于TE。TE主要包含non-LTR(Long Terminal Repeat, SINE和LINE)型逆转座子、LTR型逆转座子(CopiaGypsy等)、TIR(Terminal Inverted Repeat)型DNA转座子(Stowaway MITE、Tourist MITE、DTC、DTA、DTT、DTM、DTH等)和Helitron型DNA转座子(Wicker et al., Nature Reviews Genetics, 2007)。高度重复的TE序列为其本身的充分注释和精确鉴定带来了挑战,极大地阻碍了TE变异对作物驯化和农艺性状的深度系统解析。得益于测序技术的进步,有机会从群体的层面上全面地研究转座子的分布特征,并揭示转座子在水稻驯化和育种中的作用。

为了获得高质量的泛TE变异图谱,本研究利用247份全球水稻核心种质资源高质量基因组,构建了大规模群体的亚洲稻泛TE变异图谱(图1),包含169,798个(647.9 Mb)衍生的TE变异,其中占比最多的是GypsyHelitronCopia家族,也是迄今为止质量最高的水稻群体水平泛TE变异图谱。

图1. 泛TE变异图谱构建

利用该泛TE变异图谱,研究人员比较了普通野生稻与籼稻、普通野生稻与粳稻、籼稻和粳稻之间的TE变异,发现TE变异显著富集在驯化和分化的选择性区域内,表明TE参与了水稻驯化和分化。进一步分析,发现在水稻驯化分化过程中,不同的TE家族富集也具有特异性,例如几乎所有的LTR、MITE和Helitron都显著富集在驯化和分化过程中,而SINE和LINE家族仅显著富集在从普通野生稻到粳稻的驯化过程中(图2)。同时,研究人员也鉴定到参与水稻驯化和分化过程的TE变异分别有3,935和2,108个,并受到这些TE变异影响的候选基因分别有2,992和1,750个(图2),包括重要抽穗基因RFT1分蘖基因RFL、D10以及粒型基因GW2DAOLG1等。例如一个Tourist MITE插入到耐冷基因LIP19的启动子区,显著影响了该基因的表达水平,功能分析和单倍型分析表明,该Tourist MITE通过影响LIP19的表达量而调控水稻的耐冷表型。

图2. TE变异在水稻驯化和分化中的重要作用

另外,基于该泛TE变异图谱,研究人员发现TE与邻近的SNPs/InDels存在完全连锁的比例较低,揭示TE变异可以作为补充提升挖掘基因的潜力。结合全基因组关联分析和群体表达数量性状位点(expression quantitative trait loci,eQTL)分析,研究人员鉴定到多个与水稻农艺性状显著相关的TE变异新位点,而这些新位点无法利用SNP数据鉴定,例如Gypsy插入显著影响耐冷下水稻的结实率(图3)。同时,研究人员利用SNP和TE的cis-eQTL分析鉴定到TE变异调控的基因3,868个,其中TE比起SNP标记特有调控的基因1,246个(图3),例如发现一个PILE TIR插入基因OsRbohB的启动子区,显著影响了该基因的表达水平,进一步显著影响了水稻的千粒重,这些结果得到了实验的验证。这些新的TE变异位点有助于挖掘更多与重要农艺性状相关的优异基因,为水稻基因组辅助育种提供了新靶点。

图3 TE变异影响水稻基因表达和农艺性状

中国农业科学院深圳农业基因组研究所商连光研究员、崖州湾国家实验室钱前院士和基因组所周永锋研究员为论文的共同通讯作者。基因组所在读博士生李笑霞、在读博士生戴小凡、副研究员贺慧英、在读博士生吕阳和在读硕士生杨龙波为论文共同第一作者。该研究得到国家自然科学基金基础科学中心、广东省自然科学基金杰出青年基金、中国农业科学院科技创新工程科学中心和中国农科院青年创新专项资金资助。该工作得到了基因组所、中国水稻所和崖州湾科技城超级计算平台的支持。

项目文章丨彩万志/田里团队在熊蜂缪氏拟态演化研究方面取得新进展

2024年6月13日,中国农业大学植物保护学院昆虫学系彩万志/田里团队在《科学进展》(Science Advances)以封面文章的形式在线发表了题为Does coevolution in refugia drive mimicry in bumble bees? Insights from a South Asian mimicry group的研究论文。该研究以我国本土分布的两种拟态熊蜂为模型,探究了缪氏拟态的演化历史,揭示了熊蜂缪氏拟态色的多态性与趋同进化的可能驱动因素。希望组为本研究提供了hifi和hic测序服务。

缪氏拟态是指两种或多种有毒的生物,通过互相模仿相似的警戒信号,以降低被捕食概率的互惠的拟态现象。这一现象广泛存在于两栖动物、鱼类、昆虫等诸多生物类群中。参与缪氏拟态形成的生物多具有鲜艳的警戒色,亲缘关系较远的物种间常常平行演化出相似的警戒信号并在一定区域内形成“拟态圈”。缪氏拟态是生物适应性演化的典型案例,自1879年首次被德国生物学家Fritz Müller提出后,缪氏拟态的演化历史和形成机制便成为了进化生物学领域长期以来的热点问题。由冰期避难所促进的共同多样化假说和不对称趋同进化假说是缪氏拟态形成的两大主流观点。此前人们对于昆虫缪氏拟态的研究主要集中在分布于南美洲的袖蝶(Heliconius spp.)中。而对于南美洲以外地区及其它昆虫类群的研究则相对有限。

图1 短头熊蜂-三条熊蜂拟态色型多样性及分布格局

熊蜂Bombus spp.属于膜翅目Hymenoptera,蜜蜂科Apidae,全球已记载约260种,是野生植物与温室作物的重要传粉昆虫。雌性熊蜂因尾部具有蛰针而能对抗捕食者。此外,熊蜂体表被不同颜色的体毛覆盖,呈现出鲜艳且反差强烈的体色模式(color pattern),具有警戒、拟态等功能。熊蜂是典型的缪氏拟态类群,其在世界范围内共形成了24个拟态环,是除袖蝶之外开展缪氏拟态演化历史及其形成机制研究的良好类群。该研究聚焦于我国本土分布的两种拟态熊蜂类群:短头熊蜂(Bombus breviceps Smith)和三条熊蜂物种复合体(Bombus trifasciatus species complex)(图1)。这两个类群广泛分布于喜马拉雅山脉、东南亚及我国南方。它们的分布区高度重合,且警戒体色模式高度趋同,并在不同的地区以不同的体色模式相互拟态,目前已记录有14种拟态色型,组成了熊蜂中体色多态性最为复杂的拟态系统。

作者首先组装了三条熊蜂染色体水平的参考基因组。进一步通过对这两个类群全球分布地区的样品收集,获得了代表其主要地理色型的标本样品,并对这些样品开展了基因组重测序,基于全基因组单核苷酸多态性位点(single nucleotide polymorphism, SNP)信息解析了这两种熊蜂的种群遗传结构。结果发现,短头熊蜂可被划分为六个主要的遗传谱系(图2)而三条熊蜂可被划分为七个主要的遗传谱系(图3)。有趣的是,这两个类群的体色模式的变化与其群体遗传结构并不完全吻合,比如,分配到同一个遗传谱系的个体可以展现出截然不同的体色模型,而被分配到不同遗传谱系的个体也可以具有相同的体色模式。这一结果暗示这些熊蜂体色的演化历史与其群体分化历史并不吻合,体色的地理分化并不是完全由不同地理种群间的基因交流屏障所驱动。

图2 短头熊蜂的群体遗传结构及体色模式变异

图3 三条熊蜂物种复合体的群体遗传结构及体色模式变异

进一步对两个类群的群体历史研究发现,两个物种均在更新世时期表现出一定程度种群收缩,但种群的波动与冰期-间冰期的气候波动不完全匹配(图4 & 5)。而基于MaxEnt预测的历史适生区发现两个类群在更新世冰期并没有呈现明显的适生区收缩,也没有呈现明显的避难所。这些结果暗示更新世冰期的气候变化并不是驱动这些熊蜂类群群体分化的主要因素。

图4 短头熊蜂的群体演化历史

图5 三条熊蜂群体演化历史推断

进一步对比短头熊蜂和三条熊蜂的谱系地理模式和群体历史(图6),发现这两个拟态类群之间具有不完全匹配的群体分化顺序,而在近20万年的演化历史中,三条熊蜂总具有相对更大的有效群体。因此,尽管这两个拟态类群的分布区高度重叠,并在表型水平呈现出高度趋同的体色地理变异,基因组数据却揭示它们具有截然不同的群体演化历史。总体来讲,本研究提供的证据说明冰期避难所并不是驱动这两种拟态熊蜂群体分化与拟态体色进化的唯一因素,不同地区的捕食者与气候带来的强烈的本地选择以及熊蜂相对较弱的扩散能力可能与冰期气候变化共同作用,驱动了这些熊蜂的群体分化与缪氏拟态多态性的演化。

综上所述,该研究基于群体基因组学手段,明确了短头熊蜂和三条熊蜂各自的谱系结构并进行了种群划分。结合两个物种的种群分化顺序,种群历史波动等证据,认为这一南亚地区熊蜂拟态环具有复杂的演化历史及模式,其拟态格局的形成受多种地理、气候、生物因素的共同影响。该论文首次在熊蜂中基于大规模群体基因组数据开展了拟态演化研究,也是昆虫中除袖蝶外的类群首次开展此类研究,其结果为缪氏拟态这一生物重要适应性演化现象的形成机制提供了新的见解。

图6 短头熊蜂和三条熊蜂谱系发生及群体历史特征对比

中国农业大学为该论文的第一完成单位。中国农业大学植物保护学院博士研究生崔纪翔为该论文的第一作者,田里副教授为该论文的通讯作者。中国农业大学植物保护学院的彩万志教授、李虎教授,美国宾夕法尼亚州立大学生物系的Heather Hines博士,中国科学院动物研究所的刘山林研究员,西藏自治区高原生物研究所和墨脱生物多样性西藏自治区野外科学观测站的达娃副研究员,英国自然历史博物馆的Paul Williams博士为本研究做出了重要贡献。中国农业大学植物保护学院已毕业硕士生陈宇鑫、王超,在读博士生马玲、杨万虎也参与了此项工作。

NC项目文章|野生稻无间隙分型基因组助力开发高通量野生稻基因发掘平台

近日,中国农业科学院作物科学研究所野生稻种质资源保护与利用课题组杨庆文研究员、乔卫华研究员与北京大学现代农业研究院何航研究员课题组合作,在国际权威期刊《Nature Communications(影响因子16.6,中科院一区Top)发表了题为 “Haplotype-resolved gapless genome assembly and chromosome segment substitution lines facilitated gene identification in wild rice” 的研究论文。该研究首次组装了中国普通野生稻的无间隙染色体基因组,构建了两套覆盖野生稻全基因组的染色体片段置换系,建立了一个能够高通量鉴定发掘野生稻优异基因的平台。通过大量的QTL定位,设计案例,验证了该平台用于发掘野生稻基因的高效性,同时鉴定来自野生稻的耐盐与抗稻瘟病基因。希望组为本研究提供了Bionano测序服务。

栽培稻从二倍体普通野生稻(Oryza rufipogon Griff.)中驯化是人类农业史上最重要的事件之一。普通野生稻蕴含着大量栽培稻驯化过程中丢失或者削弱了的优异基因,是国家二级保护植物,被誉为“植物大熊猫”。但野生稻异质性强,在育种中难以直接利用,杂合度高导致基因组组装困难,且大量的优异抗性基因与不利性状连锁。基于以上原因,建立一个可用于野生稻基因发掘的高效平台十分必要。

充分利用野生稻的遗传信息进行栽培稻改良需要两个条件:1)一份高质量的参考基因组;2)一套遗传背景清晰的永久性遗传群体。对标这两个目标,首先选择了一份来自海南三亚的野生稻种质编号Y476,耐盐能力极强,对稻瘟病近乎免疫。测序检测到Y476杂合度达0.86%,所以分两个单倍型组装无间隙基因组并进行注释,两个单倍型基因组的总长度分别为411.1 Mb和411.9 Mb,与现有野生稻基因组相比,在连续性和完整性上有明显提高。参考日本晴T2T基因组,Y476基因组包含约122 Mb的插入和5,944个新基因,导致了大量的基因家族扩张,包括与抗病和籽粒调控相关的基因。

图1 Y476野生稻基因组组装及基因组比较

研究团队自2008年开始,分别以籼稻 ‘9311’ 和粳稻 ‘日本晴’ 为受体亲本,构建以Y476为供体亲本的染色体片段置换系(CSSL)。对两套置换系群体分别进行了遗传结构分析,高世代的9311/CSSL群体有近一半为单片段置换系,低世代的日本晴/CSSL群体覆盖Y476全基因组。水稻驯化过程中的关键基因如落粒基因sh4, 绿色革命基因sd1,以及颜色相关基因C1都定位到染色体上的精准位置,验证了这两套群体的QTL定位效率。随后,通过对参考基因组和CSSL群体多年多点的表型分析,鉴定出254个与农艺性状、生物和非生物胁迫相关的QTL。发现在基因组水平上,染色体结构变异(SV)对相关QTL表达的调控起着重要作用。

图2 两套置换系的遗传结构分析

作者利用构建的 “参考基因组+CSSL群体” 野生稻基因发掘平台, 鉴定出一个耐盐相关基因与一个抗稻瘟病基因,其生物学功能、SV对基因表达模式的影响在两套置换系中都相互印证。抗稻瘟病的受体激酶基因内含子上有一个7.8-kb的SV,增加了该基因的表达水平,在9311置换系中筛选出近等基因系,利用CRISPR/Cas9技术,转录组学数据以及定量PCR验证,证实该野生稻等位基因参与了OsMADS26介导的水稻稻瘟病抗性。研究结果为中国普通野生稻提供了一个单倍型无间隙参考基因组,并为野生稻新基因发掘提供了一个高效的平台,对稻种资源的创新与利用都具有重要意义。

图3 稻瘟病抗性基因鉴定与功能分析

中国农业科学院作物科学研究所已毕业博士研究生黄婧芬和北京大学现代农学院博士生张宜林为该论文共同第一作者。北京大学现代农业研究院何航研究员,中国农业科学院作物科学研究所杨庆文研究员和乔卫华研究员为该论文的共同通讯作者。海南农科院三亚南繁研究院的李亚鹏博士,崖州湾实验室的钱前院士参与了本项研究。该研究得到了国家重点研发计划(2021YFD1200100)和崖州湾实验室揭榜挂帅项目 (project of B21HJ0215)的经费支持。

项目文章 | 首个绞股蓝T2T基因组,解析达玛烷型三萜皂苷生物合成机制

绞股蓝(Gynostemma pentaphyllum),一种葫芦科的多年生藤蔓植物。在医学上有超过600年应用历史,它是超过200种达玛烷型皂苷的宝贵自然来源,具有显著的生物活性,如抗癌、心脏保护、肝脏保护、神经保护和抗糖尿病作用。

研究发现,尽管绞股蓝与人参(Panax ginseng)在进化关系上相距甚远,但其含有人参皂苷和其他结构类似的达玛烷三萜类化合物,同时绞股蓝在获取难度和达玛烷型皂苷含量方面相比人参具有优势。因此,绞股蓝在开发达玛烷型皂苷衍生药物方面,具有极大的应用前景。

2024年4月30日,中国医学科学院药用植物研究所郭宝林/孙超团队在Plant Communications期刊上在线发表了题为“Insights into the dammarane-type triterpenoid spaonin biosynthesis from the telomere-to-telomere genome of Gynostemma pentaphyllum”的研究论文。该论文组装完成了葫芦科绞股蓝的高质量从端粒到端粒(T2T)基因组,初步探究了绞股蓝中达玛烯二醇-II合酶的催化机制,并揭示了绞股蓝和人参中的达玛烯二醇合酶为独立进化而来。希望组为本研究提供了ONT超长、Bionano测序和T2T组装服务。

1.高质量绞股蓝T2T基因组组装

组装使用了30.54 Gb(~51x)的PacBio HiFi数据,103.71 Gb(~173x)的ONT超长数据,65.63 Gb(~109x)的Hi-C以及Bionano数据,最终生成了一个高质量绞股蓝端粒到端粒(T2T)基因组(Gp_T2Tv1.0),其总长度为599.38 Mb,成功识别了11条染色体的所有22个端粒(CAATAAn)和11个着丝粒。

通过多种方法对Gp_T2Tv1.0的准确性和完整性进行评估,BUSCO评估基因组完整性达到98.70%,LAI值为14.89,11条染色体的平均Qv值达到36.57,这些表明了基因组组装碱基水平的准确性和完整性。Illumina、HiFi、ONT超长reads的比对率均超过99%,且Bionano光学图谱在所有组装染色体上均显示出高度一致性。在基因组中预测了26,003个蛋白编码基因,平均编码序列大小为4,567 bp,平均每个基因有5.38个外显子。此外,着丝粒区域主要由68%的转座子元件和32%的串联重复序列组成,这些区域在11条染色体之间的长度和结构组成上存在显著差异。

2.GpOSC1通过环化催化2,3-氧化鲨烯形成达玛烯二醇-II的机制

在萜类化合物生物合成中,由氧化鲨烯环化酶(OSCs)催化的2,3-氧化鲨烯的环化是萜类化合物合成的第一个关键的分支点。在对绞股蓝的T2T基因组分析中,一共注释了十一个OSCs。通过酵母表达系统、本氏烟草的瞬时基因表达系统以及相色谱-质谱(GC-MS)分析证明,GpOSC1能够通过环化催化2,3-氧化鲨烯形成达玛烯二醇-II(dammarenediol-II)。

为了更深入地了解GpOSC1(下文称为GpDS)的催化机制,基于GpOSC1的3D结构与达玛烯二醇-II的分子对接结果和保守序列(图1D),构建了GpDS的氨基酸残基Y259H、W418A、D485N、C564A、S412F、H479N和C486A突变体。单点突变体D485N、S412F、W418A导致活性完全丧失,而C486A、C564A、H479N、Y259H突变体的活性显著降低(图1E)。结果表明,GpDS活性位点的几个残基在酶活性中起着至关重要的作用,可能是通过与底物相互作用和塑造整体构象来实现的。这些发现与之前关于人参(P. ginseng)中的达玛烯二醇-II合成酶(DS,ID: ACZ71036.1)的报道相一致,表明GpDS与PgDS具有相似的催化机制。总的来说,我们推测酸性残基D485通过作为质子供体来启动2,3-氧化鲨烯的环化,而C486和C564通过与D485形成氢键来增加其酸性。在VWCYFR motif中的Y259残基对于稳定中间阳离子和促进达玛烯二醇-II的形成至关重要。

3.探寻达玛烯二醇-II合成酶(DS)的起源和进化轨迹

为了研究开花植物中DS的起源和进化轨迹,结合系统发育和共线性分析提出了一个OSC进化的模型(图1F)。通过对来自115个植物的428个OSC序列进行全面的系统发育分析,发现基础被子植物无油樟(Amborella trichopoda)含有一个单独的OSC,它与在蕨类和裸子植物中发现的环阿屯醇合成酶(CASs)具有同源性,表明被子植物中的所有OSC都是从祖先CAS-like蛋白进化而来的。剩余的OSC最初被分为两个主要分支,分别命名为分支A和分支B。每个分支都包含了来自被子植物主要分类群的物种衍生的OSC,这表明大多数被子植物在A. trichopoda分化后共享了一个共同的OSC基因复制事件。复制事件之后,在核心真双子叶植物中,同源OSC基因A和B呈现出了三分支的进化模式,亚分支A1、A2和A3从分支A进化而来,而亚分支B1、B2和B3则从分支B进化而来。OSCs的系统发育分析表明,B2亚分支经历了显著的新功能化,其中葫芦科家族的GpDS位于该亚分支的β-香树脂合成酶(bAS)基因内。相反,在B3亚分支中,来自五加科的PgDS的多功能OSC聚类在一起。因此推测在G. pentaphyllum和P. ginseng中,DS是独立进化的。

总之,该研究完成了绞股蓝的高质量T2T基因组组装,并对基因组中鉴定出的11个候选OSCs基因中的一个DS进行了功能表征,为解析达玛烷型三萜皂苷生物合成机制提供了参考意义,有利于绞股蓝在达玛烷型皂苷衍生药物方面的开发应用。

项目文章 | 基因组所解析首个康乃馨T2T基因组

康乃馨(Dianthus caryophyllus)属石竹科石竹属多年生植物。因其花色绚丽,花型独特,瓶插寿命长,深受世界各地人民的喜爱,被称作世界‘四大切花’之一,具有极高的观赏价值和经济价值。实践过程中发现,高质量的基因组是分子靶向育种的重要基石,目前已报道的康乃馨基因组仍存在大量的间隙(gap)和组装错误,在一定程度上影响了后续基因功能及相关研究。

2024年1月,Horticulture Research (IF=8.7)杂志在线发表了由中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心),莫道克大学和佛山鲲鹏现代农业研究院等单位联合完成的研究论文,题为“The haplotype-resolved telomere-to-telomere carnation (Dianthus caryophyllus) genome reveal the correlation between genome architecture and gene expression”。该研究对呈现白色花瓣的康乃馨(D. caryophyllus ‘Baltico’)进行了多平台高深度测序和“端粒至端粒”级别的高质量组装,助力康乃馨分子育种。

研究团队综合利用Pacbio HiFi(Sequel II平台)、ONT ultra-long和Hi-C等测序技术,成功组装出两个单倍体hap1和hap2的端粒到端粒(T2T)康乃馨基因组,其基因组大小分别为564.5Mb、568.3Mb,N50的分别为37.6Mb、38Mb,二代数据的比对率、LTR组装指数(LAI>=23)和BUSCO值(97%以上)等评估均支持了该基因组组装的高连续性和完整性。该端粒到端粒基因组首次为康乃馨的端粒和着丝粒区域的分析提供了信息,揭示了康乃馨中可能具有较为特殊的着丝粒结构特征,大部分的着丝粒区域无法通过鉴定HOR(high order repeat)区域进行确认。

图一 端粒到端粒康乃馨基因组(A)及其通过HOR区域鉴定的潜在的着丝粒位置(B)

基于高质量组装的端粒到端粒基因组,利用根、叶、花三种组织的转录组数据分析了基因组结构特征与基因表达和等位基因差异表达(ASE)之间的关联。结果发现基因、编码区(CDS)和内含子的长度,外显子数量和转座子的插入与否,都与基因的表达相关,并且转座子的插入在表达调控网络的总体水平上呈现抑制基因表达的作用。该成果提供了更加完整的康乃馨基因组及基因资源,为推动康乃馨分子育种奠定坚实的研究基础。

图二 探究不同基因组结构特征与基因表达之间的关联度

项目文章 | 武大朱玉贤院士团队王坤教授破解洪山菜薹颜色和美味的基因密码

不结球白菜(Brassica campestris L. ssp. chinensis Makino),又称小白菜、小油菜,原产我国,生长周期短、适应性广、产量高,在我国中部及以南地区周年栽培种植,占春、秋、冬菜播种面积的30%~50%,是全年播种面积最大的蔬菜之一,在我国的蔬菜周年供应中有着重要的地位。不结球白菜是人们生活中不可缺少的一种重要蔬菜,味道鲜美可口,营养丰富,百吃不厌,为广大群众所喜爱。其以柔嫩的莲座叶(普通白菜,俗称小白菜)或花径(菜薹)供食用,种类和品种繁多,其中最具传统特色、素有“金殿御菜”之美誉的洪山菜薹,具有独特的口感和风味与丰厚的历史文化。然而,同为白菜类蔬菜,红菜薹的薹茎独为红色,且其口感风味独特等表型和品质的机制尚不清楚。

近日,武汉大学联合武汉市农业科学院和湖北省农业科学院在科学通报Science Bulletin (影响因子18.9) 发表了题为“The complexity of structural variations in Brassica rapa revealed by assembly of two complete T2T genomes”的研究论文,该研究利用了高深度超长读长ONT测序与高精度长读长HiFi测序,结合Bionano染色体光学图谱构建技术,构建了两个白菜类蔬菜—普通白菜(B. rapa ssp. chinensis)和红菜薹(B. rapa ssp. purpuraria)的端到端无缺口完整基因组,揭示了红菜薹薹茎红色表型的关键基因。脂肪族硫代葡萄糖苷的大量生物合成和向薹茎的高效运输,可能是菜薹作为薹用蔬菜特殊风味的遗传基础。希望组为此研究提供PacBio HiFi测序、ONT超长测序以及Bionano测序服务。

基于完整的基因组,研究者详细解析了白菜类蔬菜的高复杂区域—着丝粒和rDNA的序列特征。白菜着丝粒由大量176-bp的单体形成的卫星序列组成,在不同亚种间,着丝粒的演化速率要显著高于其它区域。与其它植物不同的是,白菜的45S rDNA区域呈现出松散且显著扩张的特征,而大量特殊类型转座子的插入是扩张的主要原因。值得注意的是,白菜的45S rDNA区域与先前研究所报道的白菜次着丝粒区域完全重合,预示着白菜45S rDNA的扩张可能与次着丝粒的形成有着一定关系。

1.菜薹特异的结构变异终导红菜薹紫红色薹茎的表型

洪山菜薹因含有大量的原花青素而呈紫红色。原花青素是一类具有保健功能的生物活性成分,有助于清除人体内自由基,具有抗氧化、预防心脑血管疾病、保护肝脏等生理功能。通过与其它20个白菜类蔬菜的基因组比较,研究者发现一个位于7号染色体上、紫菜薹特异的结构变异最终导致了其紫红色薹茎的表型。该结构变异位于紫菜薹的一个驯化位点中,转录因子BrMYB2上游245bp处的启动子区域内。后续验证表明,该结构变异使得BrMYB2在紫菜薹薹茎中的表达量显著上调,并最终使其呈现紫红色。该变异在多个不同的紫菜薹品系中均得到了验证。

2.洪山菜薹的脂肪族硫代糖苷促进了其独特风味品质的形成

洪山菜薹作为一种具有特色的高档时令蔬菜,深受人们喜爱,其特性在于优良的品质。前期研究表明,芸薹属作物的风味往往来自于一类存在于十字花科植物中的次生代谢产物:硫代葡萄糖苷(GSL)。该研究结合基因组与转录组的比较,指出脂肪族硫代葡萄糖苷合成通路上的一些基因在菜薹叶片中有显著的上调,说明其在菜薹体内的合成可能有显著的提高;另外,控制硫代糖苷自叶片向薹茎转运的GTR1基因在菜薹中产生了额外的拷贝,这使得GTR1在菜薹中的表达量产生了几十倍的上调。脂肪族硫代葡萄糖苷的大量生物合成和向薹茎的高效运输,可能是菜薹作为薹用蔬菜特殊风味的遗传基础。

该研究首次发表了白菜类蔬菜完整的基因组,加强了我们对白菜基因组中高复杂区域的认识,同时也揭示了洪山菜薹的紫红色薹茎和特殊风味性状的遗传基础。这项研究的结果在白菜的功能研究中具有宝贵的参考价值,也为进一步的分子育种设计和新品种选育奠定了基础。

武汉大学生命科学学院博士研究生周一凡、叶瀚哲和刘恩纬为该文的共同第一作者,武汉大学生命科学学院王坤教授、武汉市农业科学院蔬菜研究所汪爱华研究员、湖北省农业科学院聂启军研究员为该文的共同通讯作者。武汉大学朱玉贤院士在该研究项目的启动、组织和实施过程中提供了强有力的支持和指导。该研究得到湖北省重点研发计划、湖北省杰出青年基金和武汉国家现代农业产业科技创新中心的支持。

项目文章 | 希望组助力青石斑鱼基因组染色体水平组装和注释

青石斑鱼(Epinephelus awoara)是一种重要的经济海洋鱼类。然而,对其遗传结构和进化历史的研究相对较少。研究团队利用 PacBio 单分子测序技术和 Hi-C 技术,组装了青石斑鱼的高质量染色体级的基因组。青石斑鱼染色体级基因组大小为984.48Mb,contig N50 长度为 39.77Mb,scaffold N50 长度为 41.39Mb。在 Hi-C 测序的辅助下,99.76% 的组装序列被锚定到 24 条假染色体上。此外,研究发现大约 41.17% 的基因组由重复元件组成。通过基因预测,共预测了 24,541 个编码蛋白质的基因,其中 22,509 (91.72%) 个基因进行了功能注释。这项工作提供了青石斑鱼高精度、染色体级参考基因组的组装和注释,将有助于理解青石斑鱼的种群遗传结构、适应性进化和物种形成。

近期,该论文《Chromosome-level genome assembly and annotation of the yellow grouper, Epinephelus awoara》在scientific data发表。中山大学生命科学学院蒙子宁副教授为通讯作者,在读博士生张维炜为第一作者。希望组为研究提供PacBio Revio、Hi-C测序等服务。

图1 青石斑鱼染色体水平基因组装与注释流程图

研究结果

1. 青石斑鱼基因组组装和注释

经过scaffolding程序,974.86Mb成功锚定在24条染色体上,挂载率为99.02%,染色体长度从23.08Mb到48.78Mb不等。在Hi-C scafolding之后,组装了984.48Mb染色体水平的青石斑鱼基因组,contig N50长度为39.77Mb,scaffold N50长度为41.39Mb。此外,研究人员还评估了基于Hi-C的假染色体构建的结果,24条骨架在热图中清晰可见,对角线周围的相互作用信号非常明显(图2a),表明假染色体的组装质量较高。青石斑鱼基因组共鉴定出405.30Mb序列为重复元件,占基因组的41.17%(图2b)。其中,串联重复组成约占基因组的0.73%,包括基因组中0.18%的SSR和0.56%的串联重复(图2b)。转座子约占基因组的35.68%(图2b),其中DNA转座子是最主要的类型,占基因组的20.08%(197.69Mb)。

图2 青石斑鱼染色体水平的基因组组装和注释

2.基因组共线性分析

研究团队使用MCScan工具进行基因组线性分析和可视化分析,通过线性图展示了青石斑鱼基因组与其他石斑鱼物种之间的线性关系。结果显示,青石斑鱼基因组与同属内的相关物种(鞍带石斑鱼和棕点石斑鱼)以及不同属的驼背鲈(C. altivelis)之间具有很强的线性关系(图3a、b)。然而,相较于豹纹鳃棘鲈(P. leopardus),青石斑鱼基因组中出现更多染色体重组的情况(图3b)。

图3 青石斑鱼与其他石斑鱼的基因组同源性分析。(a) 属内同源性分析。(b) 属间同源性分析。

总之,高度准确的染色体水平参考基因组对支持基础遗传学研究至关重要,并将有助于青石斑鱼的遗传结构、进化研究和种质资源保护。

项目文章 | 重磅NG!中科院昆明植物所李德铢研究员团队揭示竹类植物生活史转变和物种多样化遗传机制

多倍化(基因组加倍)是进化的关键力量,然而,在亚基因组水平上,对于多倍化如何促进植物适应性演化和物种多样性形成的认识仍然不足。竹类植物属于禾本科竹亚科(Bambusoideae),包括二倍体草本竹子(126种)和三种多倍体木本竹子(1576种),其中木本竹类包括温带木本分支、新热带木本分支(均为四倍体)和古热带木本分支(六倍体)。先前研究表明:木本竹子中大约在20百万年前发生的两次独立四倍体化和一次六倍体化事件。木本竹子的染色体数通常保持稳定(例如,四倍体的2n=(40)46-48,六倍体的2n=70-72),这表明组成亚基因组可能一直保持不重排。因此,竹子为研究古老多倍体植物中亚基因组优势的演化提供了一个理想的模型。

2024年3月15日,中国科学院昆明植物研究所李德铢研究员团队在国际顶级期刊《Nature Genetics》(IF=30.8)上在线发表了题为“Genome assemblies of 11 bamboo species highlight diversification induced by dynamic subgenome dominance”的研究论文。该研究选择竹属(禾本科:竹亚科)内11种具有不同倍性的竹子样本,涵盖二倍体(草本植物)到四倍体和六倍体(木本植物),将其从头组装至染色体水平获得这11种竹子的高质量参考基因组,结合比较基因组学、转录组学以及甲基化等进行联合分析,发现木本竹子的亚基因组具有惊人的核型稳定性,两个四倍体谱系中表现出平行的亚基因组优势,并在六倍体谱系中逐渐转移优势。异源多倍体化和亚基因组优势塑造木本竹子的木质茎,快速生长和同步开花等特征的演化。此项工作提供了对多倍体系统中基因组优势的见解,包括其依赖于基因组环境以及其能够随着演化时间改变哪些亚基因组处于优势地位。希望组为本研究提供部分ONT和Hi-C基因组测序服务。

该研究选择了11种具有代表性的竹子为研究对象,包括2个草本竹子(HBs、2x)和9个木本竹子(WBs),其中木本竹子包括3个分支:温带(TWBs、4x)、新热带(NxWBs、4x)和古热带(PWBs、6x),利用ONT+Hi-C的策略从头组装了这11个物种的高质量参考基因组,基因组大小平均分别为625.9 Mb(二倍体)、1,628.3 Mb(四倍体)和1,122.4 Mb(六倍体),Contig N50的平均值和最大值分别为5.3 Mb和17.5 Mb。二代数据的比对率、LTR组装指数(LAI>=10)和BUSCO值(93.2~99.0%)等评估均支持了这些基因组组装的高连续性和完整性。

图1 11种竹子基因组特征和共线性图谱

基于系统发育和序列相似性来确定竹子的亚基因组,研究组建了两个同源基因数据集(456个“完美拷贝”和13891个“低拷贝”同源基因)用于系统发育分析,WB中的A、B、C、D和HB中的H亚基因组均能在两个数据集中的到验证。由于基因树之间存在广泛的拓扑结构不一致,研究推断系统发育网络和假定的渗入事件,推断存在杂交事件,如B和C祖先之间的杂交导致A和D祖先的形成,同时还表明了H和A祖先之间的杂交。古老的HBs 和WBs 祖先之间也发生过杂交。总而言之:该研究提出了竹类起源和多倍化的模型,包括不同时间点的分化和多倍化事件,最终形成了不同的竹类群体。

图2 竹类植物主要谱系大的起源与演化

木本竹类展现出非常保守的核型演化特征,尤其是A、B和D亚基因组维持了禾本科祖先的12条染色体状态。大多数裂变和融合事件发生在H和C亚基因组中,HB中的这些事件在很大程度上具有物种特异性,但在C亚基因组中的许多基因分别由热带和温带分支中的不同物种共享,这表示多倍体化在诱导基因组重排中可能起了作用。从亚基因组大小、重复基因丢失、转座子和甲基化等方面研究各个亚基因组间的差异,研究发现:C亚基因组在WB的四个亚基因组中展现出显著不同,其大小与D亚基因组接近,但较小于A和B亚基因组,与TE含量密切相关。多倍体化后,亚基因组和多倍体化后的四六倍体之间存在TE动态多样性。基因进化受多倍体化影响,WBs中观察到全基因组复制丧失。上述分析结果证明:两个四倍体分支中C亚基因组占主导,六倍体中A亚基因组的加入改变了这种主导优势。

图3 竹类基因组的结构特征与进化

为研究多倍体化后转录图谱的变化,对11个竹子的不同组织在各个发育阶段的476个转录组样本进行测序分析,发现在WBs中的基因其表达丰度较低,与WBs中其他三个亚基因组相比,C亚基因组具有更高比例的表达基因和最高平均表达水平。主成分分析显示跨组织和物种的同源基因之间呈现出一致的基因表达上调和下调模式,而在六倍体(PWBs)中差异较大。同源基因进一步聚类为不同组别,结果显示C亚基因组比D或B亚基因组存在更多的上调基因。基于WGCNA分析探究有偏向性的亚基因组的基因是否更有可能存在共表达,结果显示在四倍体中C亚基因组有更多的共表达基因和hub 基因,而六倍体中A亚基因组拥有更多hub 基因,表明在不同类群中亚基因组的表达模式和共表达关系存在差异。上述结果进一步支持C亚基因组在四倍体分支演化过程中可能具有优势。

图4 多倍体竹子中的同源基因表达模式

在禾本科中,WBs演化出了包括木质化茎秆和不频繁开花在内的独特性状。为揭示WBs独特性状起源的基因基础,在其演化过程中研究了基因家族大小、新基因和在其演化过程中受到正向选择的基因(PSGs)。三个多倍体谱系中共享了183个PSGs家族,其中C亚基因组的PSG富集。此外,经历两次或更多基因组变化的基因在C亚基因组中占有更高比例。其中许多基因可能参与竹子独特的生命周期,如调控开花的关键因子GI和SPL7,均来自C亚基因组。

功能富集分析表明,在全基因组和亚基因组水平上,特别是C亚基因组的扩张基因家族主要与植物营养生长和发育有关(例如,“植物激素信号转导”和“苯丙素生物合成”)。

进一步研究竹子中木质素生物合成途径中的基因组变化,结果发现,相对于HBs,WBs中几乎所有的木质素相关基因都通过多倍化产生出多拷贝,且COMT 和F5H1 出现串联重复。该途径中检测到有31个基因,其中大多数经历了基因组变化,其中重点关注的COMT,在巨型竹子D. sinicus 的木质化发挥关键作用,其主要负责S型单木质素的生物合成,对与禾本科植物的茎杆强度至关重要。

图5 WBs演化的基因组基础

该研究首次提出在多倍体植物类群中可能存在亚基因组优势转移现象,为研究竹类植物物种多样化和独特性状的起源提供了多组学证据,也为深入理解多倍化在植物演化中的重要作用提供了一个难得的案例。