Nature项目文章|重磅!韩斌院士团队绘制全球首个”野生-栽培稻精细泛基因组图谱”,破解水稻驯化之谜!

北京时间2025年4月16日,中国科学院分子植物科学卓越创新中心韩斌院士团队在国际权威学术期刊《自然》(Nature)上发表题为“A pangenome reference of wild and cultivated rice(野生和栽培稻精细泛基因组图谱)”的重大研究成果。该研究首次完成了145份亚洲栽培稻及普通野生稻的高精度基因组组装,绘制了迄今为止分辨率最高的“野生稻-栽培稻泛基因组图谱”,系统挖掘了普通野生稻广泛的遗传多样性,并全面解析了亚洲栽培稻各类群的进化及驯化路线。这项研究为水稻基因组辅助育种提供了前所未有的遗传资源,为培育抗病耐逆、适应气候变化的优质水稻品种奠定了坚实的科学基础。希望组参与部分ONT、HiFi及Hi-C测序服务。

研究背景
亚洲栽培稻(Oryza sativa L.)由普通野生稻祖先O. rufipogon驯化而来,是全球最重要的粮食作物之一。面对全球人口增长和环境变化带来的双重挑战,提高水稻产量至关重要。自粳稻和籼稻草图基因组及日本晴参考基因组发布以来,大量研究聚焦于栽培稻的基因组多样性。然而,传统单一参考基因组无法全面代表物种的遗传多样性,可能限制功能基因组学研究。泛基因组研究为解析遗传多样性、物种进化及品种改良提供了新视角。然而,当前泛基因组研究主要集中于栽培群体,对野生资源(尤其是O. rufipogon)的探索仍不足,而遗传和地理多样性丰富的O. rufipogon是改良现代水稻抗逆性和竞争性的关键基因库,因此,构建高质量、大规模的野生稻泛基因组对指导育种策略和解析驯化路径具有重要意义。
研究内容
01  149个水稻基因组的从头组装
为了全面捕捉栽培稻和野生稻的固有遗传多样性,该研究选取了149份代表性样本,其中包含145份具有地理和遗传多样性的材料(包含129份普通野生稻O. rufipogon和16份栽培稻O. sativa)(图1),以及重新鉴定的4份野生稻材料作为后续进化研究的外群。采用PacBio HiFi和ONT技术进行深度测序,通过多种策略对原始数据进行精细组装,获得的高质量基因组平均 N50为14.95 Mb,LAI指数为24.13,BUSCO完整性达98.55%。值得注意的是,将组装的基因组与以往研究及T2T组装基因组比较结果表明本研究的测序和组装方法的精确性。

此外,该研究结合Hi-C数据获得30个代表性物种染色体级别组装,与参考基因组共线性验证显示高度一致性,根据端粒重复序列,在每个基因组中平均检测到19个端粒。为更全面表征序列多样性,研究从133个HiFi基因组中捕获到替代组装(a-contig)序列。这些替代组装序列包含了主组装(p-contigs)中缺失的杂合信息。值得注意的是,栽培稻中替代组装序列的规模显著小于野生稻,反映了前者较低的杂合率。这些发现为理解驯化过程中基因组稳定性演变提供了新视角。也强调了在育种中利用野生稻杂合基因组资源的重要性。

02 基因注释与抗病基因分析
该研究对每个基因组进行了基因注释,平均注释到40,273个蛋白质编码基因。野生稻的基因组大小和基因数量均高于栽培稻,但其基因密度较低。在HiFi基因组组装中,通过对替代组装(a-contig)进行注释,鉴定出199至41,230个基因,其中获得了10,521个主组装(p-contigs)缺失基因(MIP genes)(图1)。此外发现替代组装其中57.26%为杂合等位基因,这些基因在根系、叶片等组织中呈现差异表达。

由于长期自然选择,野生稻对生物和非生物胁迫具有高度抗性,是天然的抗性等位基因库。因此,通过对野生稻与栽培稻中抗病基因类似物(RGAs)进行分析,研究发现野生稻含有1,710个抗性基因类似物(RGAs),显著高于栽培稻的1,652个。进一步通过共线性分析发现野生稻中具有638个特有RGA位点,其中包括一个野生稻RLK基因LOC_Os07g35680,该基因近期被报道为OsMADS26介导的稻瘟病负调控因子。另外在野生稻中鉴定出多个携带稻瘟病抗性基因Pi5的材料。这些结果表明,野生稻蕴含丰富的抗病资源,可作为培育高抗水稻品种的供体材料。

03 泛基因组构建与TE进化分析
该研究整合具有代表性的129份普通野生稻和16份亚洲栽培稻,构建了一个野生稻-栽培稻级别的泛基因组(pangenome)图谱。构建的泛基因组包含69,531个基因,其中发现13,728个为野生稻特有基因。这些特有基因主要参与防御响应和ADP结合过程。研究通过构建系统发育树将O. rufipogon进一步分为6个分支(Or-Ia、Or-Ib、Or-II、Or-IIIa、Or-IIIb和Or-unspecified)(图1),证实籼稻与Or-Ia、粳稻与Or-IIIa的密切关系,而Or-IIIb和Or-II与栽培品种的亲缘关系较远。为获得可扩展的全面遗传多样性,研究还构建了图形泛基因组,分别包含15个栽培稻、129个野生稻。图形泛基因组分析显示野生稻平均贡献29.72Mb非参考序列,远超栽培稻的17.47Mb。图形泛基因组在检测所有类型遗传变异方面比线性参考基因组更具优势。

图1 149个代表性野生和栽培水稻品种及泛基因组构建分析

通过对本研究所有样本及已发表33个栽培稻泛基因组中28份亚洲栽培稻的TE注释分析,发现野生稻平均TE含量(53.23%)略高于栽培稻(52.32%),这解释了野生稻基因密度较低的现象。Or-IIIa群体的TE含量显著高于其他群体,而粳稻的TE含量最低。转座元件(TE)进化分析表明,Gypsy家族在Or-IIIa群体中约2.5万年前经历显著扩张,相较粳稻基因组,17个关键Gypsy家族贡献了25.85Mb序列差异。在Or-IIIa中鉴定出约1,000个与扩张Gypsy家族相邻的基因,这些基因显著富集于碳水化合物和萜类代谢和细胞表面信号转导通路,暗示其在环境适应和抗病过程中发挥积极作用(图2)。

图2 野生和栽培水稻的基因组变异和TE组成分析

04 亚洲栽培稻的演化与驯化历程
亚洲栽培稻(O. sativa)的起源问题在学术界一直存在争议。为深入解析这一复杂问题,该研究通过群体结构分析表明粳稻和basmati稻起源于Or-IIIa群体,籼稻起源于Or-Ia群体,aus稻主要起源于南亚的Or-Ib群体。遗传多样性分析显示野生稻的核苷酸多样性显著高于栽培稻,Or-Ia与籼稻的基因组距离(FST和DST)明显小于其他栽培稻与其野生祖先的距离。基因流分析发现Or-Ia中存在约40 Mb的籼稻渗入片段,Or-unspecific群体可能是Or-II与籼稻杂交的产物。系统发育树揭示南亚存在一个特殊的籼稻分支,该分支与Or-Ib和aus稻聚为一类,被证实为籼稻与aus稻的杂交后代,这些发现为理解亚洲栽培稻复杂的演化和传播历史提供了新的分子证据。

图3 野生稻与栽培稻的种群结构及基因渗入分析

亚洲栽培稻的驯化模式一直存在单次驯化与多次独立驯化的学术争议。研究根据选择性清除分析鉴定出12.35Mb的驯化区域,成功捕获了水稻驯化早期关键基因,包括Bh4PROG1sh4FZP等11个已知驯化基因。这11个关键驯化基因的单倍型分析为早期驯化史提供了决定性证据。单倍型网络显示所有栽培稻中这些早期关的驯化基因均与Or-IIIa单倍型直接相关或通过粳稻单倍型间接关联,主要单倍型与最近Or-IIIa单倍型间的变异位点可能是驯化过程中的选择靶点。结合系谱分析将各驯化基因划分为驯化型和祖先型,其品种间分布模式印证了以下驯化路径:粳稻最早由中国南方Or-IIIa群体驯化,向东南亚扩散后与当地Or-Ia和Or-Ib杂交形成籼稻和

aus稻,南亚栽培稻频繁杂交产生intro-indica(籼稻×aus稻),intro-indica与粳稻杂交形成basmati稻(图4)。这些结果强有力支持亚洲栽培稻单次驯化假说。

图4 亚洲栽培水稻进化路线

05 籼稻与粳稻的遗传分化机制
作为亚洲栽培稻的两个主要亚种,籼稻与粳稻表现出显著的遗传分化。该研究基于籼稻和粳稻品种,分别鉴定出855,122个高度分化的SNP和13,853个分化PAV。通过对祖先群体中主要等位基因(频率≥60%)的分析,约77%的分化SNP和83%的分化PAV可用于追溯起源,其中60.75%的分化SNP在Or-IIIa(粳稻祖先)与Or-Ia(籼稻祖先)间已存在差异。粳稻偏好型占30.40%,籼稻偏好型仅2.43%。PAV分化也呈现类似分布模式,且粳稻偏好性更强。另外通过数量性状核苷酸(QTNs)分析发现49个分化QTNs中,51%源自祖先分化,37%为粳稻偏好型。这些结果反映了粳稻经历了更严重的遗传瓶颈,导致其保留更多祖先分化变异,积累更多功能突变,形成独特的表型特征。这些发现揭示了两个亚种分化的多层次机制:既保留了古老的群体分化痕迹,又通过差异化的驯化选择塑造了各自独特的农艺特性。粳稻更强的遗传瓶颈可能与其地理隔离和人工选择强度相关,这为理解亚种特异性状的形成提供了新视角。

图5 籼稻和粳稻之间的遗传差异

总结
这项研究构建了野生-栽培水稻泛基因组数据库,为解析水稻驯化历史和育种改良提供了重要资源。野生稻特有的基因库(如抗病和环境适应相关基因)可助力培育高产、抗逆新品种。未来通过结合野生稻表型研究和从头驯化技术,有望加速水稻育种进程,为应对气候变化下的粮食安全挑战提供了基因层面的解决方案。

中国科学院分子植物科学卓越创新中心韩斌院士和赵强研究员为本文共同通讯作者,博士研究生郭东灵和高级工程师李艳为本文共同第一作者。上海师范大学黄学教授也为该研究提供了大力支持。该研究受到国家自然科学基金、中国科学院先导专项和国家农业农村部重点研发项目的资助。

文章链接:

https://doi.org/10.1038/s41586-025-08883-6

NG项目文章|重磅!花生泛基因组破译”大籽粒”基因密码,提供花生高产育种新策略!

2025年4月28日,河南农业大学殷冬梅教授团队联合国内外多家单位在国际著名期刊《Nature Genetics》上发表了题为Pangenome analysis reveals structural variation associated with seed size and weight traits in peanut”的研究成果,该研究首次绘制了高质量花生泛基因组图谱,涵盖了2个二倍体野生种、2个四倍体野生种和4个四倍体栽培种。通过分析269份不同种子大小材料的重测序数据,鉴定出与种子性状相关的结构变异(SVs)。该研究为未来花生基因组学辅助改良育种提供了理论基础和新思路。希望组为本研究提供了基因组denovo测序和组装注释服务。

研究背景

花生(Arachis hypogaea L.)是重要的油料和食用豆类作物,栽培花生为异源四倍体,起源于二倍体野生种A. duranensis(AA)和A. ipaensis(BB)的杂交。在农业领域,其种子大小和重量是驯化和育种过程中的关键性状。尽管已有研究对花生相关基因进行了初步探索,但调控种子大小的分子机制仍不清楚,特别是花生基因组中针对结构变异(SVs)等的研究更为有限。此外,现有基因组存在大量空缺,且多倍体基因组的复杂性导致高质量基因组资源匮乏,深入挖掘基因组变异,获取覆盖不同花生种群的高质量基因组资源至关重要。因此,该研究通过开展泛基因组研究,整合多样个体的基因组数据,为理解物种的结构和功能多样性提供了全新视角。

结果与分析

01 269份种质的遗传多样性分析

为探究花生的遗传多样性及群体结构,该研究收集了269份花生种质(32份二倍体野生种、8份四倍体野生种、155份四倍体栽培地方品种、67份四倍体改良种质和7份未分类种质),覆盖广泛地理分布(图1)。通过将测序数据比对至参考基因组并进行变异检测,获得5,989,854个高质量SNPs。系统发育和主成分分析(PCA)显示,野生和栽培花生种质存在明显分化,在驯化过程中,花生种子大小和重量显著增加。此外,研究发现 A、B 亚基因组在遗传多样性和进化上存在差异,表明驯化过程中A、B亚基因组存在不对称性。ADMIXTURE群体结构分析显示,栽培花生可能直接起源于野生异源四倍体祖先(图1)。

图1 269个野生和栽培花生种质的遗传多样性

02 高质量泛基因组的构建

该研究选取8个具有不同荚果大小的代表性花生种质构建高质量泛基因组,包括2个已发表基因组和6个新测序基因组(1个AA二倍体野生种、2个AABB四倍体野生种、1个AABB四倍体地方品种和2个AABB四倍体改良种)。研究通过整合Nanopore超长、PacBio HiFi和Hi-C技术,采用NextDenovo和HiC-Pro方法对6个种质进行从头组装。新测序的 6 个品种基因组质量高,其连续性和完整性均优于已发表版本。

基于蛋白编码基因构建的花生泛基因组包含50,097个基因家族,其中核心基因家族功能富集于糖鞘脂合成和干细胞多能性调控通路,而私有基因家族富集于O-糖基化修饰通路。不同类型基因家族在染色体上的分布、基因长度、表达水平和功能富集等方面存在差异。此外,发现在超大型荚果品种ZP06的分布和私有基因家族中,NB-ARC结构域(与植物抗病相关)显著富集(图2)。

图2 花生的基因水平泛基因组分析

03 结构变异(SVs)对基因表达的影响

10-16%与基因区域重叠,15-30%位于基因上下游3,000 bp内,40-80% 与重复序列共定位,主要为长末端重复序列(LTR)。表达调控验证:在启动子和外显子区(而非下游区)的SV显著影响基因表达。该研究重点分析了具有最大荚果的表型极端材料ZP06,发现结构变异通过多种机制影响基因功能(图3),包括直接改变基因结构、调控表达水平等,进而参与产量和抗病性等重要农艺性状的形成。

3 结构变异和基因表达分析

04 驯化过程中与形状相关基因的选择清除分析

为解析基因组变异如何影响驯化过程中的基因功能,研究团队通过野生种与地方品种间的全基因组选择清除分析,发现不同染色体区域承受的选择压力存在显著差异。在改良种选育过程中,B亚基因组受选择区域是A亚基因组的2倍 。另外研究鉴定出1,335个与驯化相关SVs,这些变异涉及329个功能基因。其中A、B 亚基因组中与驯化相关的基因在功能上存在差异。同时研究还鉴定出19个与果实大小或抗病性等性状相关的基因,例如,CRK26基因中629 bp的缺失在野生种中更常见;NTF6(调控果实大小)和FBRL2(抗病相关)组成的串联单元在不同花生品种中存在拷贝数变异(图4)。这些结果为进一步研究花生驯化提供了重要线索。

图4 花生驯化过程中的全基因组选择事件

05 CKX6基因结构变异种子膨大

研究团队鉴定出117个与种子重量相关的SVs,通过SV-GWAS分析,在chr.3上定位到一个极显著SV位点,位于AhCKX6 基因的 3′ – UTR 区域。该基因编码细胞分裂素氧化酶 / 脱氢酶(CKX),参与细胞分裂调控。研究发现在大籽粒种质的AhCKX6基因3′-UTR区存在两段特异性插入,而在所有的61份野生种均缺失该插入,基于此,研究提出3′-UTR区的插入通过以下途径调控种子发育:降低AhCKX6基因表达水平,减少细胞分裂素降解,促进其积累,增强早期细胞分裂活性,最终导致种子体积增大(图5)。

图5 CKX6基因结构变异调控种子发育的分子机制

06 AhARF2-2基因负调控种子大小的分子机制

作为影响谷物产量的关键农艺性状,种子大小的遗传调控机制备受关注。研究鉴定出73个与种子大小显著相关的SVs。其中AhARF2-2基因的外显子SV与种子长度和百粒重显著相关。在超大籽粒品种ZP06中,AhARF2-2基因在第12外显子存在275 bp缺失和7 bp插入,导致AUX/IAA结构域丢失,功能改变。基于此,研究团队提出了AhARF2-2调控花生籽粒大小的分子模型:AhARF2-2通过C端AUX/IAA域与AhIAA13相互作用,生长素信号触发AhARF2-2释放并招募TPL抑制AhGRF5表达,进而影响种子大小。然而,在大籽粒品种中,AhARF2-2无法正常与AhIAA13和TPL相互作用,导致对AhGRF5的抑制减弱,从而促进种子膨大(图6)。

图6 AhARF2-2负调控种子大小

总 结

本研究通过整合8个高质量基因组及269份不同种子大小的花生种质重测序数据,成功构建了全面的花生泛基因组,全面解析了花生基因组变异,为花生种子大小和重量等关键农艺性状的遗传机制研究提供了重要资源,为分子育种提供了新靶点。

河南农业大学殷冬梅教授、上海交通大学韦朝春教授和澳大利亚莫道克大学Rajeev K. Varshney院士为论文共同通讯作者,河南农业大学青年教师赵昆昆、上海交通大学青年教师薛泓嶂和山东省农业科学院李国卫研究员为论文共同第一作者,张新友院士和万书波研究员对该项研究工作给予了指导和帮助。该研究得到了国家自然科学基金、国家重点研发计划、河南省重点科技攻关等项目的资助。殷冬梅教授领衔的河南农业大学花生功能基因组及分子设计育种创新团队,依托于河南省花生基因组与分子育种工程技术研究中心,主要从事花生基因组与功能基因挖掘,致力于揭示花生产量、品质和抗病性状形成的机制与调控途径研究。围绕花生种业“卡脖子”等重要科学问题开展工作,已在NatureGenetics、Advanced Science、Genome Biology、Plant Biotechnology Journal、New Phytologist等国际著名期刊上发表了120余篇学术性文章,取得多项原创性研究成果。

文章链接:https://doi.org/10.1038/s41588-025-02170-w

Genome Biology 项目文章| 范衡宇教授团队揭示ZAR1/2调控卵母细胞母源mRNA动态变化的新机制

2025年5月9日,浙江大学生命科学研究院范衡宇教授团队在Genome Biology杂志上发表了题为“ZAR1 and ZAR2 orchestrate the dynamics of maternal mRNA polyadenylation during mouse oocyte development”的研究论文。该研究联合Smart-seq2、Total RNA-seq、PAIso-seq2和LACE-seq四种近年来开发的、适用于低起始量样本的转录组检测技术,从mRNA稳定性和聚腺苷酸化状态两个维度重新探讨了卵母细胞在减数分裂过程中的转录本动态变化,并深入分析了ZAR1在母源转录组调控中的作用机制。希望组为本研究提供了PB转录组测序服务。

研究背景

在减数分裂期间,卵母细胞基因组会长时间处于转录沉默状态,直到合子基因组激活(ZGA)才重新启动。这一阶段,母源转录组的动态变化和稳态对母源-合子转换(MZT)至关重要。然而越来越多证据表明Smart-seq2(一种低输入量建库技术)检测到的母源转录组动态可能不够准确。其原因是该技术依赖oligo-d(T)引物捕获母源mRNA的poly(A)尾可能会引入偏差。

合子停滞蛋白1(ZAR1)及其同源蛋白ZAR2是RNA结合蛋白,对母源mRNA的稳定性调控具有重要作用。早期研究推测ZAR1促进减数分裂中母源mRNA的降解,而近期研究发现ZAR1参与线粒体相关核糖核蛋白域(MARDO)的组装,推测起到稳定母源mRNA的作用。因此关于RNA结合蛋白ZAR1的功能存在的差异也说明母源mRNA的调控机制仍需进一步阐明。

结果与分析

01 Smart-seq2检测的mRNA动态可能受多聚腺苷酸化偏差影响

在生发泡破裂(GVBD)后的减数分裂过程中,母源基因组转录保持沉默,多年来研究者观察到母源转录组逐渐减少的现象(图1)。这一时期发生降解的转录本对应的基因被称为O-decay基因。通过Smart-seq2和Smart-seq3测序结果显示,与GV期相比,MII期卵母细胞中有许多基因下调,而在差异基因表达中却存在许多上调基因(图1),这些结果显示通过Smart-seq2定义的O-decay基因可能存在偏差。为探究这一问题,该研究采用PAIso-seq2分析技术检测减数分裂过程中多聚腺苷酸化状态的变化,发现GV到MII期卵母细胞中,大部分转录本poly(A)尾明显缩短,这可能导致Smart-seq2无法准确检测短poly(A)尾的mRNA。

图1 Smart-seq2和PAIso-seq2检测母源mRNA动态变化

为规避Smart-seq2的系统偏差,该研究使用Total RNA-seq数据进行分析,结果显示Total RNA-seq检测到的母源转录组在减数分裂过程中的整体下调幅度显著低于Smart-seq2的结果,且鉴定的O-decay基因数量明显更少(图2)。对Total RNA-seq鉴定的O-decay基因进行了深入分析,发现O-decay基因的转录本主要在GV期卵母细胞中发生多聚腺苷酸化和翻译,在完成生物学功能后被有序降解。因此研究推测在减数分裂过程中,母源转录组经历的多聚腺苷酸化/去腺苷酸化修饰可能比实际降解更为显著。

2 Total RNA-seq检测母源mRNA动态变化

02 Zar1/2-/-导致GV期母源mRNA稳定性下降及多聚腺苷酸化异常

早期研究推测ZAR1促进减数分裂中母源mRNA的降解,而近期研究发现ZAR1参与线粒体相关核糖核蛋白域(MARDO)的组装。为阐明这一矛盾,研究采用总RNA-seq技术对Zar1/2-/-卵母细胞进行差异表达基因分析,结果检测到GV期母源mRNA显著下调,且Zar1/2-/-GV期下调基因中61.76%与正常GV→MII期应下调或持稳的基因相关,说明Zar1/2在GV期通过稳定mRNA维持其表达。

通过对Smart-seq2数据的重新分析,研究发现Zar1/2-/- MII期卵母细胞中仍存在大量RNA转录本的异常积累现象,这与总RNA-seq的检测结果存在显著差异。为验证这一差异,研究发现Zar1/2-/-卵母细胞中的多聚腺苷酸化过程可能发生紊乱,PAIso-seq2显示大量mRNA poly(A)尾长度异常,这些异常的poly(A)尾长度导致了Smart-seq2检测偏差。
 
03 ZAR1通过结合3’UTR稳定母源转录本

ZAR1作为RNA结合蛋白(RBP),通过其C端CxxC锌指结构域与母源转录本结合。基于这一分子特征,该研究深入探究了ZAR1的调控机制。LACE-seq定位到其靶向转录本,共鉴定8,000余个潜在靶标,其中Zar1/2-/-GV期下调基因中54.8%为ZAR1靶标。此外发现3’UTR结合基因的稳定性显著高于CDS结合基因,提示ZAR1通过3’UTR结合维持mRNA稳态(图3)。

图3 ZAR1通过与3‘UTR区域结合来稳定母体转录本

04 ZAR1间接调控多聚腺苷酸化并与蛋白互作

鉴于Zar1/2-/-卵母细胞中母源转录本多聚腺苷酸化显著异常,研究进一步分析了差异多聚腺苷酸化基因(DPGs)与ZAR1靶标的关系,分析发现ZAR1本身并不直接调控多聚腺苷酸化,ZAR1更倾向于影响mRNA稳定性,而非直接影响poly(A)尾长。研究通过IP-MS技术发现ZAR1与PABP家族、IGF2BP2等RNA稳定因子互作,提示ZAR1可能与其他蛋白质相互作用以调节母源转录组的稳态(图4)。

图4  ZAR1在卵母细胞发育过程中调控mRNA多聚腺苷酸化的工作模型

05 Zar1/2-/-导致MII期染色质压缩维持失败

Zar1/2-/-卵母细胞在MII期染色质压缩维持失败,出现纺锤体错位和类原核结构等现象,伴随关键母源基因(如Lsm14b、Ccnb1)表达异常,表明ZAR1在稳定这些基因中起作用,从而有助于维持卵母细胞处于MII期。

综上所述,该研究通过多组学联合分析,揭示了聚腺苷酸化状态在减数分裂过程中主导母源转录组动态变化的关键作用。研究进一步阐明了ZAR1在卵母细胞减数分裂成熟早期维持母源转录组稳定性,以及在成熟过程中协同其他蛋白调控母源转录本聚腺苷酸化状态的功能。该研究不仅为Smart-seq2技术在卵母细胞中的的适用性提供了参考,也为进一步探索ZAR1蛋白相关的MARDO在减数分裂过程中的作用机制提供了参考资源。
浙江大学生命科学研究院博士生吴雨珂为本文第一作者。广东省第二人民医院的苏瑞宝副研究员,已毕业博士生蒋知妍和吴韵雯,浙江大学医学院附属邵逸夫医院的戎妍副研究员,浙江大学医学院的嵇姝妍研究员,中国科学院遗传与发育研究所陆发隆研究员及其课题组成员博士生刘静雯和牛卓越,以及中国科学院生物物理研究所薛愿超研究员为该研究提供了大力帮助。该研究受到国家重点研发计划、国家自然科学基金以及浙江省自然科学基金项目的资助。

文章链接:https://doi.org/10.1186/s13059-025-03593-8

项目文章 |为何茶棍蓟马独爱茶树?中国科学家破译其基因组,揭示其对茶树高多酚环境的独特适应性!

2025年4月24日,中国农业科学院茶叶研究所李兆群团队在Pest Management Science期刊上在线发表题为“Chromosome-level genome assembly of Dendrothrips minowai and genomic analysis highlights distinct adaptations to high polyphenols in tea plants”的研究论文。该研究组装了茶棍蓟马染色体水平基因组,并分析揭示了其对茶树高多酚环境的独特适应性分子机制。希望组为本研究提供了测序组装分析等服务。

研究背景

蓟马是危害蔬菜、水果和茶叶等园艺作物的重要害虫,对相关产业构成重大挑战。其体型微小且隐蔽性强,难以在种群暴发前进行早期监测。快速的繁殖周期、高繁殖力及强抗药性进一步增加了防控难度。因此,深入了解蓟马的生物学、生态学、进化、竞争及宿主植物适应性,对制定有效管理策略至关重要。

茶棍蓟马(Dendrothrips minowaiPriesner)是一种关键的寡食性害虫,主要危害亚洲(尤其是中国)的茶树。成虫和若虫通过刺吸茶树嫩叶汁液,影响植株生长并降低茶叶品质与产量。近年来,高质量基因组组装与分析技术为揭示蓟马生物学特性及宿主适应的遗传机制提供了新视角。然而,茶棍蓟马基因组尚未解析,这限制了对高多酚环境适应机制的理解。

结果与分析

01 基因组测序与组装

蓟马是危害蔬菜、水果和茶叶等园艺作物的重要害虫,对相关产业构成重大挑战。其体型微小且隐蔽性强,难以在种群暴发前进行早期监测。快速的繁殖周期、高繁殖力及强抗药性进一步增加了防控难度。因此,深入了解蓟马的生物学、生态学、进化、竞争及宿主植物适应性,对制定有效管理策略至关重要。

茶棍蓟马(Dendrothrips minowaiPriesner)是一种关键的寡食性害虫,主要危害亚洲(尤其是中国)的茶树。成虫和若虫通过刺吸茶树嫩叶汁液,影响植株生长并降低茶叶品质与产量。近年来,高质量基因组组装与分析技术为揭示蓟马生物学特性及宿主适应的遗传机制提供了新视角。然而,茶棍蓟马基因组尚未解析,这限制了对高多酚环境适应机制的理解。

图1 茶棍蓟马基因组的特征

02 茶棍蓟马基因家族的进化分析

系统发育分析表明,蓟马在进化树上分为两支,其中7种蓟马聚为一支且亲缘关系较近。茶棍蓟马的分化时间(约1.032亿年前)早于其他已报道的蓟马物种。在茶棍蓟马基因组中,12个基因家族呈现扩张,172个基因家族呈现收缩(图2)。功能富集分析显示,扩张基因家族主要参与代谢过程、氧化还原酶活性和外源物生物降解与代谢等通路。

图2 茶棍蓟马与其他11种昆虫的进化和系统发育关系分析

03 茶棍蓟马的化学感应与解毒基因家族

由于宿主适应性常涉及宿主识别和宿主次生代谢物解毒,研究对茶棍蓟马中与化学感应及解毒相关的基因家族进行了分析,结果显示,茶棍蓟马拥有88个化学感应相关基因(包括42个味觉受体GR、22个嗅觉受体OR、10个离子型受体IR、1个化学感受蛋白CSP和13个气味结合蛋白OBP)以及187个解毒相关基因(包括90个细胞色素P450、62个ABC转运蛋白、7个羧酸酯酶CCE、13个尿苷二磷酸葡萄糖醛酸转移酶UGT和15个谷胱甘肽S转移酶GST)(表1)。与西花蓟马(F. occidentalis)和棕榈蓟马(T. palmi)等多食性物种相比,茶棍蓟马的GR、IR、OR和CSP基因数量较少,但OBP数量略多于西花蓟马。这一结果表明,化学感应基因(尤其是GR、IR和OR)的多样性与蓟马的宿主范围适应性呈正相关。
系统发育分析显示,多食性物种(如西花蓟马和棕榈蓟马)的GR基因和OR基因表现出扩张现象,特别是在与苦味物质和二氧化碳检测相关的亚谱系中(图3)。而茶棍蓟马则呈现收缩趋势。此外,西花蓟马的IR基因也发生扩张,但在茶棍蓟马中收缩。

在解毒基因方面,茶棍蓟马的GST基因家族规模比其他三种蓟马更小。值得注意的是,ABC转运蛋白的系统发育分析表明,茶棍蓟马中ABC转运蛋白家族(尤其是ABCG和ABCC亚家族)显著扩张,这可能是其适应茶树高多酚环境的关键机制。

图3 茶棍蓟马中化学感应和解毒相关基因系统发育树分析

综上所述,该研究通过对蓟马科寡食性茶棍蓟马(D. minowai)基因组进行测序、组装和注释,为解析其生物学特性与行为奠定了重要基础。比较基因组分析显示,茶棍蓟马在解毒代谢相关基因上存在全基因组范围的扩张,这为其适应茶树寄主提供了分子基础。从害虫防控角度来看,该基因组资源将显著促进基因编辑研究,为开发新型靶向杀虫剂及种群精准防控技术提供关键支撑。

文章链接:https://doi.org/10.1002/ps.8781

项目文章丨中国农业大学联合中国科学院遗传与发育生物学研究所完成中国春小麦基因组近完整组装,助力小麦育种与功能研究

2025年2月13日,中国农业大学农学院联合中国科学院遗传与发育生物学研究所在Molecular Plant在线发表了题为“Near-complete assembly and comprehensive annotation of the wheat Chinese Spring genome”的研究论文。该研究利用牛津纳米孔(ONT)超长读长、PacBio HiFi高精度测序及Hi-C技术,成功构建了中国春小麦基因组的近完整组装(CS-CAU),几乎填补了此前基因组中所有的空白区域,为小麦遗传改良和基础研究提供了关键资源。希望组为本研究提供了PacBio HiFi、Nanopore超长测序以及基因组的初步组装分析服务。

01
研究背景

小麦(Triticum aestivum L.)是全球最重要的粮食作物之一。由于其基因组庞大、高度重复且为异源六倍体,导致其完整组装长期面临挑战。2018年,国际小麦基因组测序联盟(IWGSC)发布了中国春小麦参考基因组(International Wheat Genome Sequencing, 2018),成为世界范围内小麦研究应用最为广泛的参考基因组。然而,尽管该基因组极大促进了小麦基因组学研究和育种改良,后续研究通过整合多组学数据对中国春参考基因组进行了连续更新和优化,同时科学家们陆续完成了多个小麦品种的高质量基因组组装(Jiao et al., 2025; Walkowiak et al., 2020; Zhu et al., 2021),这些基因组组装仍存在大量未解析的重复区域和复杂序列结构,这仍是当前小麦基因组学研究面临的重要挑战。

02
研究内容

本研究综合利用ONT超长读长测序(覆盖度283.56×)、PacBio HiFi高精度测序(29.01×)和Hi-C数据,实现了小麦中国春基因组的近完整组装(CS-CAU),其大小为14.46 Gb,碱基准确率大于99.9963%,仅剩290个组装间隙(主要为超长串联重复序列)。其中,1D、3D、4D、5D染色体首次实现无间隙组装,1D和5D染色体达到端粒到端粒(T2T)级别。这一突破不仅解决了小麦基因组重复序列高、多倍体复杂的组装难题,还为解析其他复杂作物基因组提供了范本。

图1. 中国春小麦基因组的近完整组装

基于近完整基因组组装,研究团队总共注释到151,405个高置信度基因,其中59,180个是新注释的基因,包括7,602个首次组装出的基因,这对小麦基因功能研究具有重要意义。通过整合RNA-seq数据集和跨物种蛋白同源性证据,首次完整解析了六类种子储藏蛋白(SSP)的基因组分布与表达特征。研究发现,ω-醇溶蛋白的表达完全由B亚基因组贡献,而其他五类SSP(α/γ-醇溶蛋白、ALP、HMW/LMW谷蛋白)的表达则主要由D亚基因组贡献,为进一步解析小麦面筋品质的遗传基础和分子改良提供了重要基础。

图2. 近完整中国春小麦的基因注释

除chr1B的着丝粒存在与超长GAA重复序列相关的间隙外,其余20条染色体的着丝粒序列也都全部组装完成。对着丝粒区序列组成进行分析表明着丝粒区域主要由逆转座子构成,其中A/B亚基因组着丝粒富含着丝粒相关反转录转座子CRW和Quinta(占比约70%),而D亚基因组着丝粒中只有30%的序列为CRW和Quinta。相似的是,串联重复序列在三个亚基因组间分布也存在高度的不均匀性,其中71.89%的简单串联重复(SSR)富集于B亚基因组,而接近一半的卫星序列(satellite)则集中于D亚基因组。此外,研究团队也对着丝粒区CRW和Quinta逆转座子的插入时间进行了解析,明确了其在三个亚基因组间的主要扩张时期。

图3. 着丝粒区域序列构成及CRWQuinta转座子的插入时间

中国农业大学农学院玉米改良中心陈建副教授、小麦研究中心孙其信院士、倪中福教授,中国科学院遗传与发育生物学研究所傅向东研究员、鲁非研究员为该论文的共同通讯作者。中国农业大学博士后王子健和博士研究生苗凌峰为论文共同第一作者。博士研究生谭凯文对该工作的推进有重要贡献。玉米改良中心赖锦盛教授、辛蓓蓓副教授,小麦研究中心郭伟龙教授,中国农业科学院作物科学研究所贾继增研究员,澳大利亚墨尔本大学Rudi Appels教授对该工作进行了指导和帮助。该工作得到了国家重点研发计划、国家自然科学基金项目、“拼多多-中国农业大学研究基金”、新基石研究员项目和中国农业大学2115人才培育发展支持计划的资助。

原文链接:https://doi.org/10.1016/j.molp.2025.02.002

CS-CAU基因组下载路径:https://www.ncbi.nlm.nih.gov/nuccore/JBJQUP000000000.1

 
参考文献:
International Wheat Genome Sequencing, C. (2018). Shifting the limits in wheat research and breeding using a fully annotated reference genome. Science 36110.1126/science.aar7191.
Jiao, C., Xie, X., Hao, C., Chen, L., Xie, Y., Garg, V., Zhao, L., Wang, Z., Zhang, Y., Li, T., et al. (2025). Pan-genome bridges wheat structural variations with habitat and breeding. Nature 637:384-393. 10.1038/s41586-024-08277-0.
Walkowiak, S., Gao, L., Monat, C., Haberer, G., Kassa, M.T., Brinton, J., Ramirez-Gonzalez, R.H., Kolodziej, M.C., Delorean, E., Thambugala, D., et al. (2020). Multiple wheat genomes reveal global variation in modern breeding. Nature 588:277-283. 10.1038/s41586-020-2961-x.
Zhu, T., Wang, L., Rimbert, H., Rodriguez, J.C., Deal, K.R., De Oliveira, R., Choulet, F., Keeble-Gagnere, G., Tibbits, J., Rogers, J., et al. (2021). Optical maps refine the bread wheat Triticum aestivum cv. Chinese Spring genome assembly. Plant J 107:303-314. 10.1111/tpj.15289.

Science报道丨西湖大学俞晓春团队解析迄今最完整小鼠基因组图谱

当读到“产生一条多肽链或功能RNA所需的全部核苷酸序列”的科学定义时,多数人都会露出一头雾水的表情。但当听到“生命之书、生命的密码、生命的钥匙、遗传的蓝图”的比拟时,大家都会下意识报出:这是DNA!

对于生命而言,DNA的重要性不言而喻。它既支撑生命的构造和性能,也储存着个体生长、孕育、凋亡“从生到死”的全部相关信息。正因如此,着眼于健康与疾病的谜题,人类不仅需要翻开、阅读这本生命之书,也亟需“读完”它——

北京时间2024年12月6日凌晨,《科学》Science)杂志在线发表了西湖大学生命科学学院、西湖实验室俞晓春团队最新成果“完整的端粒到端粒小鼠参考基因组序列(The complete telomere-to-telomere sequence of a mouse genome)”,报道了该团队在解析小鼠参考基因组方面取得的重要突破。这意味着人类历史上第一次看清小鼠基因组DNA全貌。

论文截图

原文链接:
https://www.science.org/doi/10.1126/science.adq8191

PART.01

现在,请用上一些想象力,一起走入基因组DNA的殿堂,造访大自然塑造的“生命密码”。

想象你的面前出现了一座汗牛充栋的图书馆,这是隶属于某个人类同胞的一个细胞核。你步入其中,看到了几十排标注着“染色体”的书架。你随机选了一个架子,抽出了几本书,发现书的封面上都写着“DNA”。接着,你翻到其中一本的目录页,上面指示了“本书共含有X个基因”。你随意浏览了不同基因的章节,意识到这些篇章仅由四个字母构成——A、T、C、G——这些叫作“碱基”的字母不断变换顺序、排列组合,最终写完了全书……

很好,现在你已经了解了基因组DNA的基本面貌。

正如开头所述,如果我们想获得一个生命体的所有遗传信息,就需要知晓全部基因组DNA的情况,这意味着要阅读完所有染色体“书架”上的DNA之书,知道这些书的每一个字母,即A/T/C/G是如何排列的。关注生物体所有DNA(即整个基因组)的科学,就是基因组学。迄今,基因组学领域的一个重要研究目标,正是获得完整的、精确的基因组序列,这对于我们理解基因组的结构和功能至关重要。

PART.02

事实上,读取这些碱基字母排序的过程,正是“大名鼎鼎”的基因组DNA测序。

1977年,弗雷德里克·桑格发明了第一代测序技术,特点是只能测试一个基因的某个部分,最多一个基因。本世纪初,第二代测序技术问世,它克服了前一代的缺点,一次能读取成千上万的短DNA片段,因此也被称作高通量测序技术;但它依然存在症结:能读取的DNA片段过短,通常在100-300个碱基对(bp)之间。2010年左右,第三代测序技术诞生,实现了对每一条DNA分子的单独测序;换句话说,现在我们能够读取较长的DNA片段了,可以达到10-50千碱基对(kb,1kb=1000bp)甚至更长。

由于人类基因组包含大约30亿个碱基对,能够读取更长片段的第三代基因测序技术的出现,为科学家破解完整的人类基因图谱的进程按下加速键。2022年3月31日,《科学》发表文章报道了名为“端粒到端粒联盟”的国际科学团队,完成了第一个完整的、无间隙的人类基因组序列,填补了2003年“人类基因组计划”遗留下的8%尚未读取的基因区域。

在大洋彼岸的中国浙江杭州的西湖大学,俞晓春实验室当时的博后、现在的助理研究员李麒麟及时关注到了这条新闻。这令这个团队感到无比振奋,因为他们日常“打交道”的小鼠身上,正存在相似的瓶颈。目前小鼠的基因“档案”中,最完整的是参考基因组GRCm39,同样也存在约7~8%未被解析的区域。

西湖大学生命科学学院科研副院长、西湖实验室科研副主任俞晓春教授长期致力于DNA损伤修复机制和癌症发生发展的研究;简单来说,就是DNA受损引发的癌症的诊断、检测与治疗。而小鼠,是生命科学研究中最常见的实验动物和模式生物,这是因为许多生物实验不宜在人体内进行,因此,小鼠的基因组DNA信息直接关系到人类健康的探索。也正因如此,人类对小鼠基因组DNA的认知与这个团队的研究密切相关。

既然人类的“基因拼图”已完成,想必小鼠的“拼图”也胜利在望了?令他们没想到的是,这一等就是一年。

PART.03

亲自做基因测序,对俞晓春实验室来说,实属一个“无心插柳柳成荫”的课题:直到2023年4月,他们都在等待两家资金雄厚、早已对外宣布下场的美国与英国科研机构做完并发布小鼠的完整基因组DNA图谱。

为什么他们如此关心小鼠这尚缺的7%-8%序列?这是因为,这些未知的基因组DNA里或许隐藏着一些至今无法解释的遗传性疾病的谜底。

这些“空白”尤其存在于异染色质和核糖体DNA(rDNA)区域。这些区域富含重复的基因序列,即一些反复出现的,看似近乎一模一样、但实则有细微区别的片段——你可以想象为许多块极其相似的拼图。二代基因测序技术仅能测出其中的一段(且由二代技术完成的小鼠基因组图谱中还有错误),对完整的排序序列“束手无策”;而三代技术可以“完全看清”。

时至2023年的春天,迟迟不见欧美的实验室发布“大新闻”,这个实验室最终决定自己动手拼完这幅小鼠基因组“拼图”。“(全球)剩下的人一直在等,但我们不想等了。”俞晓春回忆说。

PART.04

这个诞生于意外的课题,研究过程相当顺利,历时一年就完成了。

简单来讲,俞晓春团队综合了众多三代基因测序技术,让它们互相补足,开发了一把能够充分挖掘小鼠基因的“金铲子”。他们以最常用的小鼠C57BL/6的单倍体胚胎干细胞(mhaESC)为样本,进行了基因测序和组装,获得了长度为2.77 Gbp(表示十亿个碱基对)的完整的高质量小鼠参考基因组序列,其中包含215.23 Mbp(表示一百万个碱基对)先前未被鉴定的序列,填补了约7.7%的基因组空白。

mhaESC基因组与先前参考基因组的共线性比对结果

如果你对他们基因组DNA “拼图”的步骤感兴趣,这个流程大致是这样的:第一步,测序技术把所有拼图(即片段)上的图案(即碱基对)读完;接着,计算机对这些信息进行数据处理;最后,复杂算法会完成“拼装”(即基因组组装),形成完整的全貌。这个过程涉及到了PacBio HiFi、Oxford Nanopore超长、Illumina短读长、Hi-C和BioNano光学图谱等多项基因测序技术。

那么,这些研究人员具体取得了哪些关于小鼠基因的新发现呢?

首先,发现了新的蛋白质编码基因。顾名思义,这些基因的作用是编码对应的蛋白质。与先前的参考基因组版本相比,本研究额外注释了639个蛋白质编码基因,其中先前未被发现的全新的蛋白质编码基因有140个(这是因为639个基因中部分为已知基因的“重复”拷贝)。这些新的蛋白质编码基因可能参与多种生物学过程,为未来的研究提供了新的方向。

第二,较精确地“看清”核糖体DNA的基因序列。核糖体是细胞内的“蛋白质工厂”,负责合成蛋白质。核糖体DNA是细胞中的一种特殊DNA,它专门负责编码核糖体的RNA(rRNA)——一种核糖体的重要组成部分,帮助核糖体合成蛋白。用简洁的比拟来说,核糖体DNA给出了细胞内rRNA的“蓝图”。这个发现为进一步解析核糖体潜在的蛋白质翻译功能的差异性提供参考。

第三,解析了着丝粒区域的基因序列详情。着丝粒是染色体上的一个特殊区域,帮助染色体在细胞分裂时,将遗传物质平均分配到两个新的细胞中。本研究的结果显示,小鼠各染色体之间的着丝粒长度具有明显差异,且序列内部富含转座元件和片段重复(SD),同时还有散在的基因分布,表明该区域可能会进行活跃的转录和转座事件,驱动着丝粒区域进行适应性改变等行为。对着丝粒区域的解析,有助于理解因着丝粒功能缺陷导致的染色体重排、非整倍性等相关疾病的发病机制。

PART.05

让我们总结一下。从科学意义上来说,俞晓春实验室的这项研究,通过综合“长读长”第三代测序技术成功完成了小鼠基因组的端粒到端粒组装,填补了现有参考基因组中的空白区域,揭示了新的基因和结构变异,“拼完”了小鼠基因组图谱的“拼图”。这些发现不仅提高了对小鼠基因组结构和功能的理解,也为基因组学研究提供了重要的技术参考和数据资源。

在这项研究中,两位一作作者,分别发挥了科研所长,刘俊丽助理研究员负责湿实验及论文图片,李麒麟助理研究员负责干实验及文稿;通讯作者俞晓春教授负责“掌舵”课题的大方向以及论文的完善。

“你们在研究过程中遇到最大的难点是什么?”这个问题竟然有朝一日成为了实验室“答不上来”的问题。正如前文所言,这个课题进展势如破竹,投稿过程也十分顺利。

但要在科研的疆域取得成果,并非一日之功。这项研究的顺利开展,既得益于俞晓春自在美国密歇根大学医学院内科系成为独立PI后,对染色体近20年的研究积累;同时,也与两位一作作者历经过的、作为一名科研工作者的磨炼与自我调整息息相关。

刘俊丽,是西湖实验室第一批“开拓学者”之一,曾在科研的路途上迷茫过、也曾经历过gap的时光,但她最终选择加入俞晓春实验室,尽管那意味着要完全改变研究方向,需要从“0”开始。如今,她分享说:“做科研,任何一个方向都有研究意义。我觉得实验取得的任何结果都能带给我快乐,这是为什么我要坚持做科研的原因。”

如果说这个课题有一个发起人,那非李麒麟莫属:他是俞晓春团队第一个注意到人类基因组序列完成的人。出于对遗传学和基因组学的兴趣,他从大学本科直至在美国做博后阶段都专注于生物信息学。李麒麟说:“但我发现做纯数据并不能对实际情况有很好的了解,所以最后我选择了俞老师的实验室,这里有湿实验的实时结果给出反馈,这样我再去做数据分析,研究能更好地开展。”

当然,俞晓春实验室剑指的始终并不是小鼠基因组真容本身,而是希望利用这把“基因组之铲”探索遗传性癌症、发育性疾病未解的致病机理。“支线”的故事已完成,接下来,让我们一起静待这个实验室的“主线”诞生更多助力人类攻克顽疾的成果。

西湖实验室助理研究员刘俊丽博士和李麒麟博士为本文的共同第一作者,西湖大学生命科学学院科研副院长、西湖实验室科研副主任俞晓春教授为通讯作者。本研究得到国家自然科学基金、浙江省自然科学基金、浙江省“尖兵”&“领雁”项目、杭州市领军型创新创业团队、西湖教育基金会和西湖实验室提供的经费支持,同时感谢西湖大学生物医学实验技术中心、实验动物中心及高性能计算中心等平台的支持。

The Innovation署名项目文章|迄今为止全球首个、规模空前的植物超大基因组——兰州百合基因组(36.68 Gb)

2024年10月24日,南京农业大学园艺学院滕年军教授团队、薛佳宇副教授团队,华中农业大学园艺林学学院宁国贵教授团队与福建农林大学明瑞光教授团队等国内10多家科研团队联合公布了百合高质量染色体级别基因组,成为世界上首个正式报道的最大植物基因组。相关文章“The evolutionary tale of lilies: Giant genomes derived from transposon insertions and polyploidization”发表在《The Innovation》期刊。希望组为本研究提供了基因组测序、组装注释服务,其中生信总监孙宗毅有幸作为署名作者深入参与该大基因组的组装注释流程工作。

基因组存储了一个物种的完整遗传信息,是理解其生物学特性和进化历程的关键。自然界中,不同生物的基因组揭示了生命之树上基因组大小的巨大差异,其中一些植物拥有超大的基因组。然而,这些超大基因组的起源和形成机制却不尽相同。

百合(Lilium L.)是单子叶百合目百合科多年生植物,因其极高的观赏、食用与药用价值而备受关注。本研究利用Nanopore、Illumina和Hi-C测序技术,以及优化的组装方法,获得了36.68 Gb的兰州百合(Lilium davidii var. unicolor)超大型基因组,并解析了其形成机制和特征,也揭示了鳞茎营养物质积累的遗传基础。这一成果标志着百合的分子研究进入新时代,也是植物基因组学的重要突破性研究进展之一。论文的主要研究内容具体如下:

1.  超大基因组的染色体水平组装

流式细胞实验和K-mer分析预估兰州百合基因组的预估大小分别为38.01 Gb和37.62 Gb,杂合率为2.18%。细胞核型分析显示其为二倍体,具有12对巨型染色体。结合Nanopore、Illumina和Hi-C数据,成功组装得到36.68 Gb的基因组,Scaffold N50为2.86 Gb,96.99%的序列被挂载到12条染色体上(图1A)。注释87,501个蛋白编码基因,其中功能注释比率为89.54%。评估结果显示兰州百合的基因组的高完整性、准确性和连续性。

2. 超大型基因组的形成原因

影响基因组大小的主要因素包括重复序列的积累和基因组多倍化。兰州百合基因组中,重复序列占比高达88.31%,其中长末端重复反转录转座子(LTR-RTs)占64.40%。分析显示,兰州百合的LTR-RT在近五百万年以来发生急剧扩张,其中Copia类的扩张约一百六十五万年前达到高峰,Gypsy类的扩张则在约八十九万年前达到峰值;在更细分的亚类型层面,Athila、Retand、Tekay和Tork等亚类获得了特异性的快速扩张(图1C),这些亚类对异染色质区域有偏好,抑制重组,降低LTR-RT去除率,从而造成短时间内LTR-RT的海量插入且无法去除,形成了兰州百合超大的巨型基因组(图1B)。

全基因组复制也是基因组扩张的潜在原因。Ks分布图显示百合经历了两轮全基因组复制事件,与金钱蒲、芦笋等植物的共线性分析支持了这一推断(图1D)。基于核基因的系统发育分析,将百合置于天门冬目的姊妹群,两者分化于七千二百万年前(图1E)。基于此系统框架,尽管近缘的洋葱和大蒜都额外多经历了两轮全基因组复制,它们的基因组却不到兰州百合的一半大,表明百合在进化过程中展现出与它们不同的模式。

3. 超长基因的形成及其表达规律

兰州百合基因组中的长基因非常常见,其平均长度为57.61 Kb,而长度超过50 Kb的基因(定义为“超长基因”)占33.88%。然而兰州百合基因编码序列的平均长度仅为847.17 bp,与其他物种的编码序列长度并无显著差别,提示我们其长内含子才是形成超长基因的主要原因。对基因表达模式的分析发现,基因长度与表达水平显著相关,但趋势却是变化的:短于50 Kb的基因表达水平随基因长度变长而持续上升,而长于50 Kb的基因则表达持续下降(图1F)。我们推测50 Kb可能是限制基因转录或内含子剪接效率的转折点,这种表达变化尚未在其他物种中见到,可能为百合独有的特征。

4. 鳞茎发育的碳水化合物代谢

鳞茎是百合的重要营养储存器官,东亚地区被广泛用作药物和食品。为阐明其发育过程中的营养积累及机制,我们对不同发育阶段的鳞茎样本进行了多组学分析。结果显示,淀粉和蔗糖在发育过程中不断积累(图1G),转录组分析发现糖酵解代谢途径中的基因高表达,且具有器官特异性。此外,检测到870种代谢物,表明代谢产物多样性。代谢组与转录组的相关性分析显示碳水化合物代谢物与特定基因表达模块显著关联(图1H)。

图 1 百合基因组和多组学分析

南京农业大学为该论文的第一署名单位和通讯单位,南京农业大学钟山青年研究员徐素娟博士、已毕业硕士张心祺、吴玉峰教授,华中农业大学博士生陈润洲以及上海市农科院杨柳燕研究员为论文的共同第一作者;南京农业大学滕年军教授、薛佳宇副教授,华中农业大学宁国贵教授以及福建农林大学明瑞光教授为论文共同通讯作者;北京林业大学、海南大学、云南大学、扬州大学、山西农业大学、沈阳农业大学、北京农学院、甘肃农业大学、甘肃农科院、湖南农科院、长江师范学院、武汉希望组生物科技有限公司、江苏省栖霞百合科技小院等单位20多位合作者参与了本研究。本研究得到了国家重点研发计划(2019YFD1000400)、江苏省种业振兴揭榜挂帅项目(JBGS〔2021〕093)等资助和南京农业大学生物信息学中心高性能计算平台的支持。

在成功组装了诸如落叶松(10.97 Gb)、苏铁(10.5 Gb)及异源六倍体燕麦(10.76 Gb)等大型植物基因组之后,希望组协助南京农业大学等单位完成了迄今为止全球首个、最大植物基因组——兰州百合基因组(36.68 Gb)的组装工作,积累了超大基因组组装的经验。我们诚挚邀请您携手并进,共同揭开下一个超大基因组的神秘面纱,深入探索并解析生命的宏伟蓝图。

原文链接:https://www.sciencedirect.com/science/article/pii/S2666675824001644

Science项目文章 | 科学震撼揭秘:辐射王者水熊虫,耐受极限秒杀人类上千倍!

在绚丽多彩的自然界中,有一些极端生物进化出了适应极端环境的能力,水熊虫便是其中的代表【1】。水熊虫,是缓步动物的俗称,为微小的无脊椎动物,大部分体长不超过1毫米,通体透明,有4对短而粗的足,末端有爪子、吸盘或脚趾。水熊虫分布于世界各地,亦可在真空中生存【2】。它们栖息于淡水沉渣、潮湿土壤以及苔藓植物的水膜中,少数种类生活在海水的潮间带。目前已报道的水熊虫近1500余种,它们可耐受超强辐射、高温、高压、低温、干燥等多种极端环境【3】,这些耐受特性具有很高的科学研究价值和生物医学应用价值。研究其极端环境耐受机制有助于深入理解生物体在极端环境中存活的适应性进化机制,拓展我们对生命本质和极限的认识。理解这些生物的内在保护机制对于发展基于仿生策略的极端环境防护靶点与干预措施至关重要,也是人类拓展自身生存空间必须回答的重要生物医学问题。

在诸多极端环境因素中,空间辐射损伤是制约人类深空探测和长期在轨驻留的关键医学问题之一,同时多种涉核作业环境均受到超强辐射的严重威胁。现有辐射防护策略对超强辐射缺乏有效防护,亟需在概念创新、理论提升和防护技术革新等方面做出颠覆性突破。水熊虫辐射耐受剂量是人类辐射致死剂量的上千倍【4】,是极好的辐射耐受研究对象,被科学界视为超强辐射机制研究新的突破口。但目前国际上对水熊虫辐射耐受机制的认识很不清楚。

2024年10月25日,军事科学院军事医学研究院张令强团队和杨冬团队,联合陕西学前师范学院王立志等国内相关研究团队在Science发表题为“Multi-omics landscape and molecular basis of radiation tolerance in a tardigrade”的研究论文,报道了一种高生属新种——河南高生熊虫,并建立了其实验室培养体系,绘制了高质量基因组图谱,在国际上首次整合转录组、蛋白质组响应超强辐射的动态变化及分子进化和功能特征分析,揭示了河南高生熊虫耐受超强辐射的三类机制,并分别对代表性关键分子进行了深入的功能和机制研究。希望组为本研究提供了ONT、Hi-C测序和组装注释分析服务内容。

2018年,该研究团队从河南省伏牛山采集水熊虫样品,随后率先在国内建立了水熊虫实验室培养体系,实现了规模化培养,后经形态学和分子水平鉴定,确定所培养水熊虫是一种新的高生属水熊虫物种,命名为河南高生熊虫(Hypsibius henanensis);研究团队对河南高生熊虫在多种极端环境(如超强辐射、低湿等)下的耐受特性进行了表征,发现其可耐受高达5000 Gy 的γ射线辐射(人的辐射致死剂量约为5 Gy);随后该团队产出了国际上第一套有完善注释的染色体水平高质量水熊虫基因组图谱,通过利用ONT长读长和Hi-C数据,组装生成了高质量基因组,基因组大小为112.6Mb。进一步将这些组装的contigs成功锚定到六条假染色体上,同时结合核型分析证实了河南高生熊虫种具有6条染色体(2n=12)。进一步对该基因组进行注释分析,鉴定了14,701个蛋白质编码基因,这些基因均匀地分布在染色体上。为探索河南高生熊虫超强辐射耐受机制,他们利用200 Gy和2000 Gy的12C6+重离子照射水熊虫并进行转录组和蛋白质组检测,分析得到2801个差异基因;进一步结合分子进化和功能特征分析,将河南高生熊虫的辐射耐受机制归为三大类:一是从细菌、真菌、植物中通过水平基因转移(HTG)到水熊虫中的外来基因,赋予其特殊的抗逆能力,本研究共鉴定到75个高可信的HTG基因,其中13个在辐照后发生显著上调;二是水熊虫基因组中约30%的基因是缓步动物特异的,缓步动物特异蛋白倾向于高度无序,通过相分离参与DNA损伤修复等过程;三是与其它门类共有的古老蛋白(如线粒体呼吸链组装蛋白)在水熊虫中具有特殊的辐照响应模式。

在第一类机制中,该研究团队发现了一种DOPA(多巴)双加氧酶基因DODA1,它是细菌向缓步动物水平基因转移的产物。DODA1在2000 Gy辐照条件下发生17.3倍的表达水平上调,DODA1可催化合成甜菜色素(一种此前被认为存在于植物、少数真菌和细菌中的色素【5】),甜菜色素具有很强的抗氧化活性,因此能够减轻辐射产生的大量ROS对细胞的损伤,从而赋予水熊虫辐射抗性。在第二类机制中发现缓步动物特异的辐射诱导的无序蛋白TRID1依赖其Prion-like 结构域介导液-液相分离,从而促进DNA损伤修复。在第三类机制中发现了线粒体呼吸链复合物组装蛋白BCS1基因在包括河南高生熊虫在内的多种水熊虫基因组中发生了普遍扩张,并且线粒体呼吸链复合物组装蛋白BCS1和NDUFB8在辐照后表达明显上调,从而促进线粒体NAD+再生,进而加快NAD+依赖的损伤修复蛋白PARP1介导的DNA损伤修复。令人兴奋的是,上述在水熊虫中发挥抗辐射作用的分子,转入人源细胞中后,可以显著提升人源细胞的抗辐射能力,这提示它们具有重要潜在应用前景。

河南高生熊虫超强辐射耐受机制的多组学研究思路及核心结论示意图

今天,人类仍然面临着超强辐射的严重威胁。目前的辐射防护药物仅可对低剂量辐射有一定效果。因此,如何另辟蹊径来研发新的辐射防护策略,是摆在科研人员面前的一项重要而艰巨的任务。该研究工作基于对水熊虫的抗辐射机制解析,发现了几类代谢途径的‘协同动员机制’,这为人类辐射防护的研究提供了重要理论依据和候选分子。

本论文由军事科学院军事医学研究院张令强研究员、杨冬副研究员,陕西学前师范学院王立志教授等所率团队联合完成;第一作者为军事医学研究院李磊和付业胜博士,研究生葛正平、刘世豪、郑坤、李亚琪及北京大学陈恺骐博士。

原文链接:https://www.science.org/doi/10.1126/science.adl0799

项目文章|河南农大绽放科技之花,首个gap-free桃基因组惊艳问世!

2024年9月,河南农业大学园艺学院冯建灿和谭彬教授领衔的桃生物学与种质创新团队在国际知名期刊《PlantBiotechnologyJournal》发表题为“A gap-free genome of pillar peach (PrunuspersicaL.) provides new insights into branch angle and double flower traits”的研究论文。该研究通过ONT ultra-long、Hi-C和RNA-seq等测序技术完成首个gap-free桃基因组,这为柱型桃分枝角度和重瓣花的进一步深入探索研究奠定了坚实的理论根基。希望组承担了该研究的ONT ultra-long、Hi-C和RNA-seq建库测序和组装注释工作。

桃(Prunus persica L.)是蔷薇科李属落叶小乔木植物,在世界各地广泛种植。然而,现有桃的参考基因组含有一定的缺口,也缺少特殊树型等性状的参考基因组,这使桃的基因注释及基因定位和桃树型等农艺性状改良受到限制。基于此,作者选择‘照手红’桃(ZSH,分枝角度小,花重瓣)作为研究对象,利用ONT ultra-long(203.7×)的reads长度优势和Hi-C(119.5×)数据的空间定位定向优势开展基因组组装,获得8条染色体,其中1、2、3、4、6、7这6条染色体由1条contig组成,5号染色体有2个gap,8号染色体有1个gap。在ONT ultra-long数据的填补下,所有染色体实现0 gap。在此基础上,进一步开展端粒和着丝粒鉴定,得到全部的16个端粒和8个候选着丝粒,最终成功获得1个gap-free桃基因组,大小为239.34Mb,contig N50为29.67 Mb,BUSCO评估98.88%,LTR组装指数为31.03,完整性99.63%,准确性QV=53.3,预测到24901个蛋白编码基因,其中23253个基因被功能注释(图1),这些数据表明ZSH基因组达到高质量基因组的应用标准。

图1:ZSH基因组特征展示

1.  分枝角度性状的结构变异分析及候选基因的鉴定

分枝角度是果树最重要的农艺性状之一。为了鉴定影响ZSH桃分枝角度的主要基因,作者通过ZSH与7个普通型桃(分枝角度大)基因组进行结构差异分析并检测到3523个基因的9100个变异(图2)。为了进一步确定可能参与分枝角度发育的候选基因,作者对两个普通型桃(HSM和Okubo)和两个柱型桃(ZSH和SHLZ)进行转录组分析,发现25个基因在普通型桃中的表达量高于柱型桃。其中鉴定到与分枝角度紧密相关的基因PpTAC1,与普通型桃相比,ZSH中的PpTAC1基因在启动子上缺失了11bp,外显子上插入了4422bp,导致基因移码突变,丧失功能。作者进一步通过其它10个柱型桃品种与普通型桃进行比较,发现柱型桃品种的PpTAC1编码或启动子序列中均存在变异,这些结果表明,PpTAC1基因的变异与桃分枝角度密切相关(图2)。

图2:柱型桃分枝角度小相关基因PpTAC1的鉴定

2. miR172d和PpAP2共同调控桃单/重瓣花性状形成

作者对334份自然群体进行单/重瓣花性状的GWAS分析,发现在Chr2上有显著峰,在Chr6上有次要峰(图3)。通过比较基因组和PCR验证分析,在重瓣花品种中Chr2定位位点发现miR172d基因存在5033bp和1210bp插入,随后将插入片段设计分子标记,进而在32个重瓣花和6个单瓣花中进行分子标记验证,发现在27个重瓣花品种中检测到1210bp或5033bp的插入,而在6个单瓣花品种和其他5个重瓣品种中不存在插入(‘No.18’、‘HongChuizhi’、‘Huayulu’、‘1-1-4’和‘1-2-7’)。

为了进一步鉴定与单/重瓣花性状有关的其它候选基因,作者选取‘No.18’(重瓣花)和‘Okubo’(单瓣花)以及F1群体用于鉴定候选基因。利用BSA分析确定Chr6上的一个重要位点(图3)。通过对亲本‘No.18’和‘Okubo’进行重测序分析进一步确定Pp06G22680.t1的编码区域有一个994bp的杂合缺失,而Pp06G22680.t1能够编码在花发育中起作用的转录因子(PpAP2)。通过实验验证发现994bp的缺失在所有重瓣花子代中存在,而在单瓣花的杂交子代中不存在。这一结果表明PpAP2中994bp的缺失对‘No.18’桃重瓣花性状紧密相关。对miR172d没有变异的4个重瓣花品种中验证,发现‘HongChuizhi’、‘1-1-4’和‘1-2-7’中PpAP2存在缺失变异,但‘Huayulu’没有994bp变异。

作者又对‘Huayulu’分析,发现PpAP2存在一个SNP突变(G/T)。通过烟草瞬时表达实验发现miR172d可靶向并降解PpAP2(Gtype),但因为miR172d的结合位点从G到T的突变使其无法靶向和降解PpAP2,从而导致‘Huayulu’桃的重瓣花性状。通过以上结果发现miR172d和PpAP2共同调控桃单/重瓣花性状的形成。

图3:调控桃单/重瓣花性状的基因鉴定

该研究通过完成首个gap-free桃参考基因组并对基因结构进行人工校正,以确保较高的准确性。结合比较基因组、转录组、GWAS和BSA等分析鉴定到PpTAC1、miR172d和PpAP2的变异分别参与到分枝角度、单/重瓣花性状表型调控。gap-free桃参考基因组的成功搭建为桃树及其近缘种的遗传改良提供了宝贵的基因组资源。

Nature Plants项目文章|中国农大震撼揭秘!四倍体现代月季起源与育种历史,一探究竟

2024年10月11日,中国农业大学联合康奈尔大学等单位在植物学领域国际著名期刊Nature Plants杂志上发表了题为“Haplotype-resolved genome assembly and resequencing provide insights into the origin and breeding of modern rose”的研究论文。该研究首次实现了对四倍体现代月季单倍型解析的高质量组装,通过对200多个蔷薇属野生种和月季栽培种的重测序,明确了现代月季(Rosa hybrida)的起源及育种过程。这标志着在现代月季基因组组成、变异以及重要农艺性状遗传解析方面取得了重要突破,为未来现代月季基因组选择育种和分子定向育种提供了坚实的理论基础。希望组为本研究提供了PacBio HiFi、ONT ultra-long 、Hi-C、Pore-C及单倍型组装分析服务。

现代月季(Modern rose)是蔷薇属中栽培月季的总称,通常指中国月季传入欧洲后,与多种蔷薇属植物杂交而形成的具备连续开花能力的杂交品种(R. hybrida)。中国是蔷薇属植物最重要的起源中心,在已知的200余种蔷薇属植物中,原产我国的有95种。如今,全球栽培的绝大多数月季都是四倍体现代月季,品种数量超过40000个,根据文献记载,约有8到20种不同倍性水平的野生种和古老栽培品种可能参与了现代月季的形成,但谁是真正的贡献者,长期以来众说纷纭,没有明确答案。并且,现代月季高度杂合,杂交后代分离极其严重,长期的反复杂交又导致了现代月季遗传背景相对单一,使得传统杂交方式很难获得进一步突破性的优异新品种,亟需通过现代基因组学手段厘清其起源和驯化过程,从而为开展高效的基因组选择育种和定向分子育种奠定基础。

近年来,多个二倍体蔷薇属植物的基因组先后被公布,包括玫瑰(R. rugosa),野蔷薇(R. multiflora),光叶蔷薇(R. wichuraiana ‘Basye’s Thornless’),以及被认为是现代月季重要祖先之一的中国古老月季‘月月粉’(R. chinensis ‘Old Blush’)和‘月月红’(R. chinensis ‘Chilong Hanzhu’)。然而,现代月季的基因组信息依然长期未解。主要原因在于,现代月季具有高倍性,即大多数为四倍体;基因组高杂合度、序列高度重复,呈现出节段性异源多倍体(Segmental allopolyploid)的复杂特征。这些因素使得对其基因组的解析极具挑战性。

2017年,中国农业大学月季发育与品质创新团队牵头,针对四倍体现代月季‘萨曼莎’(Samantha)的基因组组装开展了创新性研究。‘萨曼莎’是一个经典的切花品种,花型高芯翘角、花朵大小中等、花色鲜红、连续开花能力强,具备现代月季的典型特征。同时,‘萨曼莎’具有清晰的杂交育种历史,在前期研究中建立了病毒诱导的基因沉默、稳定转化和基因编辑等技术体系,可视为四倍体现代月季研究的模式材料,也使‘萨曼莎’成为开展基因组研究的理想材料。

本项研究通过使用103 Gb(52.3X) PacBio HiFi reads,237 Gb(120.2X) ONT ultra-long reads,140 Gb(71.0X)MGI paired-end reads,543 Gb(275.5X)Hi-C reads 和43 Gb(21.8X)Pore-C reads,组装了四倍体现代月季‘萨曼莎’(Samantha)的基因组。最终组装的单倍型基因组大小为1971Mb,contig N50长度为37.76M,通过Pore-C技术克服了同源区段难以区分的技术难题,将91.6%的contigs组装到28条染色体上,并且进一步校正了Hi-C比对的偏好性。通过对基因组组装质量进行评估,发现二、三代数据分别回比到基因组的比对率为99.76%和99.95%,BUSCO达到98.7%,LAI值高达21.93。‘萨曼莎’的基因组中59.32%为重复序列,同时注释了141827个基因,其中91.79%能够被数据库注释。最终,成功组装出了高质量的四倍体现代月季单倍型基因组(图1),其组装质量要远优于已发表蔷薇属基因组,为现代月季及其他复杂基因组结构物种的高质量基因组组装提供了有效的创新技术方案。

图 1. ‘萨曼莎’月季的基因组图示

针对现代月季复杂群体结构和遗传组成问题,研究团队通过对200多个蔷薇属野生种、过渡品种以及现代品种进行了全基因组重测序,系统解析了月季的遗传组成。明确了月季组(section Chinenses)在现代月季育成中的关键作用,尤其是中国原产香水月季(R. odorata)对其遗传背景的显著贡献(图2)。研究还发现,‘月月粉’(R. chinensis ‘Old Blush’)、光叶蔷薇(R. wichuraiana)、法国蔷薇(R. gallica)、麝香蔷薇(R. moschata)和腺果蔷薇(R. fedtschenkoana)等品种分别对‘萨曼莎’的遗传组成做出了不同程度的贡献。研究团队深入分析了与连续开花、花序分生组织与花器官发育、花色、衰老、生长、抗病性以及皮刺形成等关键性状相关的基因,发现这些基因在现代月季驯化和人工选择过程中发生了定向选择,揭示了现代月季在驯化和育种过程中逐步形成的遗传机制(图3)。综上所述,研究团队不仅系统地揭示了现代月季的遗传基础和驯化过程,还极大推动了月季的育种研究,为未来观赏园艺作物的遗传改良和育种工作提供了重要的思路和参考。

图2. 233份蔷薇属植物的群体结构分析

图3. 现代月季人工驯化选择位点

中国农业大学高俊平教授、马男教授和美国康奈尔大学费章君教授为文章的共同通讯作者。中国农业大学张钊教授、杨拓博士、刘洋博士、吴杰博士,康奈尔大学的吴珊博士和孙宏贺博士,深圳职业技术大学的李永红教授为该论文的共同第一作者。中国农业大学林涛教授和北京市园林绿化科学研究院辛海波博士和卜燕华博士对论文工作亦有重要贡献。

该研究得到国家自然科学基金委、教育部111计划、农业农村部产业技术体系、北京市科委科技创新服务能力建设计划、深圳市科技创新局基础研究项目以及国家资助博士后研究人员计划的支持。