重新审视DMD基因重复变异的致病性–长读长测序揭示高频率非串联重复

DMD基因检测的现状与挑战
杜氏肌营养不良症(Duchenne Muscular Dystrophy, DMD)是一种X连锁隐性遗传病,主要影响男性患者。患儿通常在3-5岁开始出现症状,10-12岁丧失行走能力,20岁左右需要呼吸机支持,平均寿命仅约30岁。5-24岁男性中的患病率为1.38/10,000,而女性携带者频率高达1/1,374。鉴于其严重性和相对较高的携带率,美国医学遗传学与基因组学学会(ACMG)建议对所有孕前或孕期女性进行DMD携带者筛查。

DMD基因作为人类最大的基因之一,包含79个外显子,其变异类型复杂多样。其中,基因内重复(intragenic duplication)是重要的致病机制,约占DMD病例的5%-20%。这些重复变异可以大致分为两类:串联重复(tandem duplication)和分散重复(interspersed duplication)。前者是指重复片段直接连接在原位点旁,通常会导致阅读框移位和蛋白质功能丧失;后者则是重复片段插入到基因组其他位置,可能保持原有阅读框的完整性。

常规技术如多重连接依赖性探针扩增(MLPA)、染色体微阵列分析(CMA)和短读长二代测序(NGS)虽然能检测到拷贝数变异,却无法区分重复的具体结构。按照现行指南,当无法确定重复结构时,默认假定为串联重复并归类为”可能致病”或”致病”。这种”串联假定”(tandem presumption)在临床症状明确的患者中或许合理,但在无症状的携带者筛查中是否适用?

研究方法
ONT长读长全基因组测序

选了15例携带DMD基因内重复的患者样本,采用牛津纳米孔技术(Oxford Nanopore Technologies, ONT)进行高覆盖度的全基因组长读长测序。

研究样本分为两组:

1. 临床指征组(4例)

包括确诊的DMD男性患者、有家族史的女性携带者,以及持续肌酸激酶升高的个体。

2. 偶然检出组(11例)

通过携带者筛查(5例)或其他非DMD相关检测(如先天性心脏病、自闭症、发育迟缓等,6例)发现DMD重复的无症状个体。

研究团队还开发了专门的生物信息学工具DMDuper,用于自动分析长读长数据,识别重复断点,区分串联和分散重复。该工具首先通过软剪切(soft-clipped)读段识别断点区域,然后进行单体型组装,最后通过比对参考基因组确定重复结构。

研究结果

在临床指征组中,所有4例患者的DMD重复均确认为串联结构(图1A-D),重复的长度从15kb到278kb不等,包含的exon数量从单个外显子到多个外显子不等。

偶然检出组的结果

– 仅36%(4/11)为串联重复(图1E-H),这些病例被确认为真正的携带状态。

– 高达64%(7/11)实际上是分散重复(图2-3),其中:

– 4例被重新分类为”可能良性”(DMD-9、10、14、15)

– 2例为”可能致病”(DMD-11、13)

– 1例因信息不足保留为”意义未明”(DMD-12)

图1  8例串联内基因DMD重复病例。 蓝色区域表示重复片段。箭头表示基因组片段的方向。  (A–D)具有个人或家族性肌营养不良症病史的病例。(E–H)偶然检测到重复片段的病例。

图2 4例由共重复事件表征的分散型DMD基因内重复。

这些分散重复展现出惊人的结构复杂性:

共重复现象(co-duplication)

在DMD-9至DMD-12中,DMD外显子的重复伴随着X染色体短臂其他区域的共重复。例如:

– DMD-9:88kb的DMD外显子49-50与135kb的远端非编码区共重复,插入到基因间区域,不影响任何基因功能(图2B)。

– DMD-10:284kb的DMD外显子50-55与包含PHEX和CBLL2基因的295kb区域共重复,插入到原基因位点附近(图2C)。

– DMD-11:77kb的DMD外显子63-67与PPP2R3B基因部分共重复,但这次插入到了DMD基因内部,可能破坏阅读框(图2D)。
复杂重排

– DMD-13显示了一个特别复杂的模式:除了微阵列检测到的两个重复区域(外显子3-9和45-48)外,长读长测序还发现了一个27bp的内含子重复。这些片段以倒位和正向混合的方式插入到DMD基因内。

– DMD-14中,外显子5-7的重复片段倒位插入到X染色体长臂87.2Mb远处,同时伴随109kb的RHOXF2B/RHOXF1基因缺失。

– DMD-15则更奇特,外显子3-4的重复片段插入到了9号染色体的9q12高重复区域。

这些发现表明,DMD基因的重复变异远比传统认知的复杂。更值得注意的是,某些外显子组合(如45-51、56-61)既出现在致病的串联重复中,也出现在良性的分散重复中,这意味着单纯依靠外显子内容无法预测致病性。
新的分类框架建议

基于这些发现,研究团队提出了修订版的DMD重复分类流程(图4):

 – 对于有临床症状的患者,维持现有”串联假定”是合理的。

– 对于偶然检出的重复,应默认分类为VUS,而非直接判为致病。

– 尽可能使用长读长测序或FISH等技术明确结构:

* 确认为串联:应用PVS1/PM4标准评估阅读框影响

* 确认为分散:评估是否影响DMD或其他基因功能

 * 无法确定:结合家族史(如无症状男性亲属的携带状态)综合判断

图3 解读基因内DMD重复的建议决策树

Nature Plants项目文章|54.58Gb!蔡晶教授团队破解药用植物滇重楼“超大基因组”之谜!

8月1日,西北工业大学生态环境学院蔡晶教授团队联合中国科学院天津工业生物技术研究所江会锋研究员和云南农业大学杨生超教授团队在植物生态学领域的最新原创研究成果在《Nature Plants》(《自然-植物》)期刊发表。这是蔡晶教授继2023年11月在《Nature Genetics》发表葱属植物多样性演化的生态适应机制研究之后的又一重要研究成果。

 
基因组蕴含了不同生物适应各自生态环境的奥秘。因此,利用基因组为基础的多组学生物大数据,从基因和分子层面揭示生物多样性演化进程中生物与环境互作的生态适应机制,成为基因组学前沿技术推动生态学科创新发展的新方向。基因组大小与环境适应关系密切,一般认为大基因组的植物更加适合寒冷与弱光的环境。黑药花科植物因为科内物种基因组大小相差悬殊(超过20倍),成为研究植物基因组大小变化与生态适应的重要模型。

蔡晶教授团队专注于百合类单子叶植物中大量具有地下储存器官植物多样性演化的生态适应机制研究。近期在石蒜科葱属和黑药花科滇重楼两个类群中开展工作,致力于利用多组学大数据从形态发育、天然产物合成以及基因组大小演变三方面解析地下储存器官演化的分子机制。前期已经在葱属植物形态风味演化密切相关的球茎形态发育和蒜氨酸天然产物合成机制方面取得了重要进展。地下储存器官演化常常伴随基因组的增大。滇重楼地下茎作为多年生地下储存器官富含重楼皂苷等天然产物,具有悠久的药用历史,又具有超大基因组和超长染色体。破译滇重楼基因组既有助于理解地下储存器官演化的生态适应机制,更有助于解析重楼皂苷等天然产物生物合成通路,为利用细胞工厂高效生物合成重楼皂苷奠定重要基础。

本项研究中,研究团队经历7年攻关,成功解析了药用植物滇重楼54.58 Gb的超大基因组——相当于人类基因组的18倍!更令人惊叹的是,其最大染色体长度突破14 Gb,创下所有已知生物染色体长度的纪录。希望组为本研究提供了ONT及二代测序服务。

图1. 滇重楼植株及其与人类染色体核型对比

面对超大基因组组装的世界性难题,研究团队创新研发染色体组装策略(已获国家专利ZL202410969593.6),成功绘制出滇重楼五条巨型染色体图谱。通过Hi-C数据分析,研究团队首次发现这些”巨无霸”染色体在细胞两次分裂间的休息期(细胞分裂间期)仍保持独特的高阶螺旋结构,每圈螺旋长达250 Mb,颠覆了传统认知。

图2. 滇重楼染色体图谱与细胞分裂间期高阶螺旋模型

为了找到滇重楼基因组增大的幕后推手‌,研究团队解析其基因组增大的驱动机制与染色体稳定性的维持系统‌‌。对比同科植物兴安藜芦(基因组仅3.93Gb)发现,滇重楼基因组的增大与全基因组复制事件无关。相反,这种扩张是由占其基因组 96% 的转座子驱动的。其中78% 的转座子插入发生在 2900 万年前,Ty3/gypsy 和 Helitron 等基因组重复元件是扩张的主要驱动因素。同时滇重楼进化出三大“生存智慧”,包括DNA修复相关基因家族的显著扩充、5mC高甲基化沉默转座子的表观遗传调控、以及增强异染色质稳定性的组蛋白H2A.W亚家族的特异突变。

图3. 黑药花科植物全基因组复制历史

这项研究揭示了滇重楼超大基因组的演化和维持机制,为理解植物基因组大小差异和染色体结构多样性提供了新的视角。

在上述工作的基础上,研究团队进一步在葱属和重楼的泛基因组、天然产物合成通路、地下储存器官形态发育等方面开展深入研究,解析地下储存器官演化的生态适应机制,为生物多样性保护和利用提供重要理论基础和实践指导。

文章链接:https://doi.org/10.1038/s41477-025-02060-3

文章内容来源于:西北工业大学生态环境学院

季度回顾|希望组第二季度客户项目成果盘点

成果丰硕,步履不停! 随着2025年第二季度(4-6月)的结束,希望组非常荣幸助力客户发表了多篇文章,文章累计IF突破300+。本季度,客户在T2T基因组、高质量基因组、泛基因组、转录组学、线粒体基因组、微生物等取得显著成果。发表论文覆盖《Nature》《Science》《Nature Genetics》《Nature communications》等知名期刊!值此节点,就让我们跟随组学君的脚步,一同回顾这些突破性研究的精彩亮点吧!

01/T2T基因组
A telomere-to-telomere genome assembly coupled with multi-omic data provides insights into the evolution of hexaploid bread wheat

物种:六倍体小麦

发表期刊:Nature genetics (IF=31.7)

发表日期:2025.04

通讯作者:潍坊现代农业山东省实验室/北京大学现代农业研究院和小麦育种全国重点实验室的邓兴旺院士、何航研究员、李博生研究员为论文共同通讯作者。

希望组提供服务:部分超长测序服务

该研究首次成功绘制了六倍体小麦的端粒到端粒(T2T)完整基因组图谱。通过采用PacBio HiFi和ONT超长测序技术,结合Hi-C、Illumina和Bionano数据,通过混合组装策略,成功构建六倍体小麦(CS-IAAS)端粒到端粒(T2T)无缺口基因组。其大小为14.51 Gb,contig N50达到723.78 Mb,包含21条染色体、42个端粒和21个着丝粒。新组装版本CS-IAAS填补了CS RefSeq(v2.1)中565.66 Mb的缺口,包括着丝粒卫星序列(16.05%)、转座元件(68.66%)、rDNA阵列(0.75%)等。这一成果不仅深化了对小麦基因组结构和进化机制的理解,还为解析其他复杂多倍体作物基因组提供了范例。未来,依托这一高质量参考基因组,科学家将更精准地挖掘与产量、品质、抗病性相关的关键基因,为小麦品种改良带来革命性突破。

图1 六倍体小麦(CS-IAAS)完整基因组组装

Gap-free telomere-to-telomere assembly of the Mangifera persiciforma genome and its evolutionary insights on resistance

物种:天桃木

发表期刊:Plant Biotechnology Journal(IF=11.2)

发表日期:2025.05

通讯作者:广西大学李柏君副教授和谢亮助理教授为论文通讯共同作者

希望组提供服务:PacBio HiFi、ONT超长、Hi-C和RNA-seq测序服务

该研究首次绘制了天桃木(Mangifera persiciforma)无间隙端粒到端粒(T2T)基因组图谱,是杧果属植物中的首个T2T基因组。研究发现,基因家族的扩张与收缩与物种性状的增强或减弱密切相关,天桃木中扩张的基因家族主要与环境适应性通路相关,有利于植物对生物和非生物胁迫的抗性。此外发现TPS基因在天桃木进化过程中异常活跃,其扩张更倾向于通过近端复制和串联复制实现,而非全基因组复制。比较基因组分析发现天桃木有特有1009个基因,且主要富集在与植物-病原体互作相关的环境适应通路中。进一步通过组织特异性表达分析筛选出19个高表达基因,其中17个属于NLR基因家族。这些结果表明天桃木在进化和环境适应过程中的独特机制,也为芒果抗性育种提供了潜在靶点。

图2 天桃木T2T基因组解析

02/泛基因组
A pangenome reference of wild and cultivated rice

物种:水稻

发表期刊:Nature (IF=50.5)

发表日期:2025.04

通讯作者:中国科学院分子植物科学卓越创新中心韩斌院士和赵强研究员为论文共同通讯作者

希望组提供服务:部分ONT、HiFi及Hi-C测序服务

普通野生稻(Oryza rufipogon)作为亚洲栽培稻(Oryza sativa)的野生祖先,是水稻育种的重要资源。为了全面捕捉栽培稻和野生稻的固有遗传多样性,该研究首次完成了145份具有地理和遗传多样性材料(包含129份普通野生稻和16份栽培稻)的高精度基因组组装,绘制了迄今为止分辨率最高的“野生稻-栽培稻泛基因组图谱”。构建的泛基因组包含69,531个基因,其中发现13,728个为野生稻特有基因。研究发现相较栽培稻,野生稻蕴含丰富的抗病资源。群体结构分析表明,粳稻最早由中国南方Or-IIIa群体驯化,向东南亚扩散后与当地Or-Ia和Or-Ib杂交形成籼稻和aus稻,南亚栽培稻频繁杂交产生intro-indica(籼稻×aus稻),intro-indica与粳稻杂交形成basmati稻。这些结果强有力支持亚洲栽培稻单次驯化假说。该成果不仅为水稻基因组辅助育种提供了前所未有的遗传资源,为培育抗病耐逆、适应气候变化的优质水稻品种奠定了坚实的科学基础。

图3 149个代表性野生和栽培水稻品种及泛基因组构建分析

Pangenome analysis reveals structural variation associated with seed size and weight traits in peanut

物种:花生

发表期刊:Nature Genetics (IF=31.7)

发表日期:2025.04

通讯作者:河南农业大学殷冬梅教授、上海交通大学韦朝春教授和澳大利亚莫道克大学Rajeev K. Varshney院士为论文共同通讯作者

希望组提供服务:基因组denovo测序和组装注释服务

花生(Arachis hypogaea L.)作为一种重要的油料与经济作物,其种子大小和重量是驯化与育种的关键性状。该研究通过整合8个代表性品种高质量基因组及269份不同籽粒大小和重量的重测序数据,开展了全面泛基因组分析。研究鉴定出22,222个核心或软核心基因家族、22,232个分布基因家族和5,643个私有基因家族。发现A亚基因组SV频率高于B亚基因组,并鉴定出1,335个与驯化相关的SVs和190个与籽粒大小和重量相关的SVs。特别是挖掘出AhCKX6AhARF2-2基因的结构变异与籽粒重量和大小的关系,为未来花生基因组学辅助改良育种提供了理论基础和新思路。

图4 AhARF2-2负调控种子大小

03/高质量基因组
Genomic evidence for low genetic diversity but purging of strong deleterious variants in snow leopards

物种:雪豹

发表期刊: Genome Biology(IF=10.1)

发表日期:2025.04

通讯作者:中国科学院动物研究所胡义波研究员和中国科学院动物研究所/江西农业大学魏辅文院士为论文共同通讯作者

希望组提供服务:基因组denovo测序和分析服务

该研究基于Nanopore、Hi-C及Illumina测序技术成功构建了一只野生雌性雪豹的染色体级别基因组及52份野生雪豹全基因组数据进行全面的关于雪豹种群基因组学研究。研究发现全球雪豹可以划分为两个主要遗传谱系,即北部谱系和南部谱系,这一发现得到了生物地理学证据的支持。末次盛冰期促使两个谱系发生分化,而喜马拉雅山脉中段与西段间的微气候差异及大型河流很可能是维持谱系分化的关键因素。南方谱系中EPAS1 基因的两个错义突变在南部谱系中几乎固定,且等位基因频率随海拔升高而增加。与南方谱系相比,北方谱系表现出更低的基因组多样性,但近亲繁殖水平更高,遗传负荷也更重,这与其近期的种群数量下降一致。研究还发现雪豹具有极低的基因组多样性,其近交程度高于其他食肉目物种;但历史种群瓶颈和近亲繁殖过程有效清除了雪豹群体中的强有害突变,这可能是该物种种群存续的重要遗传机制,也为雪豹保提供了重要的理论基础。

图5 食肉目种间比较揭示雪豹低遗传多样性背景下的有害变异清除机制

Vitellogenin receptor mediates heat adaptability of oocyte development in mud crabs and zebrafish

物种:拟穴青蟹

发表期刊:Nature Communications(IF=14.7)

发表日期:2025.04

通讯作者:中山大学何建国教授和王牧骅副教授为论文共同通讯作者

希望组提供服务:NGS、ONT、Hi-C测序等服务

气候驱动的变暖影响着卵生变温动物的繁殖。然而,卵生变温动物是否具有卵黄发生的高温保护机制,以及该保护机制的遗传基础仍未可知。研究发现,在高温环境下,多数雌性拟穴青蟹能形成发育良好的卵巢,但少数个体会出现卵母细胞发育障碍。为探究青蟹卵母细胞发育的高温保护机制,该研究构建了该物种染色体级别基因组,并鉴定出卵黄蛋白原受体(VtgR)基因的一个增强子,该增强子能在高温条件下激活基因表达。异常个体因内含子缺失导致该增强子缺失,使得VtgR表达水平低下,最终造成这些个体在高温胁迫下卵黄发生异常。此外,研究在斑马鱼中也发现了类似的高温保护机制,破环斑马鱼卵黄蛋白原受体基因Lrp13会导致所有敲除个体在高温胁迫下卵黄发生异常。这项研究发现卵生变温动物也具有卵巢发育高温适应的遗传机制,这一发现对理解卵生变温动物如何适应气候变暖具有重大意义。

图6 VtgR介导拟穴青蟹的卵黄发生高温保护机制

04/转录组
Functional polymorphism of CYCLE underlies diapause variation in moths

物种:家蚕

发表期刊:Science(IF=44.7)

发表日期:2025.05

通讯作者:中国科学院分子植物科学卓越创新中心詹帅研究员为论文通讯作者

希望组提供服务:全长转录组测序服务

该研究以受温度诱导的兼性滞育品系(二化,bi-voltinism)和非滞育品系(多化,poly-voltinism)为亲本构建作图群体,将决定滞育变异的主效基因座定位在Z染色体末端。研究结合255个具有不同化性特征的家蚕品系进行全基因组关联分析(GWAS),进一步将关键变异位点定位在该区域内的核心生物钟基因Cycle(脊椎动物BMAL1的昆虫同源基因)的5′端。研究发现家蚕Cycle基因通过可变剪接编码3个亚型(Isoforms A-C);相较于滞育品系,非滞育品系在C亚型特异的N端外显子上存在1-bp的碱基缺失,导致该亚型发生整体性移码突变,但不影响其它亚型(A/B)的编码。通过开展基因编辑、生理生化实验、共表达网络分析、行为学实验等,研究人员证明CYC-C亚型可能作用于GABAergic-CRZ-DH信号通路调控家蚕滞育的环境诱导,而A/B亚型发挥CYC本身的昼夜节律调控功能。此外,研究人员还发现这些功能分化的CYC亚型以相对保守的形式普遍存在于鳞翅目昆虫中,并进一步在亚洲玉米螟(Ostrinia furnacalis)中验证了CYC-C对其幼虫滞育(主要受光周期诱导)的调控作用,从而提示了CYC-C对鳞翅目昆虫滞育调控的普适作用。该研究揭示的分子机制为基于遗传学手段打破滞育、高效利用资源昆虫,以及在全球变暖大背景下预测昆虫种群潜在动态变化等提供理论依据。

图7 生物钟基因Cycle通过不同亚型的功能多态性同时调控昼夜节律和季节节律

Isoform-resolution single-cell RNA sequencing reveals the transcriptional panorama of adult Baoshan pig testis cells

物种:猪

发表期刊:BMC Genomics(IF=3.5)

发表日期:2025.05

通讯作者:云南农业大学动物科学技术学院赵桂英教授和霍金龙教授为论文通讯作者

希望组提供服务:二代和三代单细胞测序服务

该研究通过整合Illumina和Nanopore单细胞RNA测序技术,绘制了保山猪睾丸单细胞全面的转录图谱。研究鉴定出9个显著不同的细胞群及确定了保山猪睾丸中精子发生过程中的6个明确发育阶段:精原细胞(SPG)、早期精母细胞(Early SPC)、晚期精母细胞(Late SPC)、球形精子细胞(RS)、长型精子细胞(ES)、成熟精子(Sperm)。研究鉴定出8条关键信号通路并发现六种生殖细胞类型之间存在显著通讯网络。此外,长读长测序技术进一步捕获了RNA转录本的完整性和多样性,其中约60%为新型异构体,且FSM异构体在转录本长度、编码序列长度、开放阅读框长度和外显子数量等方面均表现出优势。该研究为理解猪精子发生的分子机制提供了新的视角。有助于推动猪繁殖技术的发展,为提高保山猪的繁殖效率提供理论依据,对保护和利用这一珍贵的种质资源具有重要意义。

图8 保山猪睾丸组织细胞类型分析

参考文献

1. Liu S, Li K, Dai X, et al. A telomere-to-telomere genome assembly coupled with multi-omic data provides insights into the evolution of hexaploid bread wheat[J]. Nature Genetics, 2025: 1-13.

2. Wu J, Bao R X, Liu Y, et al. Gap‐free telomere‐to‐telomere assembly of the Mangifera persiciforma genome and its evolutionary insights on resistance[J]. Plant Biotechnology Journal, 2025.

3. Guo D, Li Y, Lu H, et al. A pangenome reference of wild and cultivated rice[J]. Nature, 2025: 1-10.

4. Zhao K, Xue H, Li G, et al. Pangenome analysis reveals structural variation associated with seed size and weight traits in peanut[J]. Nature genetics, 2025, 57(5): 1250-1261.

5. Yang L, Jin H, Yang Q, et al. Genomic evidence for low genetic diversity but purging of strong deleterious variants in snow leopards[J]. Genome Biology, 2025, 26(1): 94.

6. Zhang L, Wu K, Li H, et al. Vitellogenin receptor mediates heat adaptability of oocyte development in mud crabs and zebrafish[J]. Nature Communications, 2025, 16(1): 3722.

7. Zheng S, Wang Y, Li G, et al. Functional polymorphism of CYCLE underlies the diapause variation in moths[J]. Science, 2025, 388(6750): eado2129.

8. Lin W, Zhang X, Liu Z, et al. Isoform-resolution single-cell RNA sequencing reveals the transcriptional panorama of adult Baoshan pig testis cells[J]. BMC genomics, 2025, 26(1): 1-17.

Nature项目文章|重磅!韩斌院士团队绘制全球首个”野生-栽培稻精细泛基因组图谱”,破解水稻驯化之谜!

北京时间2025年4月16日,中国科学院分子植物科学卓越创新中心韩斌院士团队在国际权威学术期刊《自然》(Nature)上发表题为“A pangenome reference of wild and cultivated rice(野生和栽培稻精细泛基因组图谱)”的重大研究成果。该研究首次完成了145份亚洲栽培稻及普通野生稻的高精度基因组组装,绘制了迄今为止分辨率最高的“野生稻-栽培稻泛基因组图谱”,系统挖掘了普通野生稻广泛的遗传多样性,并全面解析了亚洲栽培稻各类群的进化及驯化路线。这项研究为水稻基因组辅助育种提供了前所未有的遗传资源,为培育抗病耐逆、适应气候变化的优质水稻品种奠定了坚实的科学基础。希望组参与部分ONT、HiFi及Hi-C测序服务。

研究背景
亚洲栽培稻(Oryza sativa L.)由普通野生稻祖先O. rufipogon驯化而来,是全球最重要的粮食作物之一。面对全球人口增长和环境变化带来的双重挑战,提高水稻产量至关重要。自粳稻和籼稻草图基因组及日本晴参考基因组发布以来,大量研究聚焦于栽培稻的基因组多样性。然而,传统单一参考基因组无法全面代表物种的遗传多样性,可能限制功能基因组学研究。泛基因组研究为解析遗传多样性、物种进化及品种改良提供了新视角。然而,当前泛基因组研究主要集中于栽培群体,对野生资源(尤其是O. rufipogon)的探索仍不足,而遗传和地理多样性丰富的O. rufipogon是改良现代水稻抗逆性和竞争性的关键基因库,因此,构建高质量、大规模的野生稻泛基因组对指导育种策略和解析驯化路径具有重要意义。
研究内容
01  149个水稻基因组的从头组装
为了全面捕捉栽培稻和野生稻的固有遗传多样性,该研究选取了149份代表性样本,其中包含145份具有地理和遗传多样性的材料(包含129份普通野生稻O. rufipogon和16份栽培稻O. sativa)(图1),以及重新鉴定的4份野生稻材料作为后续进化研究的外群。采用PacBio HiFi和ONT技术进行深度测序,通过多种策略对原始数据进行精细组装,获得的高质量基因组平均 N50为14.95 Mb,LAI指数为24.13,BUSCO完整性达98.55%。值得注意的是,将组装的基因组与以往研究及T2T组装基因组比较结果表明本研究的测序和组装方法的精确性。

此外,该研究结合Hi-C数据获得30个代表性物种染色体级别组装,与参考基因组共线性验证显示高度一致性,根据端粒重复序列,在每个基因组中平均检测到19个端粒。为更全面表征序列多样性,研究从133个HiFi基因组中捕获到替代组装(a-contig)序列。这些替代组装序列包含了主组装(p-contigs)中缺失的杂合信息。值得注意的是,栽培稻中替代组装序列的规模显著小于野生稻,反映了前者较低的杂合率。这些发现为理解驯化过程中基因组稳定性演变提供了新视角。也强调了在育种中利用野生稻杂合基因组资源的重要性。

02 基因注释与抗病基因分析
该研究对每个基因组进行了基因注释,平均注释到40,273个蛋白质编码基因。野生稻的基因组大小和基因数量均高于栽培稻,但其基因密度较低。在HiFi基因组组装中,通过对替代组装(a-contig)进行注释,鉴定出199至41,230个基因,其中获得了10,521个主组装(p-contigs)缺失基因(MIP genes)(图1)。此外发现替代组装其中57.26%为杂合等位基因,这些基因在根系、叶片等组织中呈现差异表达。

由于长期自然选择,野生稻对生物和非生物胁迫具有高度抗性,是天然的抗性等位基因库。因此,通过对野生稻与栽培稻中抗病基因类似物(RGAs)进行分析,研究发现野生稻含有1,710个抗性基因类似物(RGAs),显著高于栽培稻的1,652个。进一步通过共线性分析发现野生稻中具有638个特有RGA位点,其中包括一个野生稻RLK基因LOC_Os07g35680,该基因近期被报道为OsMADS26介导的稻瘟病负调控因子。另外在野生稻中鉴定出多个携带稻瘟病抗性基因Pi5的材料。这些结果表明,野生稻蕴含丰富的抗病资源,可作为培育高抗水稻品种的供体材料。

03 泛基因组构建与TE进化分析
该研究整合具有代表性的129份普通野生稻和16份亚洲栽培稻,构建了一个野生稻-栽培稻级别的泛基因组(pangenome)图谱。构建的泛基因组包含69,531个基因,其中发现13,728个为野生稻特有基因。这些特有基因主要参与防御响应和ADP结合过程。研究通过构建系统发育树将O. rufipogon进一步分为6个分支(Or-Ia、Or-Ib、Or-II、Or-IIIa、Or-IIIb和Or-unspecified)(图1),证实籼稻与Or-Ia、粳稻与Or-IIIa的密切关系,而Or-IIIb和Or-II与栽培品种的亲缘关系较远。为获得可扩展的全面遗传多样性,研究还构建了图形泛基因组,分别包含15个栽培稻、129个野生稻。图形泛基因组分析显示野生稻平均贡献29.72Mb非参考序列,远超栽培稻的17.47Mb。图形泛基因组在检测所有类型遗传变异方面比线性参考基因组更具优势。

图1 149个代表性野生和栽培水稻品种及泛基因组构建分析

通过对本研究所有样本及已发表33个栽培稻泛基因组中28份亚洲栽培稻的TE注释分析,发现野生稻平均TE含量(53.23%)略高于栽培稻(52.32%),这解释了野生稻基因密度较低的现象。Or-IIIa群体的TE含量显著高于其他群体,而粳稻的TE含量最低。转座元件(TE)进化分析表明,Gypsy家族在Or-IIIa群体中约2.5万年前经历显著扩张,相较粳稻基因组,17个关键Gypsy家族贡献了25.85Mb序列差异。在Or-IIIa中鉴定出约1,000个与扩张Gypsy家族相邻的基因,这些基因显著富集于碳水化合物和萜类代谢和细胞表面信号转导通路,暗示其在环境适应和抗病过程中发挥积极作用(图2)。

图2 野生和栽培水稻的基因组变异和TE组成分析

04 亚洲栽培稻的演化与驯化历程
亚洲栽培稻(O. sativa)的起源问题在学术界一直存在争议。为深入解析这一复杂问题,该研究通过群体结构分析表明粳稻和basmati稻起源于Or-IIIa群体,籼稻起源于Or-Ia群体,aus稻主要起源于南亚的Or-Ib群体。遗传多样性分析显示野生稻的核苷酸多样性显著高于栽培稻,Or-Ia与籼稻的基因组距离(FST和DST)明显小于其他栽培稻与其野生祖先的距离。基因流分析发现Or-Ia中存在约40 Mb的籼稻渗入片段,Or-unspecific群体可能是Or-II与籼稻杂交的产物。系统发育树揭示南亚存在一个特殊的籼稻分支,该分支与Or-Ib和aus稻聚为一类,被证实为籼稻与aus稻的杂交后代,这些发现为理解亚洲栽培稻复杂的演化和传播历史提供了新的分子证据。

图3 野生稻与栽培稻的种群结构及基因渗入分析

亚洲栽培稻的驯化模式一直存在单次驯化与多次独立驯化的学术争议。研究根据选择性清除分析鉴定出12.35Mb的驯化区域,成功捕获了水稻驯化早期关键基因,包括Bh4PROG1sh4FZP等11个已知驯化基因。这11个关键驯化基因的单倍型分析为早期驯化史提供了决定性证据。单倍型网络显示所有栽培稻中这些早期关的驯化基因均与Or-IIIa单倍型直接相关或通过粳稻单倍型间接关联,主要单倍型与最近Or-IIIa单倍型间的变异位点可能是驯化过程中的选择靶点。结合系谱分析将各驯化基因划分为驯化型和祖先型,其品种间分布模式印证了以下驯化路径:粳稻最早由中国南方Or-IIIa群体驯化,向东南亚扩散后与当地Or-Ia和Or-Ib杂交形成籼稻和

aus稻,南亚栽培稻频繁杂交产生intro-indica(籼稻×aus稻),intro-indica与粳稻杂交形成basmati稻(图4)。这些结果强有力支持亚洲栽培稻单次驯化假说。

图4 亚洲栽培水稻进化路线

05 籼稻与粳稻的遗传分化机制
作为亚洲栽培稻的两个主要亚种,籼稻与粳稻表现出显著的遗传分化。该研究基于籼稻和粳稻品种,分别鉴定出855,122个高度分化的SNP和13,853个分化PAV。通过对祖先群体中主要等位基因(频率≥60%)的分析,约77%的分化SNP和83%的分化PAV可用于追溯起源,其中60.75%的分化SNP在Or-IIIa(粳稻祖先)与Or-Ia(籼稻祖先)间已存在差异。粳稻偏好型占30.40%,籼稻偏好型仅2.43%。PAV分化也呈现类似分布模式,且粳稻偏好性更强。另外通过数量性状核苷酸(QTNs)分析发现49个分化QTNs中,51%源自祖先分化,37%为粳稻偏好型。这些结果反映了粳稻经历了更严重的遗传瓶颈,导致其保留更多祖先分化变异,积累更多功能突变,形成独特的表型特征。这些发现揭示了两个亚种分化的多层次机制:既保留了古老的群体分化痕迹,又通过差异化的驯化选择塑造了各自独特的农艺特性。粳稻更强的遗传瓶颈可能与其地理隔离和人工选择强度相关,这为理解亚种特异性状的形成提供了新视角。

图5 籼稻和粳稻之间的遗传差异

总结
这项研究构建了野生-栽培水稻泛基因组数据库,为解析水稻驯化历史和育种改良提供了重要资源。野生稻特有的基因库(如抗病和环境适应相关基因)可助力培育高产、抗逆新品种。未来通过结合野生稻表型研究和从头驯化技术,有望加速水稻育种进程,为应对气候变化下的粮食安全挑战提供了基因层面的解决方案。

中国科学院分子植物科学卓越创新中心韩斌院士和赵强研究员为本文共同通讯作者,博士研究生郭东灵和高级工程师李艳为本文共同第一作者。上海师范大学黄学教授也为该研究提供了大力支持。该研究受到国家自然科学基金、中国科学院先导专项和国家农业农村部重点研发项目的资助。

文章链接:

https://doi.org/10.1038/s41586-025-08883-6

NG项目文章|重磅!花生泛基因组破译”大籽粒”基因密码,提供花生高产育种新策略!

2025年4月28日,河南农业大学殷冬梅教授团队联合国内外多家单位在国际著名期刊《Nature Genetics》上发表了题为Pangenome analysis reveals structural variation associated with seed size and weight traits in peanut”的研究成果,该研究首次绘制了高质量花生泛基因组图谱,涵盖了2个二倍体野生种、2个四倍体野生种和4个四倍体栽培种。通过分析269份不同种子大小材料的重测序数据,鉴定出与种子性状相关的结构变异(SVs)。该研究为未来花生基因组学辅助改良育种提供了理论基础和新思路。希望组为本研究提供了基因组denovo测序和组装注释服务。

研究背景

花生(Arachis hypogaea L.)是重要的油料和食用豆类作物,栽培花生为异源四倍体,起源于二倍体野生种A. duranensis(AA)和A. ipaensis(BB)的杂交。在农业领域,其种子大小和重量是驯化和育种过程中的关键性状。尽管已有研究对花生相关基因进行了初步探索,但调控种子大小的分子机制仍不清楚,特别是花生基因组中针对结构变异(SVs)等的研究更为有限。此外,现有基因组存在大量空缺,且多倍体基因组的复杂性导致高质量基因组资源匮乏,深入挖掘基因组变异,获取覆盖不同花生种群的高质量基因组资源至关重要。因此,该研究通过开展泛基因组研究,整合多样个体的基因组数据,为理解物种的结构和功能多样性提供了全新视角。

结果与分析

01 269份种质的遗传多样性分析

为探究花生的遗传多样性及群体结构,该研究收集了269份花生种质(32份二倍体野生种、8份四倍体野生种、155份四倍体栽培地方品种、67份四倍体改良种质和7份未分类种质),覆盖广泛地理分布(图1)。通过将测序数据比对至参考基因组并进行变异检测,获得5,989,854个高质量SNPs。系统发育和主成分分析(PCA)显示,野生和栽培花生种质存在明显分化,在驯化过程中,花生种子大小和重量显著增加。此外,研究发现 A、B 亚基因组在遗传多样性和进化上存在差异,表明驯化过程中A、B亚基因组存在不对称性。ADMIXTURE群体结构分析显示,栽培花生可能直接起源于野生异源四倍体祖先(图1)。

图1 269个野生和栽培花生种质的遗传多样性

02 高质量泛基因组的构建

该研究选取8个具有不同荚果大小的代表性花生种质构建高质量泛基因组,包括2个已发表基因组和6个新测序基因组(1个AA二倍体野生种、2个AABB四倍体野生种、1个AABB四倍体地方品种和2个AABB四倍体改良种)。研究通过整合Nanopore超长、PacBio HiFi和Hi-C技术,采用NextDenovo和HiC-Pro方法对6个种质进行从头组装。新测序的 6 个品种基因组质量高,其连续性和完整性均优于已发表版本。

基于蛋白编码基因构建的花生泛基因组包含50,097个基因家族,其中核心基因家族功能富集于糖鞘脂合成和干细胞多能性调控通路,而私有基因家族富集于O-糖基化修饰通路。不同类型基因家族在染色体上的分布、基因长度、表达水平和功能富集等方面存在差异。此外,发现在超大型荚果品种ZP06的分布和私有基因家族中,NB-ARC结构域(与植物抗病相关)显著富集(图2)。

图2 花生的基因水平泛基因组分析

03 结构变异(SVs)对基因表达的影响

10-16%与基因区域重叠,15-30%位于基因上下游3,000 bp内,40-80% 与重复序列共定位,主要为长末端重复序列(LTR)。表达调控验证:在启动子和外显子区(而非下游区)的SV显著影响基因表达。该研究重点分析了具有最大荚果的表型极端材料ZP06,发现结构变异通过多种机制影响基因功能(图3),包括直接改变基因结构、调控表达水平等,进而参与产量和抗病性等重要农艺性状的形成。

3 结构变异和基因表达分析

04 驯化过程中与形状相关基因的选择清除分析

为解析基因组变异如何影响驯化过程中的基因功能,研究团队通过野生种与地方品种间的全基因组选择清除分析,发现不同染色体区域承受的选择压力存在显著差异。在改良种选育过程中,B亚基因组受选择区域是A亚基因组的2倍 。另外研究鉴定出1,335个与驯化相关SVs,这些变异涉及329个功能基因。其中A、B 亚基因组中与驯化相关的基因在功能上存在差异。同时研究还鉴定出19个与果实大小或抗病性等性状相关的基因,例如,CRK26基因中629 bp的缺失在野生种中更常见;NTF6(调控果实大小)和FBRL2(抗病相关)组成的串联单元在不同花生品种中存在拷贝数变异(图4)。这些结果为进一步研究花生驯化提供了重要线索。

图4 花生驯化过程中的全基因组选择事件

05 CKX6基因结构变异种子膨大

研究团队鉴定出117个与种子重量相关的SVs,通过SV-GWAS分析,在chr.3上定位到一个极显著SV位点,位于AhCKX6 基因的 3′ – UTR 区域。该基因编码细胞分裂素氧化酶 / 脱氢酶(CKX),参与细胞分裂调控。研究发现在大籽粒种质的AhCKX6基因3′-UTR区存在两段特异性插入,而在所有的61份野生种均缺失该插入,基于此,研究提出3′-UTR区的插入通过以下途径调控种子发育:降低AhCKX6基因表达水平,减少细胞分裂素降解,促进其积累,增强早期细胞分裂活性,最终导致种子体积增大(图5)。

图5 CKX6基因结构变异调控种子发育的分子机制

06 AhARF2-2基因负调控种子大小的分子机制

作为影响谷物产量的关键农艺性状,种子大小的遗传调控机制备受关注。研究鉴定出73个与种子大小显著相关的SVs。其中AhARF2-2基因的外显子SV与种子长度和百粒重显著相关。在超大籽粒品种ZP06中,AhARF2-2基因在第12外显子存在275 bp缺失和7 bp插入,导致AUX/IAA结构域丢失,功能改变。基于此,研究团队提出了AhARF2-2调控花生籽粒大小的分子模型:AhARF2-2通过C端AUX/IAA域与AhIAA13相互作用,生长素信号触发AhARF2-2释放并招募TPL抑制AhGRF5表达,进而影响种子大小。然而,在大籽粒品种中,AhARF2-2无法正常与AhIAA13和TPL相互作用,导致对AhGRF5的抑制减弱,从而促进种子膨大(图6)。

图6 AhARF2-2负调控种子大小

总 结

本研究通过整合8个高质量基因组及269份不同种子大小的花生种质重测序数据,成功构建了全面的花生泛基因组,全面解析了花生基因组变异,为花生种子大小和重量等关键农艺性状的遗传机制研究提供了重要资源,为分子育种提供了新靶点。

河南农业大学殷冬梅教授、上海交通大学韦朝春教授和澳大利亚莫道克大学Rajeev K. Varshney院士为论文共同通讯作者,河南农业大学青年教师赵昆昆、上海交通大学青年教师薛泓嶂和山东省农业科学院李国卫研究员为论文共同第一作者,张新友院士和万书波研究员对该项研究工作给予了指导和帮助。该研究得到了国家自然科学基金、国家重点研发计划、河南省重点科技攻关等项目的资助。殷冬梅教授领衔的河南农业大学花生功能基因组及分子设计育种创新团队,依托于河南省花生基因组与分子育种工程技术研究中心,主要从事花生基因组与功能基因挖掘,致力于揭示花生产量、品质和抗病性状形成的机制与调控途径研究。围绕花生种业“卡脖子”等重要科学问题开展工作,已在NatureGenetics、Advanced Science、Genome Biology、Plant Biotechnology Journal、New Phytologist等国际著名期刊上发表了120余篇学术性文章,取得多项原创性研究成果。

文章链接:https://doi.org/10.1038/s41588-025-02170-w

Genome Biology 项目文章| 范衡宇教授团队揭示ZAR1/2调控卵母细胞母源mRNA动态变化的新机制

2025年5月9日,浙江大学生命科学研究院范衡宇教授团队在Genome Biology杂志上发表了题为“ZAR1 and ZAR2 orchestrate the dynamics of maternal mRNA polyadenylation during mouse oocyte development”的研究论文。该研究联合Smart-seq2、Total RNA-seq、PAIso-seq2和LACE-seq四种近年来开发的、适用于低起始量样本的转录组检测技术,从mRNA稳定性和聚腺苷酸化状态两个维度重新探讨了卵母细胞在减数分裂过程中的转录本动态变化,并深入分析了ZAR1在母源转录组调控中的作用机制。希望组为本研究提供了PB转录组测序服务。

研究背景

在减数分裂期间,卵母细胞基因组会长时间处于转录沉默状态,直到合子基因组激活(ZGA)才重新启动。这一阶段,母源转录组的动态变化和稳态对母源-合子转换(MZT)至关重要。然而越来越多证据表明Smart-seq2(一种低输入量建库技术)检测到的母源转录组动态可能不够准确。其原因是该技术依赖oligo-d(T)引物捕获母源mRNA的poly(A)尾可能会引入偏差。

合子停滞蛋白1(ZAR1)及其同源蛋白ZAR2是RNA结合蛋白,对母源mRNA的稳定性调控具有重要作用。早期研究推测ZAR1促进减数分裂中母源mRNA的降解,而近期研究发现ZAR1参与线粒体相关核糖核蛋白域(MARDO)的组装,推测起到稳定母源mRNA的作用。因此关于RNA结合蛋白ZAR1的功能存在的差异也说明母源mRNA的调控机制仍需进一步阐明。

结果与分析

01 Smart-seq2检测的mRNA动态可能受多聚腺苷酸化偏差影响

在生发泡破裂(GVBD)后的减数分裂过程中,母源基因组转录保持沉默,多年来研究者观察到母源转录组逐渐减少的现象(图1)。这一时期发生降解的转录本对应的基因被称为O-decay基因。通过Smart-seq2和Smart-seq3测序结果显示,与GV期相比,MII期卵母细胞中有许多基因下调,而在差异基因表达中却存在许多上调基因(图1),这些结果显示通过Smart-seq2定义的O-decay基因可能存在偏差。为探究这一问题,该研究采用PAIso-seq2分析技术检测减数分裂过程中多聚腺苷酸化状态的变化,发现GV到MII期卵母细胞中,大部分转录本poly(A)尾明显缩短,这可能导致Smart-seq2无法准确检测短poly(A)尾的mRNA。

图1 Smart-seq2和PAIso-seq2检测母源mRNA动态变化

为规避Smart-seq2的系统偏差,该研究使用Total RNA-seq数据进行分析,结果显示Total RNA-seq检测到的母源转录组在减数分裂过程中的整体下调幅度显著低于Smart-seq2的结果,且鉴定的O-decay基因数量明显更少(图2)。对Total RNA-seq鉴定的O-decay基因进行了深入分析,发现O-decay基因的转录本主要在GV期卵母细胞中发生多聚腺苷酸化和翻译,在完成生物学功能后被有序降解。因此研究推测在减数分裂过程中,母源转录组经历的多聚腺苷酸化/去腺苷酸化修饰可能比实际降解更为显著。

2 Total RNA-seq检测母源mRNA动态变化

02 Zar1/2-/-导致GV期母源mRNA稳定性下降及多聚腺苷酸化异常

早期研究推测ZAR1促进减数分裂中母源mRNA的降解,而近期研究发现ZAR1参与线粒体相关核糖核蛋白域(MARDO)的组装。为阐明这一矛盾,研究采用总RNA-seq技术对Zar1/2-/-卵母细胞进行差异表达基因分析,结果检测到GV期母源mRNA显著下调,且Zar1/2-/-GV期下调基因中61.76%与正常GV→MII期应下调或持稳的基因相关,说明Zar1/2在GV期通过稳定mRNA维持其表达。

通过对Smart-seq2数据的重新分析,研究发现Zar1/2-/- MII期卵母细胞中仍存在大量RNA转录本的异常积累现象,这与总RNA-seq的检测结果存在显著差异。为验证这一差异,研究发现Zar1/2-/-卵母细胞中的多聚腺苷酸化过程可能发生紊乱,PAIso-seq2显示大量mRNA poly(A)尾长度异常,这些异常的poly(A)尾长度导致了Smart-seq2检测偏差。
 
03 ZAR1通过结合3’UTR稳定母源转录本

ZAR1作为RNA结合蛋白(RBP),通过其C端CxxC锌指结构域与母源转录本结合。基于这一分子特征,该研究深入探究了ZAR1的调控机制。LACE-seq定位到其靶向转录本,共鉴定8,000余个潜在靶标,其中Zar1/2-/-GV期下调基因中54.8%为ZAR1靶标。此外发现3’UTR结合基因的稳定性显著高于CDS结合基因,提示ZAR1通过3’UTR结合维持mRNA稳态(图3)。

图3 ZAR1通过与3‘UTR区域结合来稳定母体转录本

04 ZAR1间接调控多聚腺苷酸化并与蛋白互作

鉴于Zar1/2-/-卵母细胞中母源转录本多聚腺苷酸化显著异常,研究进一步分析了差异多聚腺苷酸化基因(DPGs)与ZAR1靶标的关系,分析发现ZAR1本身并不直接调控多聚腺苷酸化,ZAR1更倾向于影响mRNA稳定性,而非直接影响poly(A)尾长。研究通过IP-MS技术发现ZAR1与PABP家族、IGF2BP2等RNA稳定因子互作,提示ZAR1可能与其他蛋白质相互作用以调节母源转录组的稳态(图4)。

图4  ZAR1在卵母细胞发育过程中调控mRNA多聚腺苷酸化的工作模型

05 Zar1/2-/-导致MII期染色质压缩维持失败

Zar1/2-/-卵母细胞在MII期染色质压缩维持失败,出现纺锤体错位和类原核结构等现象,伴随关键母源基因(如Lsm14b、Ccnb1)表达异常,表明ZAR1在稳定这些基因中起作用,从而有助于维持卵母细胞处于MII期。

综上所述,该研究通过多组学联合分析,揭示了聚腺苷酸化状态在减数分裂过程中主导母源转录组动态变化的关键作用。研究进一步阐明了ZAR1在卵母细胞减数分裂成熟早期维持母源转录组稳定性,以及在成熟过程中协同其他蛋白调控母源转录本聚腺苷酸化状态的功能。该研究不仅为Smart-seq2技术在卵母细胞中的的适用性提供了参考,也为进一步探索ZAR1蛋白相关的MARDO在减数分裂过程中的作用机制提供了参考资源。
浙江大学生命科学研究院博士生吴雨珂为本文第一作者。广东省第二人民医院的苏瑞宝副研究员,已毕业博士生蒋知妍和吴韵雯,浙江大学医学院附属邵逸夫医院的戎妍副研究员,浙江大学医学院的嵇姝妍研究员,中国科学院遗传与发育研究所陆发隆研究员及其课题组成员博士生刘静雯和牛卓越,以及中国科学院生物物理研究所薛愿超研究员为该研究提供了大力帮助。该研究受到国家重点研发计划、国家自然科学基金以及浙江省自然科学基金项目的资助。

文章链接:https://doi.org/10.1186/s13059-025-03593-8

项目文章 |为何茶棍蓟马独爱茶树?中国科学家破译其基因组,揭示其对茶树高多酚环境的独特适应性!

2025年4月24日,中国农业科学院茶叶研究所李兆群团队在Pest Management Science期刊上在线发表题为“Chromosome-level genome assembly of Dendrothrips minowai and genomic analysis highlights distinct adaptations to high polyphenols in tea plants”的研究论文。该研究组装了茶棍蓟马染色体水平基因组,并分析揭示了其对茶树高多酚环境的独特适应性分子机制。希望组为本研究提供了测序组装分析等服务。

研究背景

蓟马是危害蔬菜、水果和茶叶等园艺作物的重要害虫,对相关产业构成重大挑战。其体型微小且隐蔽性强,难以在种群暴发前进行早期监测。快速的繁殖周期、高繁殖力及强抗药性进一步增加了防控难度。因此,深入了解蓟马的生物学、生态学、进化、竞争及宿主植物适应性,对制定有效管理策略至关重要。

茶棍蓟马(Dendrothrips minowaiPriesner)是一种关键的寡食性害虫,主要危害亚洲(尤其是中国)的茶树。成虫和若虫通过刺吸茶树嫩叶汁液,影响植株生长并降低茶叶品质与产量。近年来,高质量基因组组装与分析技术为揭示蓟马生物学特性及宿主适应的遗传机制提供了新视角。然而,茶棍蓟马基因组尚未解析,这限制了对高多酚环境适应机制的理解。

结果与分析

01 基因组测序与组装

蓟马是危害蔬菜、水果和茶叶等园艺作物的重要害虫,对相关产业构成重大挑战。其体型微小且隐蔽性强,难以在种群暴发前进行早期监测。快速的繁殖周期、高繁殖力及强抗药性进一步增加了防控难度。因此,深入了解蓟马的生物学、生态学、进化、竞争及宿主植物适应性,对制定有效管理策略至关重要。

茶棍蓟马(Dendrothrips minowaiPriesner)是一种关键的寡食性害虫,主要危害亚洲(尤其是中国)的茶树。成虫和若虫通过刺吸茶树嫩叶汁液,影响植株生长并降低茶叶品质与产量。近年来,高质量基因组组装与分析技术为揭示蓟马生物学特性及宿主适应的遗传机制提供了新视角。然而,茶棍蓟马基因组尚未解析,这限制了对高多酚环境适应机制的理解。

图1 茶棍蓟马基因组的特征

02 茶棍蓟马基因家族的进化分析

系统发育分析表明,蓟马在进化树上分为两支,其中7种蓟马聚为一支且亲缘关系较近。茶棍蓟马的分化时间(约1.032亿年前)早于其他已报道的蓟马物种。在茶棍蓟马基因组中,12个基因家族呈现扩张,172个基因家族呈现收缩(图2)。功能富集分析显示,扩张基因家族主要参与代谢过程、氧化还原酶活性和外源物生物降解与代谢等通路。

图2 茶棍蓟马与其他11种昆虫的进化和系统发育关系分析

03 茶棍蓟马的化学感应与解毒基因家族

由于宿主适应性常涉及宿主识别和宿主次生代谢物解毒,研究对茶棍蓟马中与化学感应及解毒相关的基因家族进行了分析,结果显示,茶棍蓟马拥有88个化学感应相关基因(包括42个味觉受体GR、22个嗅觉受体OR、10个离子型受体IR、1个化学感受蛋白CSP和13个气味结合蛋白OBP)以及187个解毒相关基因(包括90个细胞色素P450、62个ABC转运蛋白、7个羧酸酯酶CCE、13个尿苷二磷酸葡萄糖醛酸转移酶UGT和15个谷胱甘肽S转移酶GST)(表1)。与西花蓟马(F. occidentalis)和棕榈蓟马(T. palmi)等多食性物种相比,茶棍蓟马的GR、IR、OR和CSP基因数量较少,但OBP数量略多于西花蓟马。这一结果表明,化学感应基因(尤其是GR、IR和OR)的多样性与蓟马的宿主范围适应性呈正相关。
系统发育分析显示,多食性物种(如西花蓟马和棕榈蓟马)的GR基因和OR基因表现出扩张现象,特别是在与苦味物质和二氧化碳检测相关的亚谱系中(图3)。而茶棍蓟马则呈现收缩趋势。此外,西花蓟马的IR基因也发生扩张,但在茶棍蓟马中收缩。

在解毒基因方面,茶棍蓟马的GST基因家族规模比其他三种蓟马更小。值得注意的是,ABC转运蛋白的系统发育分析表明,茶棍蓟马中ABC转运蛋白家族(尤其是ABCG和ABCC亚家族)显著扩张,这可能是其适应茶树高多酚环境的关键机制。

图3 茶棍蓟马中化学感应和解毒相关基因系统发育树分析

综上所述,该研究通过对蓟马科寡食性茶棍蓟马(D. minowai)基因组进行测序、组装和注释,为解析其生物学特性与行为奠定了重要基础。比较基因组分析显示,茶棍蓟马在解毒代谢相关基因上存在全基因组范围的扩张,这为其适应茶树寄主提供了分子基础。从害虫防控角度来看,该基因组资源将显著促进基因编辑研究,为开发新型靶向杀虫剂及种群精准防控技术提供关键支撑。

文章链接:https://doi.org/10.1002/ps.8781

项目文章丨中国农业大学联合中国科学院遗传与发育生物学研究所完成中国春小麦基因组近完整组装,助力小麦育种与功能研究

2025年2月13日,中国农业大学农学院联合中国科学院遗传与发育生物学研究所在Molecular Plant在线发表了题为“Near-complete assembly and comprehensive annotation of the wheat Chinese Spring genome”的研究论文。该研究利用牛津纳米孔(ONT)超长读长、PacBio HiFi高精度测序及Hi-C技术,成功构建了中国春小麦基因组的近完整组装(CS-CAU),几乎填补了此前基因组中所有的空白区域,为小麦遗传改良和基础研究提供了关键资源。希望组为本研究提供了PacBio HiFi、Nanopore超长测序以及基因组的初步组装分析服务。

01
研究背景

小麦(Triticum aestivum L.)是全球最重要的粮食作物之一。由于其基因组庞大、高度重复且为异源六倍体,导致其完整组装长期面临挑战。2018年,国际小麦基因组测序联盟(IWGSC)发布了中国春小麦参考基因组(International Wheat Genome Sequencing, 2018),成为世界范围内小麦研究应用最为广泛的参考基因组。然而,尽管该基因组极大促进了小麦基因组学研究和育种改良,后续研究通过整合多组学数据对中国春参考基因组进行了连续更新和优化,同时科学家们陆续完成了多个小麦品种的高质量基因组组装(Jiao et al., 2025; Walkowiak et al., 2020; Zhu et al., 2021),这些基因组组装仍存在大量未解析的重复区域和复杂序列结构,这仍是当前小麦基因组学研究面临的重要挑战。

02
研究内容

本研究综合利用ONT超长读长测序(覆盖度283.56×)、PacBio HiFi高精度测序(29.01×)和Hi-C数据,实现了小麦中国春基因组的近完整组装(CS-CAU),其大小为14.46 Gb,碱基准确率大于99.9963%,仅剩290个组装间隙(主要为超长串联重复序列)。其中,1D、3D、4D、5D染色体首次实现无间隙组装,1D和5D染色体达到端粒到端粒(T2T)级别。这一突破不仅解决了小麦基因组重复序列高、多倍体复杂的组装难题,还为解析其他复杂作物基因组提供了范本。

图1. 中国春小麦基因组的近完整组装

基于近完整基因组组装,研究团队总共注释到151,405个高置信度基因,其中59,180个是新注释的基因,包括7,602个首次组装出的基因,这对小麦基因功能研究具有重要意义。通过整合RNA-seq数据集和跨物种蛋白同源性证据,首次完整解析了六类种子储藏蛋白(SSP)的基因组分布与表达特征。研究发现,ω-醇溶蛋白的表达完全由B亚基因组贡献,而其他五类SSP(α/γ-醇溶蛋白、ALP、HMW/LMW谷蛋白)的表达则主要由D亚基因组贡献,为进一步解析小麦面筋品质的遗传基础和分子改良提供了重要基础。

图2. 近完整中国春小麦的基因注释

除chr1B的着丝粒存在与超长GAA重复序列相关的间隙外,其余20条染色体的着丝粒序列也都全部组装完成。对着丝粒区序列组成进行分析表明着丝粒区域主要由逆转座子构成,其中A/B亚基因组着丝粒富含着丝粒相关反转录转座子CRW和Quinta(占比约70%),而D亚基因组着丝粒中只有30%的序列为CRW和Quinta。相似的是,串联重复序列在三个亚基因组间分布也存在高度的不均匀性,其中71.89%的简单串联重复(SSR)富集于B亚基因组,而接近一半的卫星序列(satellite)则集中于D亚基因组。此外,研究团队也对着丝粒区CRW和Quinta逆转座子的插入时间进行了解析,明确了其在三个亚基因组间的主要扩张时期。

图3. 着丝粒区域序列构成及CRWQuinta转座子的插入时间

中国农业大学农学院玉米改良中心陈建副教授、小麦研究中心孙其信院士、倪中福教授,中国科学院遗传与发育生物学研究所傅向东研究员、鲁非研究员为该论文的共同通讯作者。中国农业大学博士后王子健和博士研究生苗凌峰为论文共同第一作者。博士研究生谭凯文对该工作的推进有重要贡献。玉米改良中心赖锦盛教授、辛蓓蓓副教授,小麦研究中心郭伟龙教授,中国农业科学院作物科学研究所贾继增研究员,澳大利亚墨尔本大学Rudi Appels教授对该工作进行了指导和帮助。该工作得到了国家重点研发计划、国家自然科学基金项目、“拼多多-中国农业大学研究基金”、新基石研究员项目和中国农业大学2115人才培育发展支持计划的资助。

原文链接:https://doi.org/10.1016/j.molp.2025.02.002

CS-CAU基因组下载路径:https://www.ncbi.nlm.nih.gov/nuccore/JBJQUP000000000.1

 
参考文献:
International Wheat Genome Sequencing, C. (2018). Shifting the limits in wheat research and breeding using a fully annotated reference genome. Science 36110.1126/science.aar7191.
Jiao, C., Xie, X., Hao, C., Chen, L., Xie, Y., Garg, V., Zhao, L., Wang, Z., Zhang, Y., Li, T., et al. (2025). Pan-genome bridges wheat structural variations with habitat and breeding. Nature 637:384-393. 10.1038/s41586-024-08277-0.
Walkowiak, S., Gao, L., Monat, C., Haberer, G., Kassa, M.T., Brinton, J., Ramirez-Gonzalez, R.H., Kolodziej, M.C., Delorean, E., Thambugala, D., et al. (2020). Multiple wheat genomes reveal global variation in modern breeding. Nature 588:277-283. 10.1038/s41586-020-2961-x.
Zhu, T., Wang, L., Rimbert, H., Rodriguez, J.C., Deal, K.R., De Oliveira, R., Choulet, F., Keeble-Gagnere, G., Tibbits, J., Rogers, J., et al. (2021). Optical maps refine the bread wheat Triticum aestivum cv. Chinese Spring genome assembly. Plant J 107:303-314. 10.1111/tpj.15289.

Science报道丨西湖大学俞晓春团队解析迄今最完整小鼠基因组图谱

当读到“产生一条多肽链或功能RNA所需的全部核苷酸序列”的科学定义时,多数人都会露出一头雾水的表情。但当听到“生命之书、生命的密码、生命的钥匙、遗传的蓝图”的比拟时,大家都会下意识报出:这是DNA!

对于生命而言,DNA的重要性不言而喻。它既支撑生命的构造和性能,也储存着个体生长、孕育、凋亡“从生到死”的全部相关信息。正因如此,着眼于健康与疾病的谜题,人类不仅需要翻开、阅读这本生命之书,也亟需“读完”它——

北京时间2024年12月6日凌晨,《科学》Science)杂志在线发表了西湖大学生命科学学院、西湖实验室俞晓春团队最新成果“完整的端粒到端粒小鼠参考基因组序列(The complete telomere-to-telomere sequence of a mouse genome)”,报道了该团队在解析小鼠参考基因组方面取得的重要突破。这意味着人类历史上第一次看清小鼠基因组DNA全貌。

论文截图

原文链接:
https://www.science.org/doi/10.1126/science.adq8191

PART.01

现在,请用上一些想象力,一起走入基因组DNA的殿堂,造访大自然塑造的“生命密码”。

想象你的面前出现了一座汗牛充栋的图书馆,这是隶属于某个人类同胞的一个细胞核。你步入其中,看到了几十排标注着“染色体”的书架。你随机选了一个架子,抽出了几本书,发现书的封面上都写着“DNA”。接着,你翻到其中一本的目录页,上面指示了“本书共含有X个基因”。你随意浏览了不同基因的章节,意识到这些篇章仅由四个字母构成——A、T、C、G——这些叫作“碱基”的字母不断变换顺序、排列组合,最终写完了全书……

很好,现在你已经了解了基因组DNA的基本面貌。

正如开头所述,如果我们想获得一个生命体的所有遗传信息,就需要知晓全部基因组DNA的情况,这意味着要阅读完所有染色体“书架”上的DNA之书,知道这些书的每一个字母,即A/T/C/G是如何排列的。关注生物体所有DNA(即整个基因组)的科学,就是基因组学。迄今,基因组学领域的一个重要研究目标,正是获得完整的、精确的基因组序列,这对于我们理解基因组的结构和功能至关重要。

PART.02

事实上,读取这些碱基字母排序的过程,正是“大名鼎鼎”的基因组DNA测序。

1977年,弗雷德里克·桑格发明了第一代测序技术,特点是只能测试一个基因的某个部分,最多一个基因。本世纪初,第二代测序技术问世,它克服了前一代的缺点,一次能读取成千上万的短DNA片段,因此也被称作高通量测序技术;但它依然存在症结:能读取的DNA片段过短,通常在100-300个碱基对(bp)之间。2010年左右,第三代测序技术诞生,实现了对每一条DNA分子的单独测序;换句话说,现在我们能够读取较长的DNA片段了,可以达到10-50千碱基对(kb,1kb=1000bp)甚至更长。

由于人类基因组包含大约30亿个碱基对,能够读取更长片段的第三代基因测序技术的出现,为科学家破解完整的人类基因图谱的进程按下加速键。2022年3月31日,《科学》发表文章报道了名为“端粒到端粒联盟”的国际科学团队,完成了第一个完整的、无间隙的人类基因组序列,填补了2003年“人类基因组计划”遗留下的8%尚未读取的基因区域。

在大洋彼岸的中国浙江杭州的西湖大学,俞晓春实验室当时的博后、现在的助理研究员李麒麟及时关注到了这条新闻。这令这个团队感到无比振奋,因为他们日常“打交道”的小鼠身上,正存在相似的瓶颈。目前小鼠的基因“档案”中,最完整的是参考基因组GRCm39,同样也存在约7~8%未被解析的区域。

西湖大学生命科学学院科研副院长、西湖实验室科研副主任俞晓春教授长期致力于DNA损伤修复机制和癌症发生发展的研究;简单来说,就是DNA受损引发的癌症的诊断、检测与治疗。而小鼠,是生命科学研究中最常见的实验动物和模式生物,这是因为许多生物实验不宜在人体内进行,因此,小鼠的基因组DNA信息直接关系到人类健康的探索。也正因如此,人类对小鼠基因组DNA的认知与这个团队的研究密切相关。

既然人类的“基因拼图”已完成,想必小鼠的“拼图”也胜利在望了?令他们没想到的是,这一等就是一年。

PART.03

亲自做基因测序,对俞晓春实验室来说,实属一个“无心插柳柳成荫”的课题:直到2023年4月,他们都在等待两家资金雄厚、早已对外宣布下场的美国与英国科研机构做完并发布小鼠的完整基因组DNA图谱。

为什么他们如此关心小鼠这尚缺的7%-8%序列?这是因为,这些未知的基因组DNA里或许隐藏着一些至今无法解释的遗传性疾病的谜底。

这些“空白”尤其存在于异染色质和核糖体DNA(rDNA)区域。这些区域富含重复的基因序列,即一些反复出现的,看似近乎一模一样、但实则有细微区别的片段——你可以想象为许多块极其相似的拼图。二代基因测序技术仅能测出其中的一段(且由二代技术完成的小鼠基因组图谱中还有错误),对完整的排序序列“束手无策”;而三代技术可以“完全看清”。

时至2023年的春天,迟迟不见欧美的实验室发布“大新闻”,这个实验室最终决定自己动手拼完这幅小鼠基因组“拼图”。“(全球)剩下的人一直在等,但我们不想等了。”俞晓春回忆说。

PART.04

这个诞生于意外的课题,研究过程相当顺利,历时一年就完成了。

简单来讲,俞晓春团队综合了众多三代基因测序技术,让它们互相补足,开发了一把能够充分挖掘小鼠基因的“金铲子”。他们以最常用的小鼠C57BL/6的单倍体胚胎干细胞(mhaESC)为样本,进行了基因测序和组装,获得了长度为2.77 Gbp(表示十亿个碱基对)的完整的高质量小鼠参考基因组序列,其中包含215.23 Mbp(表示一百万个碱基对)先前未被鉴定的序列,填补了约7.7%的基因组空白。

mhaESC基因组与先前参考基因组的共线性比对结果

如果你对他们基因组DNA “拼图”的步骤感兴趣,这个流程大致是这样的:第一步,测序技术把所有拼图(即片段)上的图案(即碱基对)读完;接着,计算机对这些信息进行数据处理;最后,复杂算法会完成“拼装”(即基因组组装),形成完整的全貌。这个过程涉及到了PacBio HiFi、Oxford Nanopore超长、Illumina短读长、Hi-C和BioNano光学图谱等多项基因测序技术。

那么,这些研究人员具体取得了哪些关于小鼠基因的新发现呢?

首先,发现了新的蛋白质编码基因。顾名思义,这些基因的作用是编码对应的蛋白质。与先前的参考基因组版本相比,本研究额外注释了639个蛋白质编码基因,其中先前未被发现的全新的蛋白质编码基因有140个(这是因为639个基因中部分为已知基因的“重复”拷贝)。这些新的蛋白质编码基因可能参与多种生物学过程,为未来的研究提供了新的方向。

第二,较精确地“看清”核糖体DNA的基因序列。核糖体是细胞内的“蛋白质工厂”,负责合成蛋白质。核糖体DNA是细胞中的一种特殊DNA,它专门负责编码核糖体的RNA(rRNA)——一种核糖体的重要组成部分,帮助核糖体合成蛋白。用简洁的比拟来说,核糖体DNA给出了细胞内rRNA的“蓝图”。这个发现为进一步解析核糖体潜在的蛋白质翻译功能的差异性提供参考。

第三,解析了着丝粒区域的基因序列详情。着丝粒是染色体上的一个特殊区域,帮助染色体在细胞分裂时,将遗传物质平均分配到两个新的细胞中。本研究的结果显示,小鼠各染色体之间的着丝粒长度具有明显差异,且序列内部富含转座元件和片段重复(SD),同时还有散在的基因分布,表明该区域可能会进行活跃的转录和转座事件,驱动着丝粒区域进行适应性改变等行为。对着丝粒区域的解析,有助于理解因着丝粒功能缺陷导致的染色体重排、非整倍性等相关疾病的发病机制。

PART.05

让我们总结一下。从科学意义上来说,俞晓春实验室的这项研究,通过综合“长读长”第三代测序技术成功完成了小鼠基因组的端粒到端粒组装,填补了现有参考基因组中的空白区域,揭示了新的基因和结构变异,“拼完”了小鼠基因组图谱的“拼图”。这些发现不仅提高了对小鼠基因组结构和功能的理解,也为基因组学研究提供了重要的技术参考和数据资源。

在这项研究中,两位一作作者,分别发挥了科研所长,刘俊丽助理研究员负责湿实验及论文图片,李麒麟助理研究员负责干实验及文稿;通讯作者俞晓春教授负责“掌舵”课题的大方向以及论文的完善。

“你们在研究过程中遇到最大的难点是什么?”这个问题竟然有朝一日成为了实验室“答不上来”的问题。正如前文所言,这个课题进展势如破竹,投稿过程也十分顺利。

但要在科研的疆域取得成果,并非一日之功。这项研究的顺利开展,既得益于俞晓春自在美国密歇根大学医学院内科系成为独立PI后,对染色体近20年的研究积累;同时,也与两位一作作者历经过的、作为一名科研工作者的磨炼与自我调整息息相关。

刘俊丽,是西湖实验室第一批“开拓学者”之一,曾在科研的路途上迷茫过、也曾经历过gap的时光,但她最终选择加入俞晓春实验室,尽管那意味着要完全改变研究方向,需要从“0”开始。如今,她分享说:“做科研,任何一个方向都有研究意义。我觉得实验取得的任何结果都能带给我快乐,这是为什么我要坚持做科研的原因。”

如果说这个课题有一个发起人,那非李麒麟莫属:他是俞晓春团队第一个注意到人类基因组序列完成的人。出于对遗传学和基因组学的兴趣,他从大学本科直至在美国做博后阶段都专注于生物信息学。李麒麟说:“但我发现做纯数据并不能对实际情况有很好的了解,所以最后我选择了俞老师的实验室,这里有湿实验的实时结果给出反馈,这样我再去做数据分析,研究能更好地开展。”

当然,俞晓春实验室剑指的始终并不是小鼠基因组真容本身,而是希望利用这把“基因组之铲”探索遗传性癌症、发育性疾病未解的致病机理。“支线”的故事已完成,接下来,让我们一起静待这个实验室的“主线”诞生更多助力人类攻克顽疾的成果。

西湖实验室助理研究员刘俊丽博士和李麒麟博士为本文的共同第一作者,西湖大学生命科学学院科研副院长、西湖实验室科研副主任俞晓春教授为通讯作者。本研究得到国家自然科学基金、浙江省自然科学基金、浙江省“尖兵”&“领雁”项目、杭州市领军型创新创业团队、西湖教育基金会和西湖实验室提供的经费支持,同时感谢西湖大学生物医学实验技术中心、实验动物中心及高性能计算中心等平台的支持。

The Innovation署名项目文章|迄今为止全球首个、规模空前的植物超大基因组——兰州百合基因组(36.68 Gb)

2024年10月24日,南京农业大学园艺学院滕年军教授团队、薛佳宇副教授团队,华中农业大学园艺林学学院宁国贵教授团队与福建农林大学明瑞光教授团队等国内10多家科研团队联合公布了百合高质量染色体级别基因组,成为世界上首个正式报道的最大植物基因组。相关文章“The evolutionary tale of lilies: Giant genomes derived from transposon insertions and polyploidization”发表在《The Innovation》期刊。希望组为本研究提供了基因组测序、组装注释服务,其中生信总监孙宗毅有幸作为署名作者深入参与该大基因组的组装注释流程工作。

基因组存储了一个物种的完整遗传信息,是理解其生物学特性和进化历程的关键。自然界中,不同生物的基因组揭示了生命之树上基因组大小的巨大差异,其中一些植物拥有超大的基因组。然而,这些超大基因组的起源和形成机制却不尽相同。

百合(Lilium L.)是单子叶百合目百合科多年生植物,因其极高的观赏、食用与药用价值而备受关注。本研究利用Nanopore、Illumina和Hi-C测序技术,以及优化的组装方法,获得了36.68 Gb的兰州百合(Lilium davidii var. unicolor)超大型基因组,并解析了其形成机制和特征,也揭示了鳞茎营养物质积累的遗传基础。这一成果标志着百合的分子研究进入新时代,也是植物基因组学的重要突破性研究进展之一。论文的主要研究内容具体如下:

1.  超大基因组的染色体水平组装

流式细胞实验和K-mer分析预估兰州百合基因组的预估大小分别为38.01 Gb和37.62 Gb,杂合率为2.18%。细胞核型分析显示其为二倍体,具有12对巨型染色体。结合Nanopore、Illumina和Hi-C数据,成功组装得到36.68 Gb的基因组,Scaffold N50为2.86 Gb,96.99%的序列被挂载到12条染色体上(图1A)。注释87,501个蛋白编码基因,其中功能注释比率为89.54%。评估结果显示兰州百合的基因组的高完整性、准确性和连续性。

2. 超大型基因组的形成原因

影响基因组大小的主要因素包括重复序列的积累和基因组多倍化。兰州百合基因组中,重复序列占比高达88.31%,其中长末端重复反转录转座子(LTR-RTs)占64.40%。分析显示,兰州百合的LTR-RT在近五百万年以来发生急剧扩张,其中Copia类的扩张约一百六十五万年前达到高峰,Gypsy类的扩张则在约八十九万年前达到峰值;在更细分的亚类型层面,Athila、Retand、Tekay和Tork等亚类获得了特异性的快速扩张(图1C),这些亚类对异染色质区域有偏好,抑制重组,降低LTR-RT去除率,从而造成短时间内LTR-RT的海量插入且无法去除,形成了兰州百合超大的巨型基因组(图1B)。

全基因组复制也是基因组扩张的潜在原因。Ks分布图显示百合经历了两轮全基因组复制事件,与金钱蒲、芦笋等植物的共线性分析支持了这一推断(图1D)。基于核基因的系统发育分析,将百合置于天门冬目的姊妹群,两者分化于七千二百万年前(图1E)。基于此系统框架,尽管近缘的洋葱和大蒜都额外多经历了两轮全基因组复制,它们的基因组却不到兰州百合的一半大,表明百合在进化过程中展现出与它们不同的模式。

3. 超长基因的形成及其表达规律

兰州百合基因组中的长基因非常常见,其平均长度为57.61 Kb,而长度超过50 Kb的基因(定义为“超长基因”)占33.88%。然而兰州百合基因编码序列的平均长度仅为847.17 bp,与其他物种的编码序列长度并无显著差别,提示我们其长内含子才是形成超长基因的主要原因。对基因表达模式的分析发现,基因长度与表达水平显著相关,但趋势却是变化的:短于50 Kb的基因表达水平随基因长度变长而持续上升,而长于50 Kb的基因则表达持续下降(图1F)。我们推测50 Kb可能是限制基因转录或内含子剪接效率的转折点,这种表达变化尚未在其他物种中见到,可能为百合独有的特征。

4. 鳞茎发育的碳水化合物代谢

鳞茎是百合的重要营养储存器官,东亚地区被广泛用作药物和食品。为阐明其发育过程中的营养积累及机制,我们对不同发育阶段的鳞茎样本进行了多组学分析。结果显示,淀粉和蔗糖在发育过程中不断积累(图1G),转录组分析发现糖酵解代谢途径中的基因高表达,且具有器官特异性。此外,检测到870种代谢物,表明代谢产物多样性。代谢组与转录组的相关性分析显示碳水化合物代谢物与特定基因表达模块显著关联(图1H)。

图 1 百合基因组和多组学分析

南京农业大学为该论文的第一署名单位和通讯单位,南京农业大学钟山青年研究员徐素娟博士、已毕业硕士张心祺、吴玉峰教授,华中农业大学博士生陈润洲以及上海市农科院杨柳燕研究员为论文的共同第一作者;南京农业大学滕年军教授、薛佳宇副教授,华中农业大学宁国贵教授以及福建农林大学明瑞光教授为论文共同通讯作者;北京林业大学、海南大学、云南大学、扬州大学、山西农业大学、沈阳农业大学、北京农学院、甘肃农业大学、甘肃农科院、湖南农科院、长江师范学院、武汉希望组生物科技有限公司、江苏省栖霞百合科技小院等单位20多位合作者参与了本研究。本研究得到了国家重点研发计划(2019YFD1000400)、江苏省种业振兴揭榜挂帅项目(JBGS〔2021〕093)等资助和南京农业大学生物信息学中心高性能计算平台的支持。

在成功组装了诸如落叶松(10.97 Gb)、苏铁(10.5 Gb)及异源六倍体燕麦(10.76 Gb)等大型植物基因组之后,希望组协助南京农业大学等单位完成了迄今为止全球首个、最大植物基因组——兰州百合基因组(36.68 Gb)的组装工作,积累了超大基因组组装的经验。我们诚挚邀请您携手并进,共同揭开下一个超大基因组的神秘面纱,深入探索并解析生命的宏伟蓝图。

原文链接:https://www.sciencedirect.com/science/article/pii/S2666675824001644