Nature Genetics署名文章 | 康乐院士团队揭秘飞蝗超大基因组背后的染色质动态调控机制

 
2025年9月1日,中国科学院动物研究所,康乐院士团队,在国际期刊《nature genetics》上,发表了题为”Chromatin dynamics of a large-sized genome provides insights into polyphenism and X0 dosage compensation of locusts”的最新研究论文。本研究完成了沙漠蝗和飞蝗的染色体级别的基因组组装,以及飞蝗的染色质结构全景注释。基于高质量的基因组,本研究系统解码了飞蝗的染色质修饰,在飞蝗型变和X0型基因表达调控中的重要作用,为理解大型基因组的调控复杂性和害虫防治提供了新视角。希望组提供了飞蝗和沙漠蝗的denovo测序组装注释服务,其中多名生信分析师有幸作为署名作者深入参与该大基因组的组装注释工作。
PART.01
研究背景
 

飞蝗(Locusta migratoria)具有6.9 Gb的基因组,是昆虫中大型基因组的典型代表,具有明显的密度依赖型表型可塑性和X0性别决定系统。表型可塑性是指具有相同基因型或基因组的生物体,根据环境变化改变其表型的能力,这是蝗虫的一个明显的表观生物学特征。环境的变化会促使蝗虫从散居到群居的行为转变,最终产生破坏性的蝗灾。因此,飞蝗的两型转变过程中的行为差异,是蝗灾爆发的主要原因。现有研究表明,飞蝗的群聚型行为的发生,由编码多巴胺生物合成途径中最关键酶的Henna基因决定。与果蝇等小基因组昆虫相比,飞蝗的 Henna 基因总长度增加了32倍,这主要归因于其内含子的极度扩张。因此,Henna基因是研究染色质在昆虫表型可塑性调控中作用的独特案例,特别是在扩张的内含子区域方面。

1. 飞蝗的染色体级别基因组组装

本研究采用长读长测序、光学图谱和染色体构象捕获(Hi-C)技术,对一只杂合度为1.58%的雌性飞蝗进行了基因组测序,组装版本为LMv3.1。通过Hoechst染色,成功鉴定出雌蝗中第三长的scaffold为X染色体。其在雌性中的测序覆盖度与常染色体相当,且在雄性中的覆盖度约为雌性的一半,符合X0性别决定系统的特征。LMv3.1组装版本具有很高的连续性,显著提升了转座元件(TEs)注释的完整性,并通过FISH实验验证了染色体末端结构的完整性。结合RNA表达和同源数据,预测了18,127个蛋白编码基因。与旧版本(LMv2.4)相比,新组装的全长转录本映射率更高,表明其能更准确地覆盖转录本结构。基因组质量的显著提升为深入研究蝗虫的表观基因组调控机制提供了坚实基础。

图1 飞蝗染色体级别基因组组装

2. 大基因组中内含子增强子数量的增加

本研究通过综合运用CUT&Tag(针对13种组蛋白修饰)、ATAC-seq、TSS-seq和链特异性RNA-seq等多种高通量测序技术对脑组织染色质结构进行了多维解析。研究发现蝗虫的内含子长度显著长于其他昆虫,并且这种内含子的扩展与内含子中增强子(特别是染色质状态E5和E7)数量的增加显著相关。尽管基因长度本身的变化对基因表达水平没有显著影响,但研究发现内含子中的增强子元件对基因表达有重要提升作用,因为含有内含子增强子的长基因其表达显著高于不含此类增强子的长基因。增强子数量的增加与基因组大小的扩张共同作用,可能是在基因长度差异巨大的背景下,维持蝗虫基因表达均衡的重要机制。

图2 长基因与短基因的增强子数量差异

3. 内含子增强子在行为可塑性中的调控作用

本研究以蝗虫行为多型性为例,深入探讨了大基因组中表观遗传调控的机制。研究发现,群居与散居蝗虫大脑中存在显著的组蛋白修饰差异和基因表达谱变化,这些差异涉及行为调控、信号转导等重要通路。关键发现包括:H3K4me3/H3K27ac在启动子区的正相关以及H3K4me1/H3K27me3在远端区域的负相关分别调控了基因的启动和增强子活性;并进一步鉴定出Trl、Sp1和Clamp等转录调控因子可能在此过程中发挥核心作用。研究尤为重要的是,以多巴胺合成关键基因Henna为例,发现其内含子区域存在的增强子EH1(富含H3K4me1)与启动子存在三维空间互作;通过CRISPR敲除实验证实,破坏EH1会显著降低Henna表达并使群居蝗虫行为向散居型转变,这揭示了大型基因的内含子中存在的增强子通过染色质空间互作调控基因表达,是影响蝗虫行为可塑性的重要机制。

图3 蝗虫两型转变过程中染色质重塑

4. X染色体在减数分裂期间的染色质变化

本研究发现,在蝗虫(具有X0性别决定系统)的体细胞(如大脑和腿肌)中,通过特定的表观遗传调控(如H4K16ac富集),使得单条X染色体的基因表达水平与常染色体达到相当,实现了两性间的表达平衡;然而在性腺(精巢)中,由于减数分裂性染色体失活(MSCI)的存在,X染色体表达显著降低(X/A比值~0.5),这种平衡被打破。研究进一步通过Hi-C和DNA FISH等技术揭示,失活的X染色体表现出更高的长程染色质互作频率、更压缩的高阶结构以及更远离转录活跃核中心(如核斑)的空间位置,这些独特的染色质构象特征与其基因沉默状态相关。这表明蝗虫在其大基因组背景下,采用了一种依赖于染色质高级结构组织和组蛋白修饰(如H4K16ac)的独特剂量补偿机制来调控X染色体活性,该机制在体细胞和性腺中存在显著差异。

图4 减数分裂沉默中X染色体的全局互作与染色质重塑

5. 体细胞中X染色体的剂量补偿

本研究发现,在蝗虫的体细胞(如大脑和腿肌)中,存在完全的剂量补偿效应,即雄性(X0)单条X染色体的基因表达水平通过特定的表观遗传调控(如H4K16ac富集和H4K20me1缺失)得以提升,使其与雌性(XX)两条X染色体的总表达量以及常染色体基因的表达水平相当;同时,研究通过转录组分析证实,雌性蝗虫的X连锁基因表达并非通过随机失活一条X染色体(如哺乳动物的X染色体失活),而是通过双等位基因同时表达来实现的,并且这一结论在排除A-to-I RNA编辑的潜在干扰后依然成立。这揭示了蝗虫在其大基因组背景下,采用了一种依赖于独特组蛋白修饰的剂量补偿机制以及双等位基因表达模式来协调性染色体基因剂量差异。

图5 体细胞中X染色体的平衡表达

6. X连锁基因易位的剂量补偿滞后

本研究发现,在飞蝗的演化过程中,其X染色体通过广泛的染色体重排和基因易位形成。研究比较了飞蝗、沙漠蝗、菱蝗和蚤蝼的基因组,并将X连锁基因分为不同演化时期的类别。关键发现在于,近期才从常染色体易位到X染色体上的基因,其剂量补偿机制的建立存在滞后性:表现为抑制性组蛋白修饰H4K20me1的缺失不充分,而激活型修饰H4K16ac的富集程度又低于古老的X连锁基因,导致其剂量补偿不完全。相比之下,古老的常转X基因经历了更充分的适应性进化(dN/dS比率更高)并积累了更丰富的组蛋白修饰。研究还指出,性拮抗选择是推动某些对雌性有益(可能对雄性有害)的基因向X染色体易位的重要动力,这有助于在精子发生过程中通过减数分裂性染色体失活来抑制这些基因,从而提高雄性适应度。总之,该研究揭示了X染色体上新易位基因的剂量补偿机制需要时间逐步建立和完善,展现了剂量补偿系统的动态演化过程。

图6 源自常染色体的X连锁基因的剂量补偿转换

PART.02
总 结
 

本研究基于基于高质量基因组的表观基因组图谱,深入揭示了蝗虫大基因组非编码区域(“暗物质”)的独特染色质调控特征。主要发现包括:1)基因组扩张伴随内含子区域增强子数量增加,其中增强子EH1被证实是调控蝗虫群居与散居行为可塑性的关键元件,且可能为蝗虫所特有;2)蝗虫在X0性别决定系统中演化出一种距离依赖性的剂量补偿机制,即通过H4K16ac的富集和H4K20me1的缺失来维持雄性体细胞X染色体表达平衡,但其效应在基因间区随距离增加而减弱,形成独特的嵌合式修饰模式,这与果蝇中均匀分布的模式显著不同;3)近期易位至X染色体的基因其剂量补偿机制的建立存在进化滞后性,表现为H4K16ac富集不足和H4K20me1缺失不充分,暗示大基因组中表观修饰信号的扩散效率受限,剂量补偿的重定位需要时间逐步完成。这些发现凸显了广阔的非编码区域为大基因组提供了独特的调控景观,其动态的表观遗传修饰是复杂生命现象的重要基础。

MBE |华中农业大学和崖州湾国家实验室联合多家国内外单位从泛基因组水平解析SV对世界牛品种选育提高的关键作用

牛作为全球重要的家畜物种,在满足高品质肉类需求、环境生态平衡及民族稳定方面发挥重要作用。但在牛基因组育种中,长期依赖单一个体基因组为参考开展工作,严重限制了牛重要经济性状解析和应用,并且之前的研究多仅从SNP的角度开展分析,这导致牛基因组上许多重要的遗传信息功能处于未知状态。泛基因组是一个物种所有基因组信息的集合,以其为参考可以更加完整有效的解释牛经济性状的多样性。SV是基因组上长度在50bp到5Mb的大片段序列变异,被认为是造成个体间基因组差异和泛基因组多样性的重要因素,也是从泛基因组水平解析变异和表型之间调控关系的重要媒介。

2025年8月19日,华中农业大学和崖州湾国家实验室联合美国农业部科技局、丹麦奥胡斯大学、浙江大学海南研究院、西北农林科技大学、吉林农业大学等多家国内外单位在Molecular Biology and Evolution (MBE, IF5年=11.9)杂志上发表题为“Global pangenome analysis highlights the critical role of structural variants in cattle improvement and identifies a unique event as a novel enhancer in IGFBP7⁺ cells”的论文。该论文从泛基因组水平对世界~2400头牛82个品种的SNP和SV变异同时开展检测,构建了目前最大的牛泛基因组SNP+SV变异图集和填充参考面板,通过多组学整合分析和多方验证凸显了 SV 在塑造遗传多样性中的独特且不可替代的作用,为适应、选育及牛群改良策略提供了全新见解。
 
01
图形泛基因组构建和基因组变异检测
 

本研究收集了82个品种2409头牛的WGS数据集,侧重全球主要血统的多样性,并补充了以往研究代表性不足的种群。根据牛的地理起源和分类,这些牛可分为13个不同的种群,并且这些牛在经济表型(如产奶量、体重、体高)和气候适应性方面表现出实质性的差异,代表了全球牛种群广泛的遗传多样性。

所有样本首先以ARS-UCD1.2作为参考基因组,鉴定出28,088,254个SNP(MAF≥0.01)。然后通过整合23个牛基因组和92,518个先前报道的SVs构建了牛的图形泛基因组,并以此为参考基因组,鉴定出152,199个SVs,其中包括75,774个新的SVs。与参考基因组相比,新得到24.51Mb的序列。

图1 泛基因组构建和变异检测分析流程图

 
02
SV与SNP一样能有效解析牛种群结构
 
为了阐明牛种群之间的进化关系,本研究分别基于SNP和SV开展了PCA、聚类分析、admixture分析和基因漂变分析,并对结果进行了两者的比较,发现除admixture分析获得的结果存在一些差异外,其他分析的群体分类结论高度一致。在admixture分析中,当 K=6 时,尽管 SV 没有像 SNP 那样把西欧与中南欧的普通牛分开,但它们仍能准确描绘其它牛品种的关系,识别出欧洲的普通牛、东北亚的普通牛、非洲的普通牛,以及华北和非洲的瘤牛。无论基于 SNP 还是 SV 的基因漂变分析均显示,中国和非洲的牛群均受到欧洲牛的影响,同时各自区域内部也存在基因流动。

图2 基于SNP和SV开展admixture分析

03
基于SNP的欧洲牛选择信号可指导未经选育的牛群基因组改良
 

数百年来,欧洲改良牛品种针对产肉与产奶性能进行了系统而定向的选育,与欧洲其它普通牛相比,这些改良品种在 SNP 和 SV 水平均表现出更慢的连锁不平衡(LD)衰减,并拥有更长的纯合片段(ROH)。根据育种方向与体型大小,将牛群分为奶牛、中小型肉牛、大型肉牛三类,基于SNP 数据,结合 Fst、XP-CLR与 XP-EHH 三种方法,在上述三类群体间共鉴定出 223、237、223 和 273 个互不重叠的受选择区段。将这些区段的染色体位置与公共数据库中的牛 QTL比对后发现:奶牛与所有肉牛的比较中,显著窗口富集乳成分相关 QTL,而两类肉牛之间的比较中,则富集肉用与胴体性状 QTL。

用欧洲肉牛与奶牛间 Fst 分析的前 1% SNP 做 PCA 时,PC1 轴上中国与非洲牛均位于欧洲肉牛与奶牛之间。这提示中、非牛群尚未经历针对乳用或肉用的定向选育,即其控制产肉、产奶的关键变异尚未受到选择压力。例如,位于 SLC24A2(chr8:24 555 356,奶牛钙通道活性)、ASIP(chr13:63 667 387,中小型肉牛脂肪沉积)、MYL6(chr5:57 162 869)及 MYL6B(chr5:57 161 801,大型肉牛肌肉发育)的 SNP,在中、非牛群中的等位基因频率均与欧洲选育群体处于相反极端。这意味着欧洲改良肉牛/奶牛的候选选择信号可为中国与非洲牛的定向育种提供靶点。

图3 肉牛和奶牛SNP选择信号鉴定

04
近期的SV突变为欧洲肉牛与奶牛的改良提供了超越 SNP 的遗传变异来源
 

通过对欧洲改良肉牛与奶牛群体间所有比较采用前 1% 阈值的 FST 统计,共检测到2,423 个受选择的 SV 信号。值得注意的是,SV 所揭示的基因中,有 32.80% 至 60.12% 在使用相同阈值的 SNP 分析中未被捕获;与此同时,约 95% 的受选择 SNP 信号也无法被 SV 标记。例如,SNP 检测到的 ASIP、MYL6 和 MYL6B 等基因在 SV 层面并未被发现。尽管如此,受选择 SV 所影响的注释基因在功能上同样富集于与候选 SNP 相似的通路。显著受选择的 SV 区域同样富集于与产奶量及肉用、胴体性状相关的 QTL。这证实了 SV 与 SNP 同等重要,并且能够解释 SNP 无法单独捕捉的表型变异。

此外,本研究将那些距离 ≤1 Mb 且与任何 SNP 的 r²<0.6 的SV 定义为“孤立 SV”(orphan SV),而能被至少一个 SNP 标记(r²≥0.6)的SV占比仅59.86%。在区分奶牛与所有肉牛的受选择 SV 信号中,观察到一处排名最高的孤立 SV(chr2:56,290,045–56,298,615),位于 LRP1B 基因(低密度脂蛋白相关蛋白 1B,已被确定为影响乳脂沉积的候选基因)的内含子区域。该孤立 SV 为一个完整的 L1_BT 序列(超过一半受选择 SV 与基因组中的移动元件插入(MEI)重叠,牛特异性的 MEI——包括L1_BT(43.51%)、BovB(13.25%)和 BovA2(10.32%)——是构成受选择 SV 信号的主要来源),这一 SV 插入仅见于普通牛(taurine)。群体变异分析进一步提示,该 L1_BT 插入可能发生在欧洲普通牛与其他普通牛群体分化之后。混合模型分析显示,中国西北普通牛及华中杂交牛在该位点的 SV 变异可能源自欧洲普通牛的基因渗入。因此,推测这一孤立 SV 代表了近期在欧洲普通牛群体中发生的 L1_BT 插入事件,引入了能够调控 LRP1B 表达的功能元件,从而影响乳脂沉积。在随后的选择过程中,该突变在奶牛与肉牛间发生了分化。

图 4 受选择SV信号的筛选

05
SNP 与 SV 的受选择信号共同解析了欧洲牛引入热带地区后所面临的适应性挑战

欧洲牛在输入华南和非洲时,首要挑战是环境适应性——包括对高温与疾病的耐受力。通过选择信号扫描分析,在欧洲普通牛与华南/非洲瘤牛之间共发现 25 743 个SNP和 2 081 个 SV呈现显著受选择,共有 30 个基因被显著受选择的 SNP 与 SV 同时注释。比较了与基因重叠的全部 SNP 与 SV 的 FST 值,发现 30 个受选择基因中有 7 个的最高 FST 值由 SV 贡献;其中 4 个基因(BBS9、ABHD12、CD300A、GHR)的 SV 直接改变了功能元件的序列结构,包括预备增强子、活性元件、活性转录起始位点及多梳抑制区。为验证这 4 个受选择 SV 是否影响基因表达,通过比较 CattleGTEx 中 7 105 头普通牛与 490 头瘤牛在 8 种不同组织中的基因表达水平,发现这 4 个基因在普通牛与瘤牛的多组织间均存在广泛差异表达,提示某些 SV 在受选择区段可能起主导作用。

非洲普通牛能够在炎热潮湿环境中繁衍生息,可能源于趋同进化,并得益于与瘤牛的杂交。在非洲普通牛与其他普通牛之间共有的 926 个强选择(FST > 0.3)SV 信号中,许多 SV 在非洲普通牛与非洲瘤牛之间频率相似,却与其他普通牛差异显著。值得注意的是,这些选择信号中的孤立 SV 在非洲普通牛中多呈中等频率,而在其他牛群中频率极低甚至缺失。此外,这些孤立 SV还覆盖了与耐热/耐寒、抗病/免疫等功能相关的基因,为其适应当地环境提供了有利帮助。

 图5 非洲普通牛 vs. 欧洲普通牛,以及非洲瘤牛 vs. 欧洲普通牛的 SV 选择信号曼哈顿图

06
SV 在调控 IGFBP7⁺ 脂肪细胞生成中发挥主导作用

在本研究中,有一个 SV(chr6:72,419,812–72,422,015)在欧洲改良牛及多个地域牛群中均呈显著受选择状态:其在中小型肉牛(MS beef)中的出现频率显著高于脂肪沉积能力较低的大型肉牛和奶牛,并且随着牛群分布由寒带向热带推进,其出现频率逐渐降低。该 SV 位于脂质积累关键基因 IGFBP7 的第一个内含子,其选择特征与中小型肉牛的能量代谢性状及耐寒/耐热适应性高度一致。进一步利用 PCR 和 IGV 软件验证了 这个SV 的存在,序列比对显示其为一段高度分化的 L1_BT 部分序列。MEME 扫描发现 SV 序列包含多个基序,其中 GGRRGAGGGAG 基序显著富集于参与糖脂代谢和生长因子活性的转录因子。

为探究其功能,本研究从不同SV 基因型牛只分离原代脂肪细胞并进行单细胞 RNA 测序,发现一个小细胞簇(Cluster 18)特异性高表达 IGFBP7。双荧光素酶报告实验证实该 SV 序列具有显著增强子活性。进一步比较发现,SV(-) 牛只 Cluster 18 细胞中的 IGFBP7 表达水平显著低于 SV(+) 牛只,提示该 SV 作为增强子调控 Cluster 18 细胞中的 IGFBP7 表达。

IGFBP7 是一种分泌蛋白,可通过结合细胞膜受体调控邻近细胞。具体而言,IGFBP7 能与 IGF-1 受体结合并阻断胰岛素样生长因子的激活。IGFBP7⁺细胞与其他细胞类型间的差异表达基因显著富集于生物调控、细胞过程调控、刺激应答及细胞通讯等通路。既往研究亦表明某些基质细胞群可调控脂肪生成,支持 IGFBP7⁺细胞可能作为调控细胞的假设。诱导成脂实验显示,SV(-) 牛只脂肪组织分离的原代脂肪细胞脂质积累能力显著高于 SV(+) 牛只。因此,本研究提出如下机制假设:该 SV 作为增强子上调 Cluster 18 细胞中的 IGFBP7 表达,促使 IGFBP7 分泌至细胞外基质;分泌型 IGFBP7 通过与 IGF1R 受体相互作用调控脂质积累,可能经由影响葡萄糖摄取实现。

图6 IGFBP7 位点 SV 的功能分析及其调控脂肪沉积的潜在机制

总结与亮点
• 对比分析证明了SV不仅可以像SNP一样有效的解释世界牛品种的群体结构,还能独立调控重要经济性状,近40%的SV不能被SNP标记,暗示其可能会揭示SNP不能定位的经济性状相关基因和无法解释的重要机制。• 通过解析欧洲培育专门化牛品种与经济性状相关的变异位点/基因及其对我国和非洲本土牛品种选育的指导作用,发现了大量与牛经济性状相关,但不能被SNP标记的重要候选SV位点及其靶基因。• 证明了SNP和SV可以共同解释世界不同地域牛品种的表型和适应性差异,重点分析了当欧洲培育品种牛引进到我国及非洲优秀种源稀缺地区所面临的与适应性相关基因组遗传信息。

• 针对与欧洲牛选育和适应性同时相关的SV展开分析,揭示了该SV序列可以作为增强子调控IGFBP7表达影响能量代谢的机制,明确了该SV位点在欧洲牛定向选育和世界牛品种地域适应性中发挥的重要作用,为我国牛基因组育种提供了重要的候选靶标。

该论文突出了SV相较SNP独立对世界牛品种经济性状形成和适应性的重要调控作用,率先提出了“Orphan SV”的概念,为我国牛基因组育种提供了重要的候选变异位点/基因数据集,对重拾丢失遗传力,实现精准高效育种具有重要意义。

全文链接如下:https://academic.oup.com/mbe/advance-article-abstract/doi/10.1093/molbev/msaf205/8238201?utm_source=advanceaccess&utm_campaign=mbe&utm_medium=email 

华中农业大学博士研究生戴守露、浙江大学海南研究院赵鹏举副研究员、华中农业大学毕业硕士李文浩、崖州湾国家实验室博士研究生彭玲伟为论文共同第一作者;华中农业大学/崖州湾国家实验室周扬、美国农业部George Liu、丹麦奥胡斯大学房灵昭为论文共同通讯作者,华中农业大学杨利国教授、吉林农业大学/崖州湾国家实验室吕文发教授、西北农林科技大学蓝贤勇教授为本项工作开展提供了重要支持和帮助。该项研究受国家STI2030、国家自然科学基金、湖北省支持种业高质量发展项目及崖州湾国家实验室项目支持。

重新审视DMD基因重复变异的致病性–长读长测序揭示高频率非串联重复

DMD基因检测的现状与挑战
杜氏肌营养不良症(Duchenne Muscular Dystrophy, DMD)是一种X连锁隐性遗传病,主要影响男性患者。患儿通常在3-5岁开始出现症状,10-12岁丧失行走能力,20岁左右需要呼吸机支持,平均寿命仅约30岁。5-24岁男性中的患病率为1.38/10,000,而女性携带者频率高达1/1,374。鉴于其严重性和相对较高的携带率,美国医学遗传学与基因组学学会(ACMG)建议对所有孕前或孕期女性进行DMD携带者筛查。

DMD基因作为人类最大的基因之一,包含79个外显子,其变异类型复杂多样。其中,基因内重复(intragenic duplication)是重要的致病机制,约占DMD病例的5%-20%。这些重复变异可以大致分为两类:串联重复(tandem duplication)和分散重复(interspersed duplication)。前者是指重复片段直接连接在原位点旁,通常会导致阅读框移位和蛋白质功能丧失;后者则是重复片段插入到基因组其他位置,可能保持原有阅读框的完整性。

常规技术如多重连接依赖性探针扩增(MLPA)、染色体微阵列分析(CMA)和短读长二代测序(NGS)虽然能检测到拷贝数变异,却无法区分重复的具体结构。按照现行指南,当无法确定重复结构时,默认假定为串联重复并归类为”可能致病”或”致病”。这种”串联假定”(tandem presumption)在临床症状明确的患者中或许合理,但在无症状的携带者筛查中是否适用?

研究方法
ONT长读长全基因组测序

选了15例携带DMD基因内重复的患者样本,采用牛津纳米孔技术(Oxford Nanopore Technologies, ONT)进行高覆盖度的全基因组长读长测序。

研究样本分为两组:

1. 临床指征组(4例)

包括确诊的DMD男性患者、有家族史的女性携带者,以及持续肌酸激酶升高的个体。

2. 偶然检出组(11例)

通过携带者筛查(5例)或其他非DMD相关检测(如先天性心脏病、自闭症、发育迟缓等,6例)发现DMD重复的无症状个体。

研究团队还开发了专门的生物信息学工具DMDuper,用于自动分析长读长数据,识别重复断点,区分串联和分散重复。该工具首先通过软剪切(soft-clipped)读段识别断点区域,然后进行单体型组装,最后通过比对参考基因组确定重复结构。

研究结果

在临床指征组中,所有4例患者的DMD重复均确认为串联结构(图1A-D),重复的长度从15kb到278kb不等,包含的exon数量从单个外显子到多个外显子不等。

偶然检出组的结果

– 仅36%(4/11)为串联重复(图1E-H),这些病例被确认为真正的携带状态。

– 高达64%(7/11)实际上是分散重复(图2-3),其中:

– 4例被重新分类为”可能良性”(DMD-9、10、14、15)

– 2例为”可能致病”(DMD-11、13)

– 1例因信息不足保留为”意义未明”(DMD-12)

图1  8例串联内基因DMD重复病例。 蓝色区域表示重复片段。箭头表示基因组片段的方向。  (A–D)具有个人或家族性肌营养不良症病史的病例。(E–H)偶然检测到重复片段的病例。

图2 4例由共重复事件表征的分散型DMD基因内重复。

这些分散重复展现出惊人的结构复杂性:

共重复现象(co-duplication)

在DMD-9至DMD-12中,DMD外显子的重复伴随着X染色体短臂其他区域的共重复。例如:

– DMD-9:88kb的DMD外显子49-50与135kb的远端非编码区共重复,插入到基因间区域,不影响任何基因功能(图2B)。

– DMD-10:284kb的DMD外显子50-55与包含PHEX和CBLL2基因的295kb区域共重复,插入到原基因位点附近(图2C)。

– DMD-11:77kb的DMD外显子63-67与PPP2R3B基因部分共重复,但这次插入到了DMD基因内部,可能破坏阅读框(图2D)。
复杂重排

– DMD-13显示了一个特别复杂的模式:除了微阵列检测到的两个重复区域(外显子3-9和45-48)外,长读长测序还发现了一个27bp的内含子重复。这些片段以倒位和正向混合的方式插入到DMD基因内。

– DMD-14中,外显子5-7的重复片段倒位插入到X染色体长臂87.2Mb远处,同时伴随109kb的RHOXF2B/RHOXF1基因缺失。

– DMD-15则更奇特,外显子3-4的重复片段插入到了9号染色体的9q12高重复区域。

这些发现表明,DMD基因的重复变异远比传统认知的复杂。更值得注意的是,某些外显子组合(如45-51、56-61)既出现在致病的串联重复中,也出现在良性的分散重复中,这意味着单纯依靠外显子内容无法预测致病性。
新的分类框架建议

基于这些发现,研究团队提出了修订版的DMD重复分类流程(图4):

 – 对于有临床症状的患者,维持现有”串联假定”是合理的。

– 对于偶然检出的重复,应默认分类为VUS,而非直接判为致病。

– 尽可能使用长读长测序或FISH等技术明确结构:

* 确认为串联:应用PVS1/PM4标准评估阅读框影响

* 确认为分散:评估是否影响DMD或其他基因功能

 * 无法确定:结合家族史(如无症状男性亲属的携带状态)综合判断

图3 解读基因内DMD重复的建议决策树

Nature Plants项目文章|54.58Gb!蔡晶教授团队破解药用植物滇重楼“超大基因组”之谜!

8月1日,西北工业大学生态环境学院蔡晶教授团队联合中国科学院天津工业生物技术研究所江会锋研究员和云南农业大学杨生超教授团队在植物生态学领域的最新原创研究成果在《Nature Plants》(《自然-植物》)期刊发表。这是蔡晶教授继2023年11月在《Nature Genetics》发表葱属植物多样性演化的生态适应机制研究之后的又一重要研究成果。

 
基因组蕴含了不同生物适应各自生态环境的奥秘。因此,利用基因组为基础的多组学生物大数据,从基因和分子层面揭示生物多样性演化进程中生物与环境互作的生态适应机制,成为基因组学前沿技术推动生态学科创新发展的新方向。基因组大小与环境适应关系密切,一般认为大基因组的植物更加适合寒冷与弱光的环境。黑药花科植物因为科内物种基因组大小相差悬殊(超过20倍),成为研究植物基因组大小变化与生态适应的重要模型。

蔡晶教授团队专注于百合类单子叶植物中大量具有地下储存器官植物多样性演化的生态适应机制研究。近期在石蒜科葱属和黑药花科滇重楼两个类群中开展工作,致力于利用多组学大数据从形态发育、天然产物合成以及基因组大小演变三方面解析地下储存器官演化的分子机制。前期已经在葱属植物形态风味演化密切相关的球茎形态发育和蒜氨酸天然产物合成机制方面取得了重要进展。地下储存器官演化常常伴随基因组的增大。滇重楼地下茎作为多年生地下储存器官富含重楼皂苷等天然产物,具有悠久的药用历史,又具有超大基因组和超长染色体。破译滇重楼基因组既有助于理解地下储存器官演化的生态适应机制,更有助于解析重楼皂苷等天然产物生物合成通路,为利用细胞工厂高效生物合成重楼皂苷奠定重要基础。

本项研究中,研究团队经历7年攻关,成功解析了药用植物滇重楼54.58 Gb的超大基因组——相当于人类基因组的18倍!更令人惊叹的是,其最大染色体长度突破14 Gb,创下所有已知生物染色体长度的纪录。希望组为本研究提供了ONT及二代测序服务。

图1. 滇重楼植株及其与人类染色体核型对比

面对超大基因组组装的世界性难题,研究团队创新研发染色体组装策略(已获国家专利ZL202410969593.6),成功绘制出滇重楼五条巨型染色体图谱。通过Hi-C数据分析,研究团队首次发现这些”巨无霸”染色体在细胞两次分裂间的休息期(细胞分裂间期)仍保持独特的高阶螺旋结构,每圈螺旋长达250 Mb,颠覆了传统认知。

图2. 滇重楼染色体图谱与细胞分裂间期高阶螺旋模型

为了找到滇重楼基因组增大的幕后推手‌,研究团队解析其基因组增大的驱动机制与染色体稳定性的维持系统‌‌。对比同科植物兴安藜芦(基因组仅3.93Gb)发现,滇重楼基因组的增大与全基因组复制事件无关。相反,这种扩张是由占其基因组 96% 的转座子驱动的。其中78% 的转座子插入发生在 2900 万年前,Ty3/gypsy 和 Helitron 等基因组重复元件是扩张的主要驱动因素。同时滇重楼进化出三大“生存智慧”,包括DNA修复相关基因家族的显著扩充、5mC高甲基化沉默转座子的表观遗传调控、以及增强异染色质稳定性的组蛋白H2A.W亚家族的特异突变。

图3. 黑药花科植物全基因组复制历史

这项研究揭示了滇重楼超大基因组的演化和维持机制,为理解植物基因组大小差异和染色体结构多样性提供了新的视角。

在上述工作的基础上,研究团队进一步在葱属和重楼的泛基因组、天然产物合成通路、地下储存器官形态发育等方面开展深入研究,解析地下储存器官演化的生态适应机制,为生物多样性保护和利用提供重要理论基础和实践指导。

文章链接:https://doi.org/10.1038/s41477-025-02060-3

文章内容来源于:西北工业大学生态环境学院

季度回顾|希望组第二季度客户项目成果盘点

成果丰硕,步履不停! 随着2025年第二季度(4-6月)的结束,希望组非常荣幸助力客户发表了多篇文章,文章累计IF突破300+。本季度,客户在T2T基因组、高质量基因组、泛基因组、转录组学、线粒体基因组、微生物等取得显著成果。发表论文覆盖《Nature》《Science》《Nature Genetics》《Nature communications》等知名期刊!值此节点,就让我们跟随组学君的脚步,一同回顾这些突破性研究的精彩亮点吧!

01/T2T基因组
A telomere-to-telomere genome assembly coupled with multi-omic data provides insights into the evolution of hexaploid bread wheat

物种:六倍体小麦

发表期刊:Nature genetics (IF=31.7)

发表日期:2025.04

通讯作者:潍坊现代农业山东省实验室/北京大学现代农业研究院和小麦育种全国重点实验室的邓兴旺院士、何航研究员、李博生研究员为论文共同通讯作者。

希望组提供服务:部分超长测序服务

该研究首次成功绘制了六倍体小麦的端粒到端粒(T2T)完整基因组图谱。通过采用PacBio HiFi和ONT超长测序技术,结合Hi-C、Illumina和Bionano数据,通过混合组装策略,成功构建六倍体小麦(CS-IAAS)端粒到端粒(T2T)无缺口基因组。其大小为14.51 Gb,contig N50达到723.78 Mb,包含21条染色体、42个端粒和21个着丝粒。新组装版本CS-IAAS填补了CS RefSeq(v2.1)中565.66 Mb的缺口,包括着丝粒卫星序列(16.05%)、转座元件(68.66%)、rDNA阵列(0.75%)等。这一成果不仅深化了对小麦基因组结构和进化机制的理解,还为解析其他复杂多倍体作物基因组提供了范例。未来,依托这一高质量参考基因组,科学家将更精准地挖掘与产量、品质、抗病性相关的关键基因,为小麦品种改良带来革命性突破。

图1 六倍体小麦(CS-IAAS)完整基因组组装

Gap-free telomere-to-telomere assembly of the Mangifera persiciforma genome and its evolutionary insights on resistance

物种:天桃木

发表期刊:Plant Biotechnology Journal(IF=11.2)

发表日期:2025.05

通讯作者:广西大学李柏君副教授和谢亮助理教授为论文通讯共同作者

希望组提供服务:PacBio HiFi、ONT超长、Hi-C和RNA-seq测序服务

该研究首次绘制了天桃木(Mangifera persiciforma)无间隙端粒到端粒(T2T)基因组图谱,是杧果属植物中的首个T2T基因组。研究发现,基因家族的扩张与收缩与物种性状的增强或减弱密切相关,天桃木中扩张的基因家族主要与环境适应性通路相关,有利于植物对生物和非生物胁迫的抗性。此外发现TPS基因在天桃木进化过程中异常活跃,其扩张更倾向于通过近端复制和串联复制实现,而非全基因组复制。比较基因组分析发现天桃木有特有1009个基因,且主要富集在与植物-病原体互作相关的环境适应通路中。进一步通过组织特异性表达分析筛选出19个高表达基因,其中17个属于NLR基因家族。这些结果表明天桃木在进化和环境适应过程中的独特机制,也为芒果抗性育种提供了潜在靶点。

图2 天桃木T2T基因组解析

02/泛基因组
A pangenome reference of wild and cultivated rice

物种:水稻

发表期刊:Nature (IF=50.5)

发表日期:2025.04

通讯作者:中国科学院分子植物科学卓越创新中心韩斌院士和赵强研究员为论文共同通讯作者

希望组提供服务:部分ONT、HiFi及Hi-C测序服务

普通野生稻(Oryza rufipogon)作为亚洲栽培稻(Oryza sativa)的野生祖先,是水稻育种的重要资源。为了全面捕捉栽培稻和野生稻的固有遗传多样性,该研究首次完成了145份具有地理和遗传多样性材料(包含129份普通野生稻和16份栽培稻)的高精度基因组组装,绘制了迄今为止分辨率最高的“野生稻-栽培稻泛基因组图谱”。构建的泛基因组包含69,531个基因,其中发现13,728个为野生稻特有基因。研究发现相较栽培稻,野生稻蕴含丰富的抗病资源。群体结构分析表明,粳稻最早由中国南方Or-IIIa群体驯化,向东南亚扩散后与当地Or-Ia和Or-Ib杂交形成籼稻和aus稻,南亚栽培稻频繁杂交产生intro-indica(籼稻×aus稻),intro-indica与粳稻杂交形成basmati稻。这些结果强有力支持亚洲栽培稻单次驯化假说。该成果不仅为水稻基因组辅助育种提供了前所未有的遗传资源,为培育抗病耐逆、适应气候变化的优质水稻品种奠定了坚实的科学基础。

图3 149个代表性野生和栽培水稻品种及泛基因组构建分析

Pangenome analysis reveals structural variation associated with seed size and weight traits in peanut

物种:花生

发表期刊:Nature Genetics (IF=31.7)

发表日期:2025.04

通讯作者:河南农业大学殷冬梅教授、上海交通大学韦朝春教授和澳大利亚莫道克大学Rajeev K. Varshney院士为论文共同通讯作者

希望组提供服务:基因组denovo测序和组装注释服务

花生(Arachis hypogaea L.)作为一种重要的油料与经济作物,其种子大小和重量是驯化与育种的关键性状。该研究通过整合8个代表性品种高质量基因组及269份不同籽粒大小和重量的重测序数据,开展了全面泛基因组分析。研究鉴定出22,222个核心或软核心基因家族、22,232个分布基因家族和5,643个私有基因家族。发现A亚基因组SV频率高于B亚基因组,并鉴定出1,335个与驯化相关的SVs和190个与籽粒大小和重量相关的SVs。特别是挖掘出AhCKX6AhARF2-2基因的结构变异与籽粒重量和大小的关系,为未来花生基因组学辅助改良育种提供了理论基础和新思路。

图4 AhARF2-2负调控种子大小

03/高质量基因组
Genomic evidence for low genetic diversity but purging of strong deleterious variants in snow leopards

物种:雪豹

发表期刊: Genome Biology(IF=10.1)

发表日期:2025.04

通讯作者:中国科学院动物研究所胡义波研究员和中国科学院动物研究所/江西农业大学魏辅文院士为论文共同通讯作者

希望组提供服务:基因组denovo测序和分析服务

该研究基于Nanopore、Hi-C及Illumina测序技术成功构建了一只野生雌性雪豹的染色体级别基因组及52份野生雪豹全基因组数据进行全面的关于雪豹种群基因组学研究。研究发现全球雪豹可以划分为两个主要遗传谱系,即北部谱系和南部谱系,这一发现得到了生物地理学证据的支持。末次盛冰期促使两个谱系发生分化,而喜马拉雅山脉中段与西段间的微气候差异及大型河流很可能是维持谱系分化的关键因素。南方谱系中EPAS1 基因的两个错义突变在南部谱系中几乎固定,且等位基因频率随海拔升高而增加。与南方谱系相比,北方谱系表现出更低的基因组多样性,但近亲繁殖水平更高,遗传负荷也更重,这与其近期的种群数量下降一致。研究还发现雪豹具有极低的基因组多样性,其近交程度高于其他食肉目物种;但历史种群瓶颈和近亲繁殖过程有效清除了雪豹群体中的强有害突变,这可能是该物种种群存续的重要遗传机制,也为雪豹保提供了重要的理论基础。

图5 食肉目种间比较揭示雪豹低遗传多样性背景下的有害变异清除机制

Vitellogenin receptor mediates heat adaptability of oocyte development in mud crabs and zebrafish

物种:拟穴青蟹

发表期刊:Nature Communications(IF=14.7)

发表日期:2025.04

通讯作者:中山大学何建国教授和王牧骅副教授为论文共同通讯作者

希望组提供服务:NGS、ONT、Hi-C测序等服务

气候驱动的变暖影响着卵生变温动物的繁殖。然而,卵生变温动物是否具有卵黄发生的高温保护机制,以及该保护机制的遗传基础仍未可知。研究发现,在高温环境下,多数雌性拟穴青蟹能形成发育良好的卵巢,但少数个体会出现卵母细胞发育障碍。为探究青蟹卵母细胞发育的高温保护机制,该研究构建了该物种染色体级别基因组,并鉴定出卵黄蛋白原受体(VtgR)基因的一个增强子,该增强子能在高温条件下激活基因表达。异常个体因内含子缺失导致该增强子缺失,使得VtgR表达水平低下,最终造成这些个体在高温胁迫下卵黄发生异常。此外,研究在斑马鱼中也发现了类似的高温保护机制,破环斑马鱼卵黄蛋白原受体基因Lrp13会导致所有敲除个体在高温胁迫下卵黄发生异常。这项研究发现卵生变温动物也具有卵巢发育高温适应的遗传机制,这一发现对理解卵生变温动物如何适应气候变暖具有重大意义。

图6 VtgR介导拟穴青蟹的卵黄发生高温保护机制

04/转录组
Functional polymorphism of CYCLE underlies diapause variation in moths

物种:家蚕

发表期刊:Science(IF=44.7)

发表日期:2025.05

通讯作者:中国科学院分子植物科学卓越创新中心詹帅研究员为论文通讯作者

希望组提供服务:全长转录组测序服务

该研究以受温度诱导的兼性滞育品系(二化,bi-voltinism)和非滞育品系(多化,poly-voltinism)为亲本构建作图群体,将决定滞育变异的主效基因座定位在Z染色体末端。研究结合255个具有不同化性特征的家蚕品系进行全基因组关联分析(GWAS),进一步将关键变异位点定位在该区域内的核心生物钟基因Cycle(脊椎动物BMAL1的昆虫同源基因)的5′端。研究发现家蚕Cycle基因通过可变剪接编码3个亚型(Isoforms A-C);相较于滞育品系,非滞育品系在C亚型特异的N端外显子上存在1-bp的碱基缺失,导致该亚型发生整体性移码突变,但不影响其它亚型(A/B)的编码。通过开展基因编辑、生理生化实验、共表达网络分析、行为学实验等,研究人员证明CYC-C亚型可能作用于GABAergic-CRZ-DH信号通路调控家蚕滞育的环境诱导,而A/B亚型发挥CYC本身的昼夜节律调控功能。此外,研究人员还发现这些功能分化的CYC亚型以相对保守的形式普遍存在于鳞翅目昆虫中,并进一步在亚洲玉米螟(Ostrinia furnacalis)中验证了CYC-C对其幼虫滞育(主要受光周期诱导)的调控作用,从而提示了CYC-C对鳞翅目昆虫滞育调控的普适作用。该研究揭示的分子机制为基于遗传学手段打破滞育、高效利用资源昆虫,以及在全球变暖大背景下预测昆虫种群潜在动态变化等提供理论依据。

图7 生物钟基因Cycle通过不同亚型的功能多态性同时调控昼夜节律和季节节律

Isoform-resolution single-cell RNA sequencing reveals the transcriptional panorama of adult Baoshan pig testis cells

物种:猪

发表期刊:BMC Genomics(IF=3.5)

发表日期:2025.05

通讯作者:云南农业大学动物科学技术学院赵桂英教授和霍金龙教授为论文通讯作者

希望组提供服务:二代和三代单细胞测序服务

该研究通过整合Illumina和Nanopore单细胞RNA测序技术,绘制了保山猪睾丸单细胞全面的转录图谱。研究鉴定出9个显著不同的细胞群及确定了保山猪睾丸中精子发生过程中的6个明确发育阶段:精原细胞(SPG)、早期精母细胞(Early SPC)、晚期精母细胞(Late SPC)、球形精子细胞(RS)、长型精子细胞(ES)、成熟精子(Sperm)。研究鉴定出8条关键信号通路并发现六种生殖细胞类型之间存在显著通讯网络。此外,长读长测序技术进一步捕获了RNA转录本的完整性和多样性,其中约60%为新型异构体,且FSM异构体在转录本长度、编码序列长度、开放阅读框长度和外显子数量等方面均表现出优势。该研究为理解猪精子发生的分子机制提供了新的视角。有助于推动猪繁殖技术的发展,为提高保山猪的繁殖效率提供理论依据,对保护和利用这一珍贵的种质资源具有重要意义。

图8 保山猪睾丸组织细胞类型分析

参考文献

1. Liu S, Li K, Dai X, et al. A telomere-to-telomere genome assembly coupled with multi-omic data provides insights into the evolution of hexaploid bread wheat[J]. Nature Genetics, 2025: 1-13.

2. Wu J, Bao R X, Liu Y, et al. Gap‐free telomere‐to‐telomere assembly of the Mangifera persiciforma genome and its evolutionary insights on resistance[J]. Plant Biotechnology Journal, 2025.

3. Guo D, Li Y, Lu H, et al. A pangenome reference of wild and cultivated rice[J]. Nature, 2025: 1-10.

4. Zhao K, Xue H, Li G, et al. Pangenome analysis reveals structural variation associated with seed size and weight traits in peanut[J]. Nature genetics, 2025, 57(5): 1250-1261.

5. Yang L, Jin H, Yang Q, et al. Genomic evidence for low genetic diversity but purging of strong deleterious variants in snow leopards[J]. Genome Biology, 2025, 26(1): 94.

6. Zhang L, Wu K, Li H, et al. Vitellogenin receptor mediates heat adaptability of oocyte development in mud crabs and zebrafish[J]. Nature Communications, 2025, 16(1): 3722.

7. Zheng S, Wang Y, Li G, et al. Functional polymorphism of CYCLE underlies the diapause variation in moths[J]. Science, 2025, 388(6750): eado2129.

8. Lin W, Zhang X, Liu Z, et al. Isoform-resolution single-cell RNA sequencing reveals the transcriptional panorama of adult Baoshan pig testis cells[J]. BMC genomics, 2025, 26(1): 1-17.

Nature项目文章|重磅!韩斌院士团队绘制全球首个”野生-栽培稻精细泛基因组图谱”,破解水稻驯化之谜!

北京时间2025年4月16日,中国科学院分子植物科学卓越创新中心韩斌院士团队在国际权威学术期刊《自然》(Nature)上发表题为“A pangenome reference of wild and cultivated rice(野生和栽培稻精细泛基因组图谱)”的重大研究成果。该研究首次完成了145份亚洲栽培稻及普通野生稻的高精度基因组组装,绘制了迄今为止分辨率最高的“野生稻-栽培稻泛基因组图谱”,系统挖掘了普通野生稻广泛的遗传多样性,并全面解析了亚洲栽培稻各类群的进化及驯化路线。这项研究为水稻基因组辅助育种提供了前所未有的遗传资源,为培育抗病耐逆、适应气候变化的优质水稻品种奠定了坚实的科学基础。希望组参与部分ONT、HiFi及Hi-C测序服务。

研究背景
亚洲栽培稻(Oryza sativa L.)由普通野生稻祖先O. rufipogon驯化而来,是全球最重要的粮食作物之一。面对全球人口增长和环境变化带来的双重挑战,提高水稻产量至关重要。自粳稻和籼稻草图基因组及日本晴参考基因组发布以来,大量研究聚焦于栽培稻的基因组多样性。然而,传统单一参考基因组无法全面代表物种的遗传多样性,可能限制功能基因组学研究。泛基因组研究为解析遗传多样性、物种进化及品种改良提供了新视角。然而,当前泛基因组研究主要集中于栽培群体,对野生资源(尤其是O. rufipogon)的探索仍不足,而遗传和地理多样性丰富的O. rufipogon是改良现代水稻抗逆性和竞争性的关键基因库,因此,构建高质量、大规模的野生稻泛基因组对指导育种策略和解析驯化路径具有重要意义。
研究内容
01  149个水稻基因组的从头组装
为了全面捕捉栽培稻和野生稻的固有遗传多样性,该研究选取了149份代表性样本,其中包含145份具有地理和遗传多样性的材料(包含129份普通野生稻O. rufipogon和16份栽培稻O. sativa)(图1),以及重新鉴定的4份野生稻材料作为后续进化研究的外群。采用PacBio HiFi和ONT技术进行深度测序,通过多种策略对原始数据进行精细组装,获得的高质量基因组平均 N50为14.95 Mb,LAI指数为24.13,BUSCO完整性达98.55%。值得注意的是,将组装的基因组与以往研究及T2T组装基因组比较结果表明本研究的测序和组装方法的精确性。

此外,该研究结合Hi-C数据获得30个代表性物种染色体级别组装,与参考基因组共线性验证显示高度一致性,根据端粒重复序列,在每个基因组中平均检测到19个端粒。为更全面表征序列多样性,研究从133个HiFi基因组中捕获到替代组装(a-contig)序列。这些替代组装序列包含了主组装(p-contigs)中缺失的杂合信息。值得注意的是,栽培稻中替代组装序列的规模显著小于野生稻,反映了前者较低的杂合率。这些发现为理解驯化过程中基因组稳定性演变提供了新视角。也强调了在育种中利用野生稻杂合基因组资源的重要性。

02 基因注释与抗病基因分析
该研究对每个基因组进行了基因注释,平均注释到40,273个蛋白质编码基因。野生稻的基因组大小和基因数量均高于栽培稻,但其基因密度较低。在HiFi基因组组装中,通过对替代组装(a-contig)进行注释,鉴定出199至41,230个基因,其中获得了10,521个主组装(p-contigs)缺失基因(MIP genes)(图1)。此外发现替代组装其中57.26%为杂合等位基因,这些基因在根系、叶片等组织中呈现差异表达。

由于长期自然选择,野生稻对生物和非生物胁迫具有高度抗性,是天然的抗性等位基因库。因此,通过对野生稻与栽培稻中抗病基因类似物(RGAs)进行分析,研究发现野生稻含有1,710个抗性基因类似物(RGAs),显著高于栽培稻的1,652个。进一步通过共线性分析发现野生稻中具有638个特有RGA位点,其中包括一个野生稻RLK基因LOC_Os07g35680,该基因近期被报道为OsMADS26介导的稻瘟病负调控因子。另外在野生稻中鉴定出多个携带稻瘟病抗性基因Pi5的材料。这些结果表明,野生稻蕴含丰富的抗病资源,可作为培育高抗水稻品种的供体材料。

03 泛基因组构建与TE进化分析
该研究整合具有代表性的129份普通野生稻和16份亚洲栽培稻,构建了一个野生稻-栽培稻级别的泛基因组(pangenome)图谱。构建的泛基因组包含69,531个基因,其中发现13,728个为野生稻特有基因。这些特有基因主要参与防御响应和ADP结合过程。研究通过构建系统发育树将O. rufipogon进一步分为6个分支(Or-Ia、Or-Ib、Or-II、Or-IIIa、Or-IIIb和Or-unspecified)(图1),证实籼稻与Or-Ia、粳稻与Or-IIIa的密切关系,而Or-IIIb和Or-II与栽培品种的亲缘关系较远。为获得可扩展的全面遗传多样性,研究还构建了图形泛基因组,分别包含15个栽培稻、129个野生稻。图形泛基因组分析显示野生稻平均贡献29.72Mb非参考序列,远超栽培稻的17.47Mb。图形泛基因组在检测所有类型遗传变异方面比线性参考基因组更具优势。

图1 149个代表性野生和栽培水稻品种及泛基因组构建分析

通过对本研究所有样本及已发表33个栽培稻泛基因组中28份亚洲栽培稻的TE注释分析,发现野生稻平均TE含量(53.23%)略高于栽培稻(52.32%),这解释了野生稻基因密度较低的现象。Or-IIIa群体的TE含量显著高于其他群体,而粳稻的TE含量最低。转座元件(TE)进化分析表明,Gypsy家族在Or-IIIa群体中约2.5万年前经历显著扩张,相较粳稻基因组,17个关键Gypsy家族贡献了25.85Mb序列差异。在Or-IIIa中鉴定出约1,000个与扩张Gypsy家族相邻的基因,这些基因显著富集于碳水化合物和萜类代谢和细胞表面信号转导通路,暗示其在环境适应和抗病过程中发挥积极作用(图2)。

图2 野生和栽培水稻的基因组变异和TE组成分析

04 亚洲栽培稻的演化与驯化历程
亚洲栽培稻(O. sativa)的起源问题在学术界一直存在争议。为深入解析这一复杂问题,该研究通过群体结构分析表明粳稻和basmati稻起源于Or-IIIa群体,籼稻起源于Or-Ia群体,aus稻主要起源于南亚的Or-Ib群体。遗传多样性分析显示野生稻的核苷酸多样性显著高于栽培稻,Or-Ia与籼稻的基因组距离(FST和DST)明显小于其他栽培稻与其野生祖先的距离。基因流分析发现Or-Ia中存在约40 Mb的籼稻渗入片段,Or-unspecific群体可能是Or-II与籼稻杂交的产物。系统发育树揭示南亚存在一个特殊的籼稻分支,该分支与Or-Ib和aus稻聚为一类,被证实为籼稻与aus稻的杂交后代,这些发现为理解亚洲栽培稻复杂的演化和传播历史提供了新的分子证据。

图3 野生稻与栽培稻的种群结构及基因渗入分析

亚洲栽培稻的驯化模式一直存在单次驯化与多次独立驯化的学术争议。研究根据选择性清除分析鉴定出12.35Mb的驯化区域,成功捕获了水稻驯化早期关键基因,包括Bh4PROG1sh4FZP等11个已知驯化基因。这11个关键驯化基因的单倍型分析为早期驯化史提供了决定性证据。单倍型网络显示所有栽培稻中这些早期关的驯化基因均与Or-IIIa单倍型直接相关或通过粳稻单倍型间接关联,主要单倍型与最近Or-IIIa单倍型间的变异位点可能是驯化过程中的选择靶点。结合系谱分析将各驯化基因划分为驯化型和祖先型,其品种间分布模式印证了以下驯化路径:粳稻最早由中国南方Or-IIIa群体驯化,向东南亚扩散后与当地Or-Ia和Or-Ib杂交形成籼稻和

aus稻,南亚栽培稻频繁杂交产生intro-indica(籼稻×aus稻),intro-indica与粳稻杂交形成basmati稻(图4)。这些结果强有力支持亚洲栽培稻单次驯化假说。

图4 亚洲栽培水稻进化路线

05 籼稻与粳稻的遗传分化机制
作为亚洲栽培稻的两个主要亚种,籼稻与粳稻表现出显著的遗传分化。该研究基于籼稻和粳稻品种,分别鉴定出855,122个高度分化的SNP和13,853个分化PAV。通过对祖先群体中主要等位基因(频率≥60%)的分析,约77%的分化SNP和83%的分化PAV可用于追溯起源,其中60.75%的分化SNP在Or-IIIa(粳稻祖先)与Or-Ia(籼稻祖先)间已存在差异。粳稻偏好型占30.40%,籼稻偏好型仅2.43%。PAV分化也呈现类似分布模式,且粳稻偏好性更强。另外通过数量性状核苷酸(QTNs)分析发现49个分化QTNs中,51%源自祖先分化,37%为粳稻偏好型。这些结果反映了粳稻经历了更严重的遗传瓶颈,导致其保留更多祖先分化变异,积累更多功能突变,形成独特的表型特征。这些发现揭示了两个亚种分化的多层次机制:既保留了古老的群体分化痕迹,又通过差异化的驯化选择塑造了各自独特的农艺特性。粳稻更强的遗传瓶颈可能与其地理隔离和人工选择强度相关,这为理解亚种特异性状的形成提供了新视角。

图5 籼稻和粳稻之间的遗传差异

总结
这项研究构建了野生-栽培水稻泛基因组数据库,为解析水稻驯化历史和育种改良提供了重要资源。野生稻特有的基因库(如抗病和环境适应相关基因)可助力培育高产、抗逆新品种。未来通过结合野生稻表型研究和从头驯化技术,有望加速水稻育种进程,为应对气候变化下的粮食安全挑战提供了基因层面的解决方案。

中国科学院分子植物科学卓越创新中心韩斌院士和赵强研究员为本文共同通讯作者,博士研究生郭东灵和高级工程师李艳为本文共同第一作者。上海师范大学黄学教授也为该研究提供了大力支持。该研究受到国家自然科学基金、中国科学院先导专项和国家农业农村部重点研发项目的资助。

文章链接:

https://doi.org/10.1038/s41586-025-08883-6

NG项目文章|重磅!花生泛基因组破译”大籽粒”基因密码,提供花生高产育种新策略!

2025年4月28日,河南农业大学殷冬梅教授团队联合国内外多家单位在国际著名期刊《Nature Genetics》上发表了题为Pangenome analysis reveals structural variation associated with seed size and weight traits in peanut”的研究成果,该研究首次绘制了高质量花生泛基因组图谱,涵盖了2个二倍体野生种、2个四倍体野生种和4个四倍体栽培种。通过分析269份不同种子大小材料的重测序数据,鉴定出与种子性状相关的结构变异(SVs)。该研究为未来花生基因组学辅助改良育种提供了理论基础和新思路。希望组为本研究提供了基因组denovo测序和组装注释服务。

研究背景

花生(Arachis hypogaea L.)是重要的油料和食用豆类作物,栽培花生为异源四倍体,起源于二倍体野生种A. duranensis(AA)和A. ipaensis(BB)的杂交。在农业领域,其种子大小和重量是驯化和育种过程中的关键性状。尽管已有研究对花生相关基因进行了初步探索,但调控种子大小的分子机制仍不清楚,特别是花生基因组中针对结构变异(SVs)等的研究更为有限。此外,现有基因组存在大量空缺,且多倍体基因组的复杂性导致高质量基因组资源匮乏,深入挖掘基因组变异,获取覆盖不同花生种群的高质量基因组资源至关重要。因此,该研究通过开展泛基因组研究,整合多样个体的基因组数据,为理解物种的结构和功能多样性提供了全新视角。

结果与分析

01 269份种质的遗传多样性分析

为探究花生的遗传多样性及群体结构,该研究收集了269份花生种质(32份二倍体野生种、8份四倍体野生种、155份四倍体栽培地方品种、67份四倍体改良种质和7份未分类种质),覆盖广泛地理分布(图1)。通过将测序数据比对至参考基因组并进行变异检测,获得5,989,854个高质量SNPs。系统发育和主成分分析(PCA)显示,野生和栽培花生种质存在明显分化,在驯化过程中,花生种子大小和重量显著增加。此外,研究发现 A、B 亚基因组在遗传多样性和进化上存在差异,表明驯化过程中A、B亚基因组存在不对称性。ADMIXTURE群体结构分析显示,栽培花生可能直接起源于野生异源四倍体祖先(图1)。

图1 269个野生和栽培花生种质的遗传多样性

02 高质量泛基因组的构建

该研究选取8个具有不同荚果大小的代表性花生种质构建高质量泛基因组,包括2个已发表基因组和6个新测序基因组(1个AA二倍体野生种、2个AABB四倍体野生种、1个AABB四倍体地方品种和2个AABB四倍体改良种)。研究通过整合Nanopore超长、PacBio HiFi和Hi-C技术,采用NextDenovo和HiC-Pro方法对6个种质进行从头组装。新测序的 6 个品种基因组质量高,其连续性和完整性均优于已发表版本。

基于蛋白编码基因构建的花生泛基因组包含50,097个基因家族,其中核心基因家族功能富集于糖鞘脂合成和干细胞多能性调控通路,而私有基因家族富集于O-糖基化修饰通路。不同类型基因家族在染色体上的分布、基因长度、表达水平和功能富集等方面存在差异。此外,发现在超大型荚果品种ZP06的分布和私有基因家族中,NB-ARC结构域(与植物抗病相关)显著富集(图2)。

图2 花生的基因水平泛基因组分析

03 结构变异(SVs)对基因表达的影响

10-16%与基因区域重叠,15-30%位于基因上下游3,000 bp内,40-80% 与重复序列共定位,主要为长末端重复序列(LTR)。表达调控验证:在启动子和外显子区(而非下游区)的SV显著影响基因表达。该研究重点分析了具有最大荚果的表型极端材料ZP06,发现结构变异通过多种机制影响基因功能(图3),包括直接改变基因结构、调控表达水平等,进而参与产量和抗病性等重要农艺性状的形成。

3 结构变异和基因表达分析

04 驯化过程中与形状相关基因的选择清除分析

为解析基因组变异如何影响驯化过程中的基因功能,研究团队通过野生种与地方品种间的全基因组选择清除分析,发现不同染色体区域承受的选择压力存在显著差异。在改良种选育过程中,B亚基因组受选择区域是A亚基因组的2倍 。另外研究鉴定出1,335个与驯化相关SVs,这些变异涉及329个功能基因。其中A、B 亚基因组中与驯化相关的基因在功能上存在差异。同时研究还鉴定出19个与果实大小或抗病性等性状相关的基因,例如,CRK26基因中629 bp的缺失在野生种中更常见;NTF6(调控果实大小)和FBRL2(抗病相关)组成的串联单元在不同花生品种中存在拷贝数变异(图4)。这些结果为进一步研究花生驯化提供了重要线索。

图4 花生驯化过程中的全基因组选择事件

05 CKX6基因结构变异种子膨大

研究团队鉴定出117个与种子重量相关的SVs,通过SV-GWAS分析,在chr.3上定位到一个极显著SV位点,位于AhCKX6 基因的 3′ – UTR 区域。该基因编码细胞分裂素氧化酶 / 脱氢酶(CKX),参与细胞分裂调控。研究发现在大籽粒种质的AhCKX6基因3′-UTR区存在两段特异性插入,而在所有的61份野生种均缺失该插入,基于此,研究提出3′-UTR区的插入通过以下途径调控种子发育:降低AhCKX6基因表达水平,减少细胞分裂素降解,促进其积累,增强早期细胞分裂活性,最终导致种子体积增大(图5)。

图5 CKX6基因结构变异调控种子发育的分子机制

06 AhARF2-2基因负调控种子大小的分子机制

作为影响谷物产量的关键农艺性状,种子大小的遗传调控机制备受关注。研究鉴定出73个与种子大小显著相关的SVs。其中AhARF2-2基因的外显子SV与种子长度和百粒重显著相关。在超大籽粒品种ZP06中,AhARF2-2基因在第12外显子存在275 bp缺失和7 bp插入,导致AUX/IAA结构域丢失,功能改变。基于此,研究团队提出了AhARF2-2调控花生籽粒大小的分子模型:AhARF2-2通过C端AUX/IAA域与AhIAA13相互作用,生长素信号触发AhARF2-2释放并招募TPL抑制AhGRF5表达,进而影响种子大小。然而,在大籽粒品种中,AhARF2-2无法正常与AhIAA13和TPL相互作用,导致对AhGRF5的抑制减弱,从而促进种子膨大(图6)。

图6 AhARF2-2负调控种子大小

总 结

本研究通过整合8个高质量基因组及269份不同种子大小的花生种质重测序数据,成功构建了全面的花生泛基因组,全面解析了花生基因组变异,为花生种子大小和重量等关键农艺性状的遗传机制研究提供了重要资源,为分子育种提供了新靶点。

河南农业大学殷冬梅教授、上海交通大学韦朝春教授和澳大利亚莫道克大学Rajeev K. Varshney院士为论文共同通讯作者,河南农业大学青年教师赵昆昆、上海交通大学青年教师薛泓嶂和山东省农业科学院李国卫研究员为论文共同第一作者,张新友院士和万书波研究员对该项研究工作给予了指导和帮助。该研究得到了国家自然科学基金、国家重点研发计划、河南省重点科技攻关等项目的资助。殷冬梅教授领衔的河南农业大学花生功能基因组及分子设计育种创新团队,依托于河南省花生基因组与分子育种工程技术研究中心,主要从事花生基因组与功能基因挖掘,致力于揭示花生产量、品质和抗病性状形成的机制与调控途径研究。围绕花生种业“卡脖子”等重要科学问题开展工作,已在NatureGenetics、Advanced Science、Genome Biology、Plant Biotechnology Journal、New Phytologist等国际著名期刊上发表了120余篇学术性文章,取得多项原创性研究成果。

文章链接:https://doi.org/10.1038/s41588-025-02170-w

Genome Biology 项目文章| 范衡宇教授团队揭示ZAR1/2调控卵母细胞母源mRNA动态变化的新机制

2025年5月9日,浙江大学生命科学研究院范衡宇教授团队在Genome Biology杂志上发表了题为“ZAR1 and ZAR2 orchestrate the dynamics of maternal mRNA polyadenylation during mouse oocyte development”的研究论文。该研究联合Smart-seq2、Total RNA-seq、PAIso-seq2和LACE-seq四种近年来开发的、适用于低起始量样本的转录组检测技术,从mRNA稳定性和聚腺苷酸化状态两个维度重新探讨了卵母细胞在减数分裂过程中的转录本动态变化,并深入分析了ZAR1在母源转录组调控中的作用机制。希望组为本研究提供了PB转录组测序服务。

研究背景

在减数分裂期间,卵母细胞基因组会长时间处于转录沉默状态,直到合子基因组激活(ZGA)才重新启动。这一阶段,母源转录组的动态变化和稳态对母源-合子转换(MZT)至关重要。然而越来越多证据表明Smart-seq2(一种低输入量建库技术)检测到的母源转录组动态可能不够准确。其原因是该技术依赖oligo-d(T)引物捕获母源mRNA的poly(A)尾可能会引入偏差。

合子停滞蛋白1(ZAR1)及其同源蛋白ZAR2是RNA结合蛋白,对母源mRNA的稳定性调控具有重要作用。早期研究推测ZAR1促进减数分裂中母源mRNA的降解,而近期研究发现ZAR1参与线粒体相关核糖核蛋白域(MARDO)的组装,推测起到稳定母源mRNA的作用。因此关于RNA结合蛋白ZAR1的功能存在的差异也说明母源mRNA的调控机制仍需进一步阐明。

结果与分析

01 Smart-seq2检测的mRNA动态可能受多聚腺苷酸化偏差影响

在生发泡破裂(GVBD)后的减数分裂过程中,母源基因组转录保持沉默,多年来研究者观察到母源转录组逐渐减少的现象(图1)。这一时期发生降解的转录本对应的基因被称为O-decay基因。通过Smart-seq2和Smart-seq3测序结果显示,与GV期相比,MII期卵母细胞中有许多基因下调,而在差异基因表达中却存在许多上调基因(图1),这些结果显示通过Smart-seq2定义的O-decay基因可能存在偏差。为探究这一问题,该研究采用PAIso-seq2分析技术检测减数分裂过程中多聚腺苷酸化状态的变化,发现GV到MII期卵母细胞中,大部分转录本poly(A)尾明显缩短,这可能导致Smart-seq2无法准确检测短poly(A)尾的mRNA。

图1 Smart-seq2和PAIso-seq2检测母源mRNA动态变化

为规避Smart-seq2的系统偏差,该研究使用Total RNA-seq数据进行分析,结果显示Total RNA-seq检测到的母源转录组在减数分裂过程中的整体下调幅度显著低于Smart-seq2的结果,且鉴定的O-decay基因数量明显更少(图2)。对Total RNA-seq鉴定的O-decay基因进行了深入分析,发现O-decay基因的转录本主要在GV期卵母细胞中发生多聚腺苷酸化和翻译,在完成生物学功能后被有序降解。因此研究推测在减数分裂过程中,母源转录组经历的多聚腺苷酸化/去腺苷酸化修饰可能比实际降解更为显著。

2 Total RNA-seq检测母源mRNA动态变化

02 Zar1/2-/-导致GV期母源mRNA稳定性下降及多聚腺苷酸化异常

早期研究推测ZAR1促进减数分裂中母源mRNA的降解,而近期研究发现ZAR1参与线粒体相关核糖核蛋白域(MARDO)的组装。为阐明这一矛盾,研究采用总RNA-seq技术对Zar1/2-/-卵母细胞进行差异表达基因分析,结果检测到GV期母源mRNA显著下调,且Zar1/2-/-GV期下调基因中61.76%与正常GV→MII期应下调或持稳的基因相关,说明Zar1/2在GV期通过稳定mRNA维持其表达。

通过对Smart-seq2数据的重新分析,研究发现Zar1/2-/- MII期卵母细胞中仍存在大量RNA转录本的异常积累现象,这与总RNA-seq的检测结果存在显著差异。为验证这一差异,研究发现Zar1/2-/-卵母细胞中的多聚腺苷酸化过程可能发生紊乱,PAIso-seq2显示大量mRNA poly(A)尾长度异常,这些异常的poly(A)尾长度导致了Smart-seq2检测偏差。
 
03 ZAR1通过结合3’UTR稳定母源转录本

ZAR1作为RNA结合蛋白(RBP),通过其C端CxxC锌指结构域与母源转录本结合。基于这一分子特征,该研究深入探究了ZAR1的调控机制。LACE-seq定位到其靶向转录本,共鉴定8,000余个潜在靶标,其中Zar1/2-/-GV期下调基因中54.8%为ZAR1靶标。此外发现3’UTR结合基因的稳定性显著高于CDS结合基因,提示ZAR1通过3’UTR结合维持mRNA稳态(图3)。

图3 ZAR1通过与3‘UTR区域结合来稳定母体转录本

04 ZAR1间接调控多聚腺苷酸化并与蛋白互作

鉴于Zar1/2-/-卵母细胞中母源转录本多聚腺苷酸化显著异常,研究进一步分析了差异多聚腺苷酸化基因(DPGs)与ZAR1靶标的关系,分析发现ZAR1本身并不直接调控多聚腺苷酸化,ZAR1更倾向于影响mRNA稳定性,而非直接影响poly(A)尾长。研究通过IP-MS技术发现ZAR1与PABP家族、IGF2BP2等RNA稳定因子互作,提示ZAR1可能与其他蛋白质相互作用以调节母源转录组的稳态(图4)。

图4  ZAR1在卵母细胞发育过程中调控mRNA多聚腺苷酸化的工作模型

05 Zar1/2-/-导致MII期染色质压缩维持失败

Zar1/2-/-卵母细胞在MII期染色质压缩维持失败,出现纺锤体错位和类原核结构等现象,伴随关键母源基因(如Lsm14b、Ccnb1)表达异常,表明ZAR1在稳定这些基因中起作用,从而有助于维持卵母细胞处于MII期。

综上所述,该研究通过多组学联合分析,揭示了聚腺苷酸化状态在减数分裂过程中主导母源转录组动态变化的关键作用。研究进一步阐明了ZAR1在卵母细胞减数分裂成熟早期维持母源转录组稳定性,以及在成熟过程中协同其他蛋白调控母源转录本聚腺苷酸化状态的功能。该研究不仅为Smart-seq2技术在卵母细胞中的的适用性提供了参考,也为进一步探索ZAR1蛋白相关的MARDO在减数分裂过程中的作用机制提供了参考资源。
浙江大学生命科学研究院博士生吴雨珂为本文第一作者。广东省第二人民医院的苏瑞宝副研究员,已毕业博士生蒋知妍和吴韵雯,浙江大学医学院附属邵逸夫医院的戎妍副研究员,浙江大学医学院的嵇姝妍研究员,中国科学院遗传与发育研究所陆发隆研究员及其课题组成员博士生刘静雯和牛卓越,以及中国科学院生物物理研究所薛愿超研究员为该研究提供了大力帮助。该研究受到国家重点研发计划、国家自然科学基金以及浙江省自然科学基金项目的资助。

文章链接:https://doi.org/10.1186/s13059-025-03593-8

项目文章 |为何茶棍蓟马独爱茶树?中国科学家破译其基因组,揭示其对茶树高多酚环境的独特适应性!

2025年4月24日,中国农业科学院茶叶研究所李兆群团队在Pest Management Science期刊上在线发表题为“Chromosome-level genome assembly of Dendrothrips minowai and genomic analysis highlights distinct adaptations to high polyphenols in tea plants”的研究论文。该研究组装了茶棍蓟马染色体水平基因组,并分析揭示了其对茶树高多酚环境的独特适应性分子机制。希望组为本研究提供了测序组装分析等服务。

研究背景

蓟马是危害蔬菜、水果和茶叶等园艺作物的重要害虫,对相关产业构成重大挑战。其体型微小且隐蔽性强,难以在种群暴发前进行早期监测。快速的繁殖周期、高繁殖力及强抗药性进一步增加了防控难度。因此,深入了解蓟马的生物学、生态学、进化、竞争及宿主植物适应性,对制定有效管理策略至关重要。

茶棍蓟马(Dendrothrips minowaiPriesner)是一种关键的寡食性害虫,主要危害亚洲(尤其是中国)的茶树。成虫和若虫通过刺吸茶树嫩叶汁液,影响植株生长并降低茶叶品质与产量。近年来,高质量基因组组装与分析技术为揭示蓟马生物学特性及宿主适应的遗传机制提供了新视角。然而,茶棍蓟马基因组尚未解析,这限制了对高多酚环境适应机制的理解。

结果与分析

01 基因组测序与组装

蓟马是危害蔬菜、水果和茶叶等园艺作物的重要害虫,对相关产业构成重大挑战。其体型微小且隐蔽性强,难以在种群暴发前进行早期监测。快速的繁殖周期、高繁殖力及强抗药性进一步增加了防控难度。因此,深入了解蓟马的生物学、生态学、进化、竞争及宿主植物适应性,对制定有效管理策略至关重要。

茶棍蓟马(Dendrothrips minowaiPriesner)是一种关键的寡食性害虫,主要危害亚洲(尤其是中国)的茶树。成虫和若虫通过刺吸茶树嫩叶汁液,影响植株生长并降低茶叶品质与产量。近年来,高质量基因组组装与分析技术为揭示蓟马生物学特性及宿主适应的遗传机制提供了新视角。然而,茶棍蓟马基因组尚未解析,这限制了对高多酚环境适应机制的理解。

图1 茶棍蓟马基因组的特征

02 茶棍蓟马基因家族的进化分析

系统发育分析表明,蓟马在进化树上分为两支,其中7种蓟马聚为一支且亲缘关系较近。茶棍蓟马的分化时间(约1.032亿年前)早于其他已报道的蓟马物种。在茶棍蓟马基因组中,12个基因家族呈现扩张,172个基因家族呈现收缩(图2)。功能富集分析显示,扩张基因家族主要参与代谢过程、氧化还原酶活性和外源物生物降解与代谢等通路。

图2 茶棍蓟马与其他11种昆虫的进化和系统发育关系分析

03 茶棍蓟马的化学感应与解毒基因家族

由于宿主适应性常涉及宿主识别和宿主次生代谢物解毒,研究对茶棍蓟马中与化学感应及解毒相关的基因家族进行了分析,结果显示,茶棍蓟马拥有88个化学感应相关基因(包括42个味觉受体GR、22个嗅觉受体OR、10个离子型受体IR、1个化学感受蛋白CSP和13个气味结合蛋白OBP)以及187个解毒相关基因(包括90个细胞色素P450、62个ABC转运蛋白、7个羧酸酯酶CCE、13个尿苷二磷酸葡萄糖醛酸转移酶UGT和15个谷胱甘肽S转移酶GST)(表1)。与西花蓟马(F. occidentalis)和棕榈蓟马(T. palmi)等多食性物种相比,茶棍蓟马的GR、IR、OR和CSP基因数量较少,但OBP数量略多于西花蓟马。这一结果表明,化学感应基因(尤其是GR、IR和OR)的多样性与蓟马的宿主范围适应性呈正相关。
系统发育分析显示,多食性物种(如西花蓟马和棕榈蓟马)的GR基因和OR基因表现出扩张现象,特别是在与苦味物质和二氧化碳检测相关的亚谱系中(图3)。而茶棍蓟马则呈现收缩趋势。此外,西花蓟马的IR基因也发生扩张,但在茶棍蓟马中收缩。

在解毒基因方面,茶棍蓟马的GST基因家族规模比其他三种蓟马更小。值得注意的是,ABC转运蛋白的系统发育分析表明,茶棍蓟马中ABC转运蛋白家族(尤其是ABCG和ABCC亚家族)显著扩张,这可能是其适应茶树高多酚环境的关键机制。

图3 茶棍蓟马中化学感应和解毒相关基因系统发育树分析

综上所述,该研究通过对蓟马科寡食性茶棍蓟马(D. minowai)基因组进行测序、组装和注释,为解析其生物学特性与行为奠定了重要基础。比较基因组分析显示,茶棍蓟马在解毒代谢相关基因上存在全基因组范围的扩张,这为其适应茶树寄主提供了分子基础。从害虫防控角度来看,该基因组资源将显著促进基因编辑研究,为开发新型靶向杀虫剂及种群精准防控技术提供关键支撑。

文章链接:https://doi.org/10.1002/ps.8781

项目文章丨中国农业大学联合中国科学院遗传与发育生物学研究所完成中国春小麦基因组近完整组装,助力小麦育种与功能研究

2025年2月13日,中国农业大学农学院联合中国科学院遗传与发育生物学研究所在Molecular Plant在线发表了题为“Near-complete assembly and comprehensive annotation of the wheat Chinese Spring genome”的研究论文。该研究利用牛津纳米孔(ONT)超长读长、PacBio HiFi高精度测序及Hi-C技术,成功构建了中国春小麦基因组的近完整组装(CS-CAU),几乎填补了此前基因组中所有的空白区域,为小麦遗传改良和基础研究提供了关键资源。希望组为本研究提供了PacBio HiFi、Nanopore超长测序以及基因组的初步组装分析服务。

01
研究背景

小麦(Triticum aestivum L.)是全球最重要的粮食作物之一。由于其基因组庞大、高度重复且为异源六倍体,导致其完整组装长期面临挑战。2018年,国际小麦基因组测序联盟(IWGSC)发布了中国春小麦参考基因组(International Wheat Genome Sequencing, 2018),成为世界范围内小麦研究应用最为广泛的参考基因组。然而,尽管该基因组极大促进了小麦基因组学研究和育种改良,后续研究通过整合多组学数据对中国春参考基因组进行了连续更新和优化,同时科学家们陆续完成了多个小麦品种的高质量基因组组装(Jiao et al., 2025; Walkowiak et al., 2020; Zhu et al., 2021),这些基因组组装仍存在大量未解析的重复区域和复杂序列结构,这仍是当前小麦基因组学研究面临的重要挑战。

02
研究内容

本研究综合利用ONT超长读长测序(覆盖度283.56×)、PacBio HiFi高精度测序(29.01×)和Hi-C数据,实现了小麦中国春基因组的近完整组装(CS-CAU),其大小为14.46 Gb,碱基准确率大于99.9963%,仅剩290个组装间隙(主要为超长串联重复序列)。其中,1D、3D、4D、5D染色体首次实现无间隙组装,1D和5D染色体达到端粒到端粒(T2T)级别。这一突破不仅解决了小麦基因组重复序列高、多倍体复杂的组装难题,还为解析其他复杂作物基因组提供了范本。

图1. 中国春小麦基因组的近完整组装

基于近完整基因组组装,研究团队总共注释到151,405个高置信度基因,其中59,180个是新注释的基因,包括7,602个首次组装出的基因,这对小麦基因功能研究具有重要意义。通过整合RNA-seq数据集和跨物种蛋白同源性证据,首次完整解析了六类种子储藏蛋白(SSP)的基因组分布与表达特征。研究发现,ω-醇溶蛋白的表达完全由B亚基因组贡献,而其他五类SSP(α/γ-醇溶蛋白、ALP、HMW/LMW谷蛋白)的表达则主要由D亚基因组贡献,为进一步解析小麦面筋品质的遗传基础和分子改良提供了重要基础。

图2. 近完整中国春小麦的基因注释

除chr1B的着丝粒存在与超长GAA重复序列相关的间隙外,其余20条染色体的着丝粒序列也都全部组装完成。对着丝粒区序列组成进行分析表明着丝粒区域主要由逆转座子构成,其中A/B亚基因组着丝粒富含着丝粒相关反转录转座子CRW和Quinta(占比约70%),而D亚基因组着丝粒中只有30%的序列为CRW和Quinta。相似的是,串联重复序列在三个亚基因组间分布也存在高度的不均匀性,其中71.89%的简单串联重复(SSR)富集于B亚基因组,而接近一半的卫星序列(satellite)则集中于D亚基因组。此外,研究团队也对着丝粒区CRW和Quinta逆转座子的插入时间进行了解析,明确了其在三个亚基因组间的主要扩张时期。

图3. 着丝粒区域序列构成及CRWQuinta转座子的插入时间

中国农业大学农学院玉米改良中心陈建副教授、小麦研究中心孙其信院士、倪中福教授,中国科学院遗传与发育生物学研究所傅向东研究员、鲁非研究员为该论文的共同通讯作者。中国农业大学博士后王子健和博士研究生苗凌峰为论文共同第一作者。博士研究生谭凯文对该工作的推进有重要贡献。玉米改良中心赖锦盛教授、辛蓓蓓副教授,小麦研究中心郭伟龙教授,中国农业科学院作物科学研究所贾继增研究员,澳大利亚墨尔本大学Rudi Appels教授对该工作进行了指导和帮助。该工作得到了国家重点研发计划、国家自然科学基金项目、“拼多多-中国农业大学研究基金”、新基石研究员项目和中国农业大学2115人才培育发展支持计划的资助。

原文链接:https://doi.org/10.1016/j.molp.2025.02.002

CS-CAU基因组下载路径:https://www.ncbi.nlm.nih.gov/nuccore/JBJQUP000000000.1

 
参考文献:
International Wheat Genome Sequencing, C. (2018). Shifting the limits in wheat research and breeding using a fully annotated reference genome. Science 36110.1126/science.aar7191.
Jiao, C., Xie, X., Hao, C., Chen, L., Xie, Y., Garg, V., Zhao, L., Wang, Z., Zhang, Y., Li, T., et al. (2025). Pan-genome bridges wheat structural variations with habitat and breeding. Nature 637:384-393. 10.1038/s41586-024-08277-0.
Walkowiak, S., Gao, L., Monat, C., Haberer, G., Kassa, M.T., Brinton, J., Ramirez-Gonzalez, R.H., Kolodziej, M.C., Delorean, E., Thambugala, D., et al. (2020). Multiple wheat genomes reveal global variation in modern breeding. Nature 588:277-283. 10.1038/s41586-020-2961-x.
Zhu, T., Wang, L., Rimbert, H., Rodriguez, J.C., Deal, K.R., De Oliveira, R., Choulet, F., Keeble-Gagnere, G., Tibbits, J., Rogers, J., et al. (2021). Optical maps refine the bread wheat Triticum aestivum cv. Chinese Spring genome assembly. Plant J 107:303-314. 10.1111/tpj.15289.