项目文章丨国内首篇OGM血液肿瘤英文文章见刊!OGM检测46例儿童急淋白血病并发现未被报道的可能与临床相关的融合基因

2022年12月21日,国家儿童医学中心首都医科大学附属北京儿童医院王天有、李志刚、张瑞东教授团队在MDPI Cancers上发表了以“Optical Genome Mapping for Comprehensive Assessment of  Chromosomal Aberrations and Discovery of New Fusion Genes in Pediatric B-Acute Lymphoblastic Leukemia”为题的研究文章,这是国内科学家发表的首篇使用OGM光学图谱技术检测血液肿瘤遗传学改变的英文文章。希望组提供Bionano测序和组装服务。

OGM检测 vs 传统检测方法(Karyotype+RT-PCR/FISH)对比

该研究纳入了2019年6月到2020年6月北京儿童医院血液肿瘤中心的46例儿童B细胞急性淋巴细胞白血病(B-ALL)的初诊病例, 依据CCLG-ALL2008方案划分为低危组(12例),中危组(24例)和高危组(10例)。对骨髓穿刺样本行核型,FISH, RT-PCR和OGM检测和数据结果分析解读。

46例儿童B-ALL样本均具有FISH/反转录PCR检测结果,45例具有核型G-显带结果。46例样本平均收集的OGM有效数据深度为420.5X.

传统方法检出非整倍体18例,核型正常17例。OGM检出非整倍体22例, 无明显染色体异常13例,OGM额外检出4例患者(case 41,97,101,109)超二倍体。汇总表格如下:注:在3个case中OGM未检出位于X染色体PAR区域的P2RY8::CRLF2融合,可能源于其VAF小于5%的检测下限,预计可在后续算法软件提升中解决该问题。

OGM单独检出而传统方法未检出异常

OGM单独检出而传统检测方法未检出的与B-ALL相关的染色体异常病例为11/46例,包含t(9;9)(p24.1;p21.2) JAK2::TEK,t(12;12)(p13.31;p13.2) ZNF384::ETV6等基因融合的检出。

下图B中展示了OGM检出case103的t(12;16;21)三重易位,而核型显示为无异常,RT-PCR仅检出了ETV6::RUNX1融合,OGM额外检出t(12;16)ETV6::DPEP1、t(16;21)SPG7::RUNX融合。

Case 66中,OGM和核型均检出了t(11;22)(q23;q11)和t(13;19)(q14;p13),RT PCR/FISH未报告融合,OGM进一步明确了上述易位造成的已见报道的FLI1::EWSR1和未见报道的 TMEM272::KDM4B基因融合。详见下图D,E,F.

OGM识别出marker染色体,纠正了核型断裂点

在6例核型失败或G-显带无法明确染色体变异断裂点或存在marker染色体的病例中,OGM明确了该变异和marker染色体来源。如下图case 47,OGM明确了chr1上的染色体异常。

iAMP21是儿童BCP-ALL中一个独特的细胞遗传学变异,发生率约2%。标准治疗条件下预后不良。目前金标准检测方法为特异性FISH探针检测单个细胞中RUNX1信号为正常的5倍及5倍以上。OGM在case 48中检出iAMP21,与FISH检测结果一致,且检出其chr21具有染色体碎裂现象。详见下图。

OGM检出未见报道的可能与白血病相关的融合基因
OGM检出了如下5个可能与白血病相关的基因融合事件,分别是 PSPC1::ZMYM2 (deletion), SH2B3::ATXN2(deletion), LMNB1::PPP2R2B (deletion), CWH43::TPTE and TMEM272::KDM4B (inter-chromosomal translocation),且被WGS数据在DNA水平得到验证。其中2个基因融合可转录成mRNA。

OGM检出case 46中chr6存在20Mb缺失,造成LMNB1::PPP2R2B 融合,保留了LMNB1基因的启动子和exons1-2, 而PPP2R2B基因保留了启动子和exons1-6,详见下图。

PPP2R2B基因是一个强效抑癌基因,在抗肿瘤免疫反应中发挥重要作用。LMNB1基因下调后,造成缺陷性DNA损伤修复而导致基因组不稳定性。该缺失造成的LMNB1::PPP2R2B融合可能导致2个基因的蛋白表达下调,可能与白血病发生有关。

另外,OGM在case 66中检出由t(13;19)造成的TMEM272::KDM4B 融合,断裂点分别位于TMEM272基因的intron2和KDM4B基因的intron1上,融合方式见下图,导致KDM4B基因的mRNA水平比其他初诊患者高1.69倍。

在多项研究报道中,KDM4B基因在乳腺癌、肠癌、卵巢癌、肺癌、胃癌和前列腺癌中过表达,导致H3K9me3去甲基化,影响信号通路后续表达并导致基因组不稳定性而引发肿瘤。KDM4B基因在ALL和其他血液肿瘤中的功能仍待深入研究验证。
讨论和总结
在46例儿童B-ALL患者的检测中,OGM可检出大多数临床相关的染色体异常,在检测复杂染色体异常和纠正识别复杂核型方面具有很强的能力。另外,OGM检出了多个可能与临床相关的未见报道的融合基因。该研究显示OGM是十分高效的检测白血病患者染色体异常的工具,所发现的未见报道的异常可能对于危险度分层和白血病发病机理研究具有重要意义。

文献解读丨Nature!最全人类细胞DNA甲基化图谱

DNA甲基化是控制基因表达和染色质组织的一个基本的表观遗传标记,从而为细胞身份和发育过程提供了一个窗口。目前的数据集通常只包括一小部分甲基化位点,并且这些数据来源基于细胞系或基于含有混合细胞的组织。

研究思路

研究结果

人类细胞类型甲基化图谱

所分析的细胞类型(图1)代表了大多数主要的人类细胞类型,允许对生理系统(例如胃肠道、造血细胞和胰腺)进行综合观察,并比较不同环境中的类似细胞类型。如图1所示,205个甲基体在复制之间表现出巨大的相似性,细胞类型之间以类似于块的方式发生了显著变化。作者试图识别特定细胞类型中差异甲基化的基因组区域,以阐明细胞类型特定的生物学过程,定义细胞身份,并促进甲基化生物标志物的开发,以识别循环cfDNA片段的细胞来源。

图1 成人人体甲基化图谱

甲基化记录发展历史

通过分析系统地将相同细胞类型的生物样本分组(图2),类似于纯化人血细胞的基于阵列的聚类。这支持了细胞分离的可重复性,并表明每种正常细胞类型的三到四次重复就足以推断其甲基化模式,用于生物标志物鉴定等实际应用。

图2 无监督凝聚聚类反映了健康细胞类型的人类发育谱系。单元格类型由边缘颜色表示

细胞类型特异性甲基化标记物

每种细胞类型的前25个差异非甲基化区域包括1246个人类细胞类型特异性甲基化图谱标记(图3)。片段水平分析进一步表明,与所有其他细胞类型中几乎没有的DNA片段相比,这些区域的绝大多数DNA片段在目标细胞类型中未甲基化。该图谱具有多种应用,包括循环无细胞DNA片段的分析。重要的是,只有约1%的细胞类型特异性标记物被亚硫酸氢盐减少表达测序(RRBS)覆盖,4-8%被甲基测序杂交捕获板覆盖,14-24%在单个CpG 450K/EPIC阵列中表达,强调了全基因组测序对生物标志物彻底鉴定的益处。

图3 39个细胞类型组205个样本的人类甲基化图谱

人类细胞类型特异性调控图

前250名单核细胞和巨噬细胞的非甲基化标记物是高度可获得的,其特征在于单核细胞中的H3K27ac和H3K4me1,而其他细胞类型的标记物在单核细胞内没有富集(图4a),其他细胞类型标记物的结果相似。同时还显示了细胞类型特异性标记33处chromHMM增强子注释的强烈协同富集(图4a)。这些发现与先前的研究一致,这些研究将组织特异性去甲基化与基因增强剂相关联。

为了进一步评估细胞类型特异性非甲基化区域的生物学重要性,还研究了它们与转录因子(TF)的关系,转录因子可以影响DNA甲基化或以细胞类型特异的方式结合DNA,取决于甲基化和染色单体。对于大多数细胞类型,顶部图案包括主调节器和关键TF(图4b)。

图4 细胞类型特异性标记作为假定的增强子

细胞类型特异性高甲基化位点

对那些在一种细胞类型中甲基化但在人体其他地方未甲基化的基因组区域进行研究。这些蛋白富集于CpG岛(38%的甲基化区域,而1.7–2.7%的细胞类型特异性非甲基化区域),并且在其他细胞类型中由H3K27me3和Polycomb标记(图5a–c)。有趣的是,只有约3%的细胞类型特异性差异甲基化区域是高甲基化的。在汇集所有细胞类型特异性高甲基化区域后,发现了染色质调节因子CTCF的靶序列高度富集(图5d)。图5e显示了甲基化模式并在体内公布了CTCF在一个位点的占用情况,该位点在结肠和肠道中被特异性甲基化。与DNA甲基化阻止CTCF结合一致,ChIP数据显示结肠中该位点CTCF结合的选择性缺失。此外,在特定细胞类型中甲基化的位点富集了神经基因转录抑制因子RE1沉默TF/神经元限制性沉默因子(REST/NRSF)的靶点,这在胰岛细胞的甲基体中最明显(图5f)。

图5 细胞类型特异性的高甲基化区域富集CpG岛、Polycomb靶标和CTCF和REST/NSRF

片段级甲基化反褶积

如图6a所示,1246种标记允许以约0.1%的分辨率准确检测来自给定来源的DNA,与基于阵列的方法相比,提高了近一个数量级。然后,使用来自WGBS数据估计了白细胞和cfDNA的细胞组成;99.5%的白细胞衍生DNA来源于粒细胞、单核细胞、巨噬细胞和NK、T和B 细胞,与典型的血液计数一致(图6b)。健康受试者的cfDNA主要来源于白细胞:粒细胞(29.7%)、单核细胞/巨噬细胞(20%)和淋巴细胞(3%)。有助于cfDNA的实体组织包括血管内皮细胞(6%)和肝细胞(3.1%)(图6c),与先前的结果一致。目前的图谱还显示巨核细胞(31%)和红细胞祖细胞(5%)对cfDNA的显著贡献,这在以前使用范围更有限的参考甲基体的研究中没有观察到。最引人注目的是,Roadmap肺样本主要由血液(40%)、内皮(34%)和平滑肌(5%)组成,只有22%的DNA来源于肺上皮细胞(图6f–i)。

图6 使用细胞类型特异性生物标记物进行片段级反褶积

总之,本研究提供了一份原始人类细胞类型的全面甲基化图谱,以及一套广泛的细胞类型特异性标记和计算工具,用于混合细胞类型样本的片段水平分析。这些数据揭示了DNA甲基化在细胞生物学和基因调控中的作用,并有助于识别每种细胞类型中的活性增强剂。也许该图谱最有前景的用途是混合细胞型样本的片段水平反褶积的潜力,允许在患有癌症和其他疾病的个体血浆中敏感地识别cfDNA的起源组织。

Next系列软件应用 | NextDenovo软件脱颖而出,助力家蚕T2T基因组组装

鳞翅目物种大多是害虫,每年造成严重的经济损失。高质量的基因组测序和组装揭示了害虫发生的遗传基础,并为害虫控制措施提供了指导。长读长测序技术和组装算法的进步为组装高质量基因组打下基础,这就迫切需要选择合适的测序平台和组装策略来获得高质量的基因组信息。本研究参考了如何获得和评估高质量的基因组组装,并为鳞翅目害虫和相关物种的生物控制、比较基因组学和进化研究提供了资源。

研究思路

研究结果

1.ONT基因组组装

作者对ONT序列使用三种不同的长读长组装工具NextDenovo、wtdbg2和NECAT进行组装。结果表明,NextDenovo组装的基因组最小(约449–468 Mb),contig数约为89–114。wtdbg2组装的基因组最大(约452–794 Mb),contig数约为3273–13714,其连续性差,完整性低,组装质量较差。NECAT的组装质量介于NextDenovo和wtdbg2之间。NECAT组装的基因组大小约为561–581 Mb,contig数量约为688–851。

为了评估基因组组装的准确性,作者使用Inspector计算了结构错误和小规模错误的数量。其中NextDenovo的小规模错误数量最少,结构错误数量略低于wtdbg2(图2)。Wtdbg2具有最高的小规模错误数和最低的结构错误数。NECAT的结构误差最多,小尺度误差次之。

总之,对于ONT数据的组装,NextDenovo软件的组装效果最好

NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

图1 不同数据深度的CLR、ONT、HIFI组装的质量值(QV)评分和计算时间

图2 CLR、ONT、HIFI组装的结构错误

2.CLR基因组组装
CLR reads的组装使用四种不同的长读长组装工具(NextDenovo、Canu、wtdbg2和MECAT2)进行。当满足一定的测序深度(>=40×)时,每个基因组组装的contig数量差异不显著,NextDenovo的结果仍然最佳。所有组装(contig N50)的连续性随着测序深度的增加而增加,NextDenovo组装增加最明显(图3)。NextDenovo组装显示出最高的连续性(contig N50=9.41 Mb)、最小的大小(477 Mb)和最少的contigs(n=205)。总之,NextDenovo的整体表现最好,其次是Canu。

图3 测序深度对基因组组装影响

3.HiFi基因组组装

与CLR和ONT相比,HiFi组装的基因组连续性和完整性明显优于CLR和ONT。HiFi基因组组装的大小、连续性和完整性没有显著差异。最大的差异体现在contig数上,hifiasm组装的contig数目比HiCanu组装的少的多(图3)。与ONT和CLR相比,HiFi组装包含最少的结构误差和小规模误差(图2)。与其他两种测序方法相比,HiFi组装显示出最佳的组装质量、最低的contig、最高的连续性、准确性和完成度。它还需要最少的时间和计算机内存,可以被认为是未来鳞翅目害虫基因组的最佳测序方法。

4.基于Hi-C的染色体水平基因组的构建及质量评价

作者使用3D-DNA在染色体水平上构建基因组,为每种测序方法选择了最佳的基因组组装。使用默认参数,3D-DNA实现了大多数染色体的聚类。然而,仍然存在一些染色体聚类错误和contig易位和反转,这些都是使用Hi-C图识别的。然后,作者设计了基于EagleC的染色体水平基因组组装质量评估标准。这可以快速准确地识别组织错误,并能够以表格的形式报告基因组组装中的错配百分比,以便于纠正这些组装错误(图4c)。根据EagleC的建议,完成了基因组组装的调整,并使用Racon进行了纠错,使用TGS GapCloser进行了补洞。最后,使用五个碱基端粒重复序列(’TTAG’)作为序列查询,鉴定到了50个端粒,并构建了28个假染色体用于家蚕(P50T HiFi)基因组(图4a,c)。根据EagleC的报告,这些差异区域是由几个Mb级组装错误造成的,例如Chr24(图4e)。P50T SilkBase组装中的组装错误也通过5个蚕基因组组装的Chr19平行图得到证实(图4d)。尽管CLR和ONT的基因组组装质量不如HiFi,但在使用EagleC和3D-DNA(基于Hi-C)处理后,两者都完成了非常高的连续和完整的染色体水平基因组组装(图4b)。

图4 不同家蚕品系染色体水平基因组组装总结

对于鳞翅目害虫的基因组测序,作者建议使用HiFi和Hi-C测序,然后使用hifiasm和3D-DNA进行组装和染色体组装,这实现了最佳的单倍体基因组组装。对于已经通过ONT或CLR测序的物种,作者建议NextDenovo、3D-DNA和EagleC进行染色体级基因组优化

正式预售丨希望组引进多台PacBio大型测序平台Revio,大规模HiFi测序服务正式开启预售

2022年10月25日,PacBio宣布推出新一代Revio高通量HiFi测序平台,全新设计的SMRT测序芯片和高性能计算模块使Revio平台能够大幅提高通量并显著降低测序成本,同时利用HiFi测序技术的“既长又准”的优势,可以轻松实现大规模群体基因组项目的全类型变异检测。

Revio测序平台一经发布,希望组(GrandOmics)立即确定引进多台Revio测序系统,并将配套Revio测序系统进行生物技术和生信算法的工具研发,构建基于高通量Revio测序的完整生态系统,从而使客户能更容易得到全面的服务升级,让HiFi测序应用于科学研究和临床诊断没有障碍。

2022年11月18日,在希望组10年的三代测序技术开发和应用服务的经验积累基础上,正式面向全球提供基于Revio平台的HiFi测序预售服务。

首先,让我们来再次介绍Revio系统的基本情况:

Revio测序系统通量提升15倍,成本大幅下降

根据PacBio官方信息:Revio采用了全新的SMRT Cell芯片,该芯片上有2,500万个零模波导孔(ZMW),是现有芯片(800万个ZMW)的3倍。Revio能同时并行4张SMRT Cell,可同时提供多达1亿个ZMW进行单分子实时测序。结合计算模块的升级换代,Revio将提供更短的运行时间,并将单台设备HiFi测序通量提升15倍(图1)。

图1 Revio测序系统HiFi数据通量提升15倍(数据来自PacBio)

Revio采用最先进的NVIDIA GPU加速系统,与Sequel IIe相比,Revio的计算能力提高了20倍。GPU为碱基识别和HiFi读序生成提供了更加快速的响应时间,与Revio系统的测序通量保持同步。Revio还将与Google Health开发深度学习方法集成到测序仪中,以此提高HiFi的产量和测序准确性(图2)。

图2 Revio测序系统HiFi数据准确度提升(数据来自PacBio)

Revio能够提供每年以30X覆盖度多达1300个人类全基因组进行测序的能力,将基于HiFi的人类全基因组测序推进至1,000美元级别时代。凭借通量的提升和成本的下降,Revio将使HiFi测序能够支撑人类遗传学、癌症研究、农业基因组学等领域的大规模研究。

希望组基于PacBio Revio测序平台,结合自身技术储备正式提供以下服务内容:

1. 全基因组测序(HiFi-WGS)
基于PacBio Revio测序技术,可直接进行甲基化检测,并配合希望组自主研发的基因组结构变异自动化分析工具GrandSV+GrandSTR,可以很好的检测复杂的结构变异,全面解析甲基化+结构变异+单体型。Revio可提供每年多达1300个30X覆盖度的人类基因组测序能力。针对人类、动植物群体三代测序全基因组研究,即将成为全球新的热点!

2. T2T基因组组装(HiFi-T2T)
利用PacBio Revio测序,常规基因组组装已经可以达到非常高的质量,结合希望组开发的纳米孔BAC-long(150Kb)测序和Bionano光学图谱,再利用希望组开发的NextDenovo2组装软件及NextPolish2矫正软件,我们可以轻松实现大规模群体基因组T2T组装任务。

3. 泛基因组测序(Pangenome)
泛基因组运用高通量测序及生物信息分析手段,通过具有内在关联的不同亚种个体测序分析,并分别进行组装,不仅可以获得多个基因组信息,完善该物种的基因集,还可以获得个体特有的DNA序列和功能基因信息,有利于理解物种形成的分子进化机制及其与自然选择的关系。得益于PacBio Revio测序系统的高通量高准确度优势,解除了通量限制,开启泛基因组研究高精度时代!

4. 罕见病队列基因组研究
罕见病诊断与研究,一直是基因组医学的核心任务之一。尽管短读长测序技术已经革命性改善了罕见病诊断与研究,但是基因组变异的复杂性,还是给我们带来了很多困难,尤其是复杂结构变异、串联重复、单体型分型、甲基化分析等内容,需要不同的技术手段进行分析,费时费力。通过PacBio Revio平台,我们可以轻松实现一次性测序,全面变异检测,将极大的提高罕见病诊断与研究的水平。为此,希望组不仅开发了专门分析三代测序的GrandVariants软件系统,还开发了dbSV/dbSTR大规模三代测序全基因组数据库,可以极大提高三代测序罕见病诊断与研究的效率。

让我们借助最新技术的应用,给生命带来希望!

预售热线
电话:15387037487
邮箱:inquiry@grandomics.com

文献解读|Nature Communications!基于粪便微生物的机器学习用于多类疾病诊断

近期研究表明肠道微生物失衡会导致人体各类疾病。目前微生物标记的开发主要是使用二元分类,然而现有证据显示大多数健康状况都表现出重叠的肠道微生物组特征,因此单一疾病诊断模型很可能被其他无关疾病混淆甚至出现错误诊断。尽管多元分类诊断模型已经在尝试开发中,但分析过程中对于公共数据集的依赖和涉及到的异质性、技术偏差和批次效应都大大限制了该模型的准确度。

研究思路

研究结果

作者对2320名香港华人(平均年龄54.9岁,48.7%为女性)的粪便样本进行了宏基因组测序,这些样本包含9种典型疾病:结直肠癌(CRCn=174)、结直肠癌腺瘤(CAn=168)、克罗恩病(CDn=200)、溃疡性结肠炎(UCn=147)、,肠易激综合征(腹泻亚型,IBS-Dn=145)、肥胖(n=148)、心血管疾病(CVDn:143)、急性新冠肺炎综合征(PACSn=302)和健康对照组(n=893),并鉴定了1208种细菌。

01.不同表型的共享微生物组特征

通过多元关联分析,这9种疾病与215种细菌分类群在物种水平上共有1061个显著的关联(FDR<0.05)。在这215个物种中,超过94%的物种与两种或两种以上的疾病显著相关,这与以前的报道一致,即不同的疾病之间共享许多信号。例如,肺炎克雷伯氏菌(Klebsiella pneumoniae),一种特征明显的病原体,与CDCRCIBS-D、肥胖症、PACSUC呈正相关,而Roseburia intestinalis,一种具有生产丁酸盐特性的益生菌,与这六种疾病表型呈负相关。虽然各种疾病都有共同的微生物特征,但这些发现表明存在着疾病特有的微生物组成。然而,二元分类器是否能捕捉到这些疾病的特异性特征尚不清楚。在不相关的疾病中测试了训练的二元模型的特异性,结果显示误诊率很高。这些结果表明,二元分类器未能捕捉到仅基于单一疾病与对照样本的真正疾病特异性特征。

02.基于粪便微生物组的多类诊断模型的建立

基于2320名香港华人的队列,训练了五个机器学习多类分类器(RFK近邻(KNN)、多层感知器(MLP)、支持向量机(SVM)、和图卷积神经网络(GCN))来分类不同的疾病,使用来自训练集的物种水平数据(70%的样本与队列具有相同的类别比例),并从保留的测试集(30%的样本,图1a)中展示其最终表现。所有这些模型的平均AUROC0.670.99(四分位数范围,IQR 0.810.92),表明基于粪便微生物组的多类疾病分类是可行的。其中,RF多类模型对于测试集中的不同疾病表型实现了0.900.99的平均AUROCIQR 0.910.94,图1b)。测试集中RF模型的性能显著优于所有其他模型,并且与训练集的性能相似,表明该分类器的高度完整性。因此,使用RF多类模型进行进一步分析。在基于最高约登指数的阈值下,RF多类别分类器的灵敏度范围为0.810.95IQR 0.870.93),对不同疾病的特异性为0.760.98IQR 0.830.95),准确度为0.770.98IQR 0.820.92,图1c),突出了良好的诊断性能。

基于粪便微生物组的机器学习用于多类疾病诊断

03.在独立数据集上验证多类模型

作者整合了来自亚洲、欧洲和北美的12个公共数据集的1597个鸟枪粪便宏基因组数据。RF多类别分类器在分类不同疾病时显示平均AUROC0.690.91IQR 0.790.87),并且通常优于所有其他模型。为了进一步验证模型的准确性,作者选择了60名新冠肺炎感染完全康复的患者。训练模型显示,将这些受试者分类为健康者的准确率为83.3%。这些数据证实,完全康复的新冠肺炎存活者(无PACS)与健康人具有相似的肠道微生物群特征。此外,还测试了训练数据集中未包括的疾病的训练RF模型,包括肝硬化和便秘为主的IBS数据集。作者发现,使用RF多类别模型,由于大多数受试者未达到相应阈值,因此无法进行预测的可能性很高,并且可能被归类为待定。而且,每种表型的误分类率从0%0/60CACVDIBS-D,肥胖)到5%3/60CDCRCPACS),这表明该模型对队列中的9种表型具有高度的特异性和准确性,对无关疾病的误分类风险很低。

04.细菌特征和表型之间的关联

最后,研究人员将对模型贡献最大的前50个细菌物种与不同的疾病表型相关联,发现在测试集中,这50个细菌物种对不同疾病的平均AUROC0.88-0.99,而在公共数据集中的平均AUROC0.67-0.90。此外,研究人员在这50个物种与不同的疾病表型之间共发现了363个明显的关联(香港队列,FDR<0.05,图2)。与健康对照组相比,几乎所有疾病状态都与厚壁菌门或放线菌门的微生物群丰度显著降低和拟杆菌门的显著增加有关。这种共享的微生物特征可以作为区分健康和疾病的基础。进一步,研究发现尽管CRC患者和CA患者的肠道细菌组成相对相似,但与健康对照组相比,CRC患者的Parvimonas micra丰度显著高于CA患者,表明Parvimonas micra可作为区分CRC与结肠直肠腺瘤的标志物(图2)。

对于其他疾病,微生物组差异主要由放线菌驱动。肥胖受试者显示出Actinomyces naeslundiiActinomyces odontolyticusActinomyces oris的增加,而IBS-D受试者显示出Collinsella aerofaciensCollinsella stercoris的增加。研究人员进一步将公共数据集中的细菌和表型相关联,发现许多疾病的特异性生物标志物在不同的数据集中是稳定的。这些结果表明,多类分类模型可以捕获不同疾病的特异性微生物特征,具有强大诊断性能。

图2 与健康状况或不同疾病表型相关的微生物物种

这种基于微生物组的多疾病分类模型在疾病诊断和治疗反应监测中具有潜在的临床应用,值得进一步探索。

Next系列软件应用 | 桃金娘科首个T2T基因组研究成果公布

桃金娘(Rhodomyrtus tomentosa)是一种重要的药用植物,成熟果实呈紫色。先前的研究初步确定了桃金娘中花青素的合成类型和药理作用。然而,很少有人研究桃金娘花色苷和其他生物活性物质。

发表期刊:Horticulture Research  
发表时间:2023.01

研究思路

研究结果

1.桃金娘T2T无gap参考基因组

LFSTJN-1被选择用于T2T无gap参考基因组组装(图1A)。结果表明,桃金娘的基因组约为450.77Mb,杂合度为0.29%。使用Hifiasm对PacBio-HiFi数据进行组装,对于ONT数据使用NextDenovo进行组装,并用NextPolish软件对其进行纠错。在填补所有空白后,产生了一个470.35Mb的桃金娘无gap基因组,包含11条染色体,contig N50为43.80Mb。使用七个碱基端粒重复序列(’CCCTAAA’)作为序列查询,鉴定到所有22个端粒,并构建了桃金娘基因组的11个T2T伪染色体(图1C;补充表2)。11个伪染色体中都鉴定出着丝粒,长度在0.35Mb至3.49Mb之间(图1C)。

图1 桃金娘的基因组组装和基因组特征

NextDenovo/NextPolish软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

2.桃金娘基因组组装的质量评估

采用了多种数据和方法对桃金娘基因组进行组装。HI-C矩阵表明,11条染色体被充分和合理地组装(图1B),其数量与以前的记录一致。同时,调查和组装中使用的短读数和HIFI读数数据的比对显示出约99.96%和约99.93%的定位率。BUSCO评估表明,97.7%和99.0%的核心保守植物基因在组装中完整。长末端重复序列(LTR)的完整性测试显示,该组装的LTR组装指数(LAI)为16.16,与无gap组装类似。这些数据表明桃金娘基因组组装质量高。

3.桃金娘基因组进化

系统发育进化分析表明,桃金娘属和石榴属之间的分歧时间约为1437万年前(MYA),而953个和714个基因家族分别显示了桃金娘的扩张和收缩(图2A-B)。三种桃金娘科植物和石榴属植物之间的共线性分析表明,它们是完全连续的共线性。同时,在与桃金娘的比对中,巨桉(E. grandis,桃金娘科桉属)比番石榴(P. guajava,桃金娘科番石榴属)检测到更多的染色体倒置,这可能导致桃金娘科内部的分化(图2C)。

桃金娘科物种的同义替换位点(Ks)的分布在Ks≈1.25处达到峰值,这表明桃金娘与其他桃金娘科植物共享一个共同的近期WGD事件(图2D)。进一步确定了桃金娘科的WGD事件在66.58–95.50 MYA发生(图2A)。

图2 桃金娘与其他物种的系统发育和共线性分析

4.桃金娘器官间基因表达模式与果实软化相关代谢

为了探索桃金娘器官中的基因表达模式,研究者使用来自不同器官和发育阶段的10种类型样本中的25038个表达基因构建了加权相关网络(WGCNA)。先前关于番石榴的研究表明,果实软化和成熟的过程与细胞壁活性和淀粉降解有关。桃金娘是进一步探索桃金娘科肉质果实发育机制的良好材料。相关分析检测到器官和样本发育阶段高度相关的共表达模块(r>0.8)(图3A)。与番石榴相似,桃金娘的淀粉含量随着果实发育而降低(图3C)。根据KEGG注释,鉴定到桃金娘7个家族中的20个淀粉降解相关基因。相关基因的表达分析表明,淀粉-聚糖过程(GWD/ISA)基因主要在F1阶段表达(图3D)。F3和F4中鉴定出多个参与单糖或多糖代谢的高度特异性表达基因拷贝,包括RmAGL-1RmAGL-2RAMY-1RMBAMM-5。此外,这些参与淀粉降解的基因在叶片或茎衰老过程中也高度表达。这与多种物种的器官老化过程一致。

图3 桃金娘不同组织中的基因表达模式及淀粉降解途径

5.桃金娘果实发育过程中与色素和花青素合成相关的代谢产物和基因表达模式

果实成熟期间的着色是桃金娘的一个指示性特征(图4A)。形态学观察和总花青素含量的测定表明,在F3至F4期间,桃金娘果实中的花青素含量急剧增加,果实颜色也变为紫色(图4A-B)。

UP-MS的代谢产物分析在来自桃金娘三个器官的6种样品中检测到189种黄酮类化合物。这些代谢物分为9个丰度集群(图4C)。在花青素合成的核心过程中,包括RmCHI-1RmCHI-2RmF3HRmDFRRmANS,都在F3阶段高度表达。这一趋势对应于从F3到F4(开花后75到90天;图4C-D)桃金娘果实颜色花色苷含量的急剧变化和增加。

图4 代谢产物丰度聚类和黄酮类化合物(主要是花青素分支)合成途径

6.桃金娘科植物果实的着色和花青素的积累

本研究用番石榴和桃金娘作比较,番石榴果实中的花青素合成活性没有增强,与番石榴果实的底色一致(图4D-E)。此外,对这两个物种的花青素合成下游途径的比较研究表明,OMT基因的CNV(拷贝数变异)是花青素糖基化所必需的。由串联重复拷贝数变化产生的两个基因拷贝(RmOMT 4/RmOMT-5)位于1号染色体末端(图5A)。表达分析表明,RmOMT-4的表达在果实中特异性增加,而RmOMT-5也在果实成熟的所有阶段表达,但在根部表达最高(图4D)。基于系统发育关系的亚家族分析表明,桃金娘中的GSTU亚家族基因多于番石榴(图5B)。该亚家族被证明参与花青素转运,值得进一步研究。

图5 分析基因拷贝数、MYB和GST基因家族系统发育、MYB差异表达基因以及正向选择基因

7.正选择的MYB基因对桃金娘花色苷合成的潜在影响

研究者发现番石榴中四个MYB基因的同源基因中没有检测到高表达(图5C)。系统发育分析表明,RmPAP1RmPAP2与拟南芥中的PAP1MYB75PAP2MYB90)以及AtMYB113聚集,其高表达已被证明可促进花青素合成。这两种MYB转录因子的共表达网络包含花青素合成途径中的九个基因(图5D)。同时,对桃金娘科植物中正选择基因的检测表明,这些基因包含32个MYB转录因子,包括RmPAP-2RmMYB113。这种种间表达趋势的差异和花色苷的MYB调节因子进化中的正向选择可能会导致桃金娘的果实着色(图5E)。

本研究介绍了桃金娘科第一个无gapT2T基因组,确定了桃金娘花色苷的主要化合物及其合成途径。基因表达的模式分析和通路识别进一步丰富了对桃金娘肉质果实发育的认识。比较基因组和基因表达分析为果实中花青素的积累和着色提供了可能的机制。该基因组组装为研究桃金娘科肉质果实的起源和加速桃金娘的遗传改良奠定了基础。

Next系列软件应用 | 白菜近完成图组装为着丝粒的进化提供了新的见解

白菜基因组是芸薹属首个也是使用最广泛的参考基因组,然而,目前的白菜参考基因组(Chiifu v3.0)仍有407个缺口和1.45Mb的相对较短的contig N50,完整的基因组序列信息对于理解基因组结构和进一步促进关键农艺性状的遗传改良至关重要。本研究中,使用ONT测序和Hi-C技术,展示了第一个白菜近完成图,代表了最高的完整性、可靠性和质量,将推动未来芸薹属基因组结构和功能基因的发现。

发表期刊:Plant Biotechnology Journal  
发表时间:2023.01.23

研究思路

研究结果

1.白菜基因组组装  
本研究使用ONT和Hi-C技术对白菜(Chiifu-401-42)进行了测序。使用NextDenovo(v2.5,https://github.com/Nextomics/NextDenovo)进行校正ONT和Illumina读数得到的contig。生成了12个contigs,contig N50为38.26Mb。利用Hi-C数据进行支架构建后,将所有contigs锚定在十条染色体上(图1)。

NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

图1 白菜基因组组装

2.ALECRM LTR对白菜着丝粒的侵袭

序列分析显示,94.23%的着丝粒区域被LTR占据(图2a)。在Chiifu v4.0的这555个着丝粒基因中,17.66%被转录,远低于整个基因组的基因转录比。为了更好地理解着丝粒的远程组织,生成了一个热图,显示了着丝粒上的成对序列身份。结果表明,在Chiifu v4.0中,着丝粒被破坏成着丝粒序列中的不同区域(图2b-c)。值得注意的是,在12个FL-LTR -RTs家族中,539个ALE和281个CRM LTRs在着丝粒的这些侵入区域内的拷贝数显著增加(图2b-c)。这些结果表明,着丝粒主要受到ALECRM LTR的入侵,进一步形成了白菜的着丝粒结构。

图2 白菜参考基因组Chiifu v4.0的着丝粒特征分析

3.白菜基因组着丝粒的多样性

染色体共线性分析表明,在所有白菜参考基因组中,同源着丝粒很少或没有序列共线性。例如,与染色体臂不同,Chiifu v4.0和基因组“A03”之间的着丝粒CentA04几乎没有序列共线性(图3a)。将Chiifu v4.0的其他七个完整着丝粒与基因组“A03”、ECD04和Z1 v2的同源着丝粒进行比较时,也观察到了很小的序列共线性。总之,这些结果表明,在不同的白菜基因组中,着丝粒是高度可变的。

图3 白菜基因组染色体共线性分析

4.快速扩增的LTR驱动着丝粒的进化

作者进一步注释了基因组“A03”、ECD04和Z1 v2中的FL-LTR-RT。在基因组“A03”、ECD04和Z1 v2的着丝粒区域共鉴定出1 001、993和767个FL-LTR-RT,这与Chiifu v4.0的着丝粒中FL-LTR-RTs的数量相似(图3b)。分析FL-LTR-RT在着丝粒中的插入时间表明,在Chiifu v4.0、“A03”、ECD04和Z1 v2中,78.83%-86.04%的FL-LTR-RTs扩增≤0.5 MYA,38.57%-57.78%的FL-LTR-RT扩增≤0.1 MYA。相比之下,在Chiifu v4.0、“A03”、ECD04和Z1 v2的着丝粒中,5.64%-7.86%的扩增>1MYA(图3b)。此外,在Chiifu v4.0、“A03”、ECD04和Z1 v2的着丝粒中分别检测到539、612、605和451个ALE  LTRs和281、261、214和214个CRM LTRs(图3d)。这些发现表明,LTRs是共享的,但在白菜的着丝粒中显示出不同的年龄和拷贝数。

根据最近的一项研究,作者将年龄≤0.5 MYA的FL-LTR-RT定义为年轻LTR,将年龄>0.5 MYA定义为老年LTR。FL-LTR-RTs的年龄分布分析表明,白菜LTR的着丝粒区域丰富(图4a)。Chiifu v4.0中不同染色体区域的LTR插入时间的进一步比较表明,着丝粒中的FL-LTR-RT显著年轻(平均0.14 MYA),比全基因组的FL-LTR-RT(平均0.32 MYA(图4b)。发现Chiifu v4.0中着丝粒中心部分的LTR比着丝粒的其他部分年轻得多(图4c)。此外,在Chiifu v4.0中发现了83个FL-LTR-RT的嵌套插入事件,这些事件远少于黑芥。总之,该结果表明,LTR在着丝粒中快速扩增,这可能会驱动白菜着丝粒的进化。

图4 白菜参考基因组Chiifu v4.0的着丝粒中的LTRs插入时间分析

5.旧的LTRs富集于白菜的近着丝粒

在Chiifu v4.0中比较了外周着丝粒和其他染色体区域之间LTR的插入时间后,作者发现近中心点中FL-LTR-RT的插入时间(平均0.51 MYA)明显比整个基因组的插入时间长(平均0.32 MYA),并且比着丝粒中的插入时间更长(平均0.14 MYA(图4b))。在基因组“A03”、ECD04和Z1 v2中发现了类似的模式(图4b)。比较近着丝粒和着丝粒之间的LTR发现,Gypsy LTRs在近着丝粒富集,而着丝粒富集的CopiaGypsy LTRs更多(图5c-e)。此外,Gypsy LTRs的插入时间(平均0.29-0.38 MYA)显著长于Copia LTRs(平均0.14-0.22 MYA)(图5f),这可能是白菜近着丝粒中LTRs插入时间早于着丝粒的原因。

图5 LTRs富集在白菜的近着丝粒

总之,接近完整的基因组组合,白菜Chiifu v4.0为芸薹属研究界提供了关键的基因组资源,并揭示了白菜中着丝粒的快速进化。这些资源将为阐明芸薹属植物的基因组结构和功能提供坚实的基础。

项目文章 | Nat Commun! 利用ONT测序揭示基因组结构不稳定性驱动piRNA进化历程以保护基因组完整性的机制

近日,美国罗切斯特大学医学中心生物化学和生物物理学系RNA生物学中心联合西北农林科技大学动物科学与技术学院、加拿大麦吉尔大学在Nature Communications杂志发表了题为“Amniotes co-opt intrinsic genetic instability to protect germ-line genome integrity”的论文。论文通过对鸡、鸭、小鼠和人类的比较研究,以及对不同品种鸡的长读长纳米孔测序,揭示了粗线期piRNA的功能,以及其快速进化历程。

美国罗切斯特大学的孙禹,西北农林科技大学的崔宏晓,美国俄亥俄州立大学的宋驰和浙江大学医学院附属第四医院的沈加飞为并列第一作者,加拿大麦吉尔大学的赵辛和美国罗切斯特大学的李鑫为共同通讯作者。希望组梁帆、陶庆参与了该项研究工作。

研究思路

01鸟类粗线期piRNA迅速分化
为了揭示鸡piRNA的表达图谱,研究者通过收集鸡(雅典加拿大肉鸡随机繁殖品系,ACRB)在八个关键发育阶段(第1天至30周性成熟;图1a,i)的睾丸组织,分析了第一波精子发生过程(图1a,i)的RNA变化。大多数piRNA在12至18周的过渡期表达(图1a、ii和iii),即精子发生第一波过程中减数分裂的时期。这一阶段与CIWI的mRNA表达一致(图1a,iv),CIWI是一种PIWI家族基因,其在小鼠中的同源基因与粗线期piRNAs特异性结合。研究者还检测到粗线期精母细胞胞浆中CIWI蛋白的阶段特异性染色(图1b),并绘制出了八个发育阶段中每个piRNA基因座的piRNA丰度,发现在粗线期检测到大量表达,而在早期阶段几乎没有piRNA(图1c),表明成年睾丸中的大多数piRNA都是粗线期piRNA。与哺乳动物粗线期piRNA类似,成年鸡睾丸中的大多数piRNA不是来自重复区域或基因区域(图1a,iii)。这些结果表明鸡中存在粗线期piRNA,而且粗线期piRNA在鸟类和哺乳动物生殖细胞发育过程中大量表达。在功能水平上,虽然在鸭睾丸中检测到大量的piRNA,但与鸡piRNA基因座同源的136个基因座并不产生piRNA(图1d)。研究者得出结论,哺乳动物和鸟类粗线期piRNA的共同特征是快速分化。考虑到与哺乳动物基因组相比,鸟类基因组在核苷酸序列、基因共线性和染色体结构方面表现出高度的进化停滞,piRNA在哺乳动物和鸟类之间的快速分化是其进化的共同特征。

图1 鸡粗线期piRNA的存在

02piRNA基因座是鸟类和哺乳动物的结构变异(Structural variation,SV)热点
研究者使用ONT进行测序,并达到每只鸡31X的测序深度。与未驯化野生鸡的参考基因组相比,每只家鸡共发生17321±777次SV事件(图2a,b)。虽然piRNA基因座仅占鸡基因组的0.98%,但SV发生在粗线期piRNA基因座的频率更高:12.4%的串联重复、19.4%的倒位、1.7%的缺失和1.2%的插入与piRNA基因座位重叠(图2a,iii)。同时发现,在piRNA基因座中,串联重复、倒位和缺失的富集是显著的(图2c)。

piRNA基因座中的SV也与piRNA在表达量(图3a)、正义/反义链表达方向(图3b)和不同piRNA序列的相对丰度(图3c)的变化相关。研究者量化了piRNA丰度、链偏向性和香农多样性指数的个体差异,发现piRNA基因座内的SV区域显著高于缺乏SV的piRNA基因(图3d)。因此,与SV热点重叠与piRNAs的快速分化相关。

图2 鸡piRNA位点是SV热点

图3 实现piRNA可塑性的保守机制

03piRNA位点与SV热点重叠的收敛进化
研究者设想了导致piRNA基因座和SV热点之间关联的三种可能机制(图4a):(1)piRNA基因和SV热点独立起源,它们的重叠是在共同选择压力下趋同进化的结果(收敛假说);(2) SV热点首先出现,增加了基因组区域进化为piRNA基因座的机会(突变假说);以及(3)保守的分子机制将piRNA的生成与SV的形成联系起来(保守假说),例如piRNA的产生导致基因组不稳定性或SV造成的DNA损伤触发了piRNA的形成。研究者发现与随机打乱的基因组序列相比,鸡piRNA位点对转座子(Transposable element,TE)的富集显著,但节段重复(Segmental duplication,SD)相对缺失(图4b)。总之,该数据表明,鸡、小鼠和人类piRNA基因座上的SV热点是独立形成的,由不同的突变机制导致(图4c)。因此,趋同进化导致SV热点和粗线期piRNA基因座在鸟类和哺乳动物的基因组中重叠。

图4 趋同进化驱动了SV热点和粗线期piRNA位点之间的关联

04粗线期piRNA的保守功能是抑制活跃的转座子
与基因组的其余部分相比,小鼠和人类粗线期piRNA基因座中的活跃TE序列并没有更少:小鼠的比例为1.6%,人类为1.0%(图5a)。研究者利用了Mov10l1突变体小鼠进行研究,该突变体可以正常进行减数分裂,但在圆形精子细胞阶段停止发育。在对圆形精子细胞成像发现,Mov10l1突变体中有8±2个γH2AX聚焦点(DNA损伤的标志物),而野生型细胞则没有任何聚焦点(图5b)。利用RNA-seq发现,尽管83%的TE家族(1223个家族中的1020个)的表达没有改变,但大多数活跃TE家族的表达在Mov10l1突变体睾丸中显著增加(图5c)。通过对Mov10l1突变体睾丸中的piRNA Ping-Pong信号分析显示,靶向这些TE的piRNA引导的切割显著减少(图5d),从而表明Mov10l1突变体睾丸的TE是被靶向TE的粗线期piRNAs所抑制。尽管只有2.4%的鸡粗线期piRNA基因座编码活跃的TE,但所有活跃的TE家族都被粗线期piRNA靶向(图5e)。

图5 抑制活跃转座子是粗线期piRNA的保守功能,同时也驱动了粗线期piRNA进化

05piRNA变异和有害SV之间的适应性平衡
与不产生piRNA的其他SV热点相比,研究者发现piRNA基因座与人类和鸡的蛋白质编码基因显著更接近(图5f),表明源自piRNA位点的SV比其他SV热点更可能损害蛋白质功能。人染色体15q上的多个致病性SV位点就是一个典型的例子(图5g)。这些SV仅在年轻的piRNA基因座中富集,这表明它们不会在长期进化过程中被选择下来。因此,粗线期piRNA基因座比其他SV热点更有害,SV热点通过产生新的piRNA来保护基因组完整性的功能产生的益处使得源自piRNA基因的SV在体细胞中的致病作用是可以忍受的。

项目文章 | 超长测序+NextDenovo助力盾叶薯蓣高质量基因组解析与薯蓣皂苷生物合成进化

自1930年代中期从山萆薢(Dioscorea tokoro)根状茎中分离出薯蓣皂素,特别是1943年以薯蓣皂素为起始原料成功地合成黄体酮以来,由于简便、经济,薯蓣皂素成为不可替代的合成甾体激素类药物的理想原料已近90年。薯蓣属植物中,部分物种具有重要的食用价值,很多薯蓣属植物根状茎/块茎中含薯蓣皂素,最高记录为我国特有种盾叶薯蓣(Dioscorea zingiberensis),其单株根状茎薯蓣皂素最高含量达16.15%。盾叶薯蓣也因此被认为是世界上最理想、最重要的甾体激素药源植物之一。薯蓣皂素在植物体内通常以薯蓣皂苷形式存在。研究薯蓣皂苷的生物合成、起源和进化具有重要意义。然而,由于薯蓣属植物遗传背景复杂,缺少高质量的染色体级别基因组信息,薯蓣皂苷生物合成与演化机制的研究难以深入。

近日,Horticulture Research 上线了(Advance Access)武汉大学李家儒课题组题为The genome of Dioscorea zingiberensis sheds light on the biosynthesis, origin and evolution of the medicinally important diosgenin saponins 的研究论文。

该研究采用三代Oxford Nanopore、Hi-C、10X Genomics技术进行盾叶薯蓣全基因组测序,组装得到一个染色体水平的参考基因组。本次发布的盾叶薯蓣基因组大小为629 Mb,contig N50为1.16 Mb,scaffold N50 为55.78 Mb。共有93.39%的基因组序列被组装到10对染色体上(图1a)。BUSCO和CEGMA分析结果显示基因组完整性分别为96.84%和97.98%,表明基因组组装完整性较高。希望组为本研究提供了测序及Nextdenovo软件服务,并参与了基因组组装、注释及后续分析工作。

研究发现,盾叶薯蓣基因组中存在大量扩张的基因家族(图1b),其中,参与薯蓣皂苷生物合成的基因家族如CYP450、UGT以及OSC等基因家族成员数量显著扩增,这可能是盾叶薯蓣能够大量合成薯蓣皂苷的主要原因之一。进化基因组分析表明盾叶薯蓣基因组经历了两次全基因组加倍事件(图1c)。通过推算基因组加倍事件发生的时间,基因串联重复事件以及薯蓣皂苷合成关键基因家族的复制时间,该研究表明,盾叶薯蓣基因组中全基因组加倍事件以及基因的串联重复产生了大量的基因家族成员扩增,这为盾叶薯蓣中薯蓣皂苷生物合成途径提供了关键的进化资源。

图1 盾叶薯蓣基因组的特征及基因组进化分析

通过盾叶薯蓣中薯蓣皂素时空变化、免疫组织化学定位及转录组分析,发现薯蓣皂素首先在叶片合成,转化为薯蓣皂苷,然后运输到地下根茎中储存(图2)。通过评估薯蓣属物种中薯蓣皂苷的分布和进化模式发现,薯蓣皂苷可能是薯蓣属植物中某种祖先性状被选择性保留。对13 种薯蓣属植物的转录组和代谢物进行比较分析表明,薯蓣皂苷生物合成通路基因的特定表达模式促进了薯蓣属植物薯蓣皂苷生物合成途径的差异性进化。

图2 盾叶薯蓣不同组织中薯蓣皂素的分布及基因表达水平比较

综上所述,该研究聚焦薯蓣属植物,在获得高质量染色体水平的盾叶薯蓣参考基因组的基础上,进一步深入解析了薯蓣皂苷的生物合成、起源与进化,为薯蓣皂苷的工业化生产提供了宝贵基因资源,也为植物特异代谢物的生物合成与进化研究,提供了新的视角和范例。

武汉大学生命科学学院博士生李毅为论文第一作者,武汉大学生命科学学院李家儒教授为该论文通讯作者,美国国家自然历史博物馆文军教授、美国华盛顿州立大学David Gang教授、中国科学院植物研究所漆小泉研究员、韶关学院包英华副教授、中国科学院西双版纳热带植物园陈江华研究员、广西大学陈玲玲教授和华中农业大学杨庆勇教授、希望组公司孙宗毅及王凯参与了该研究。该项目得到了国家自然科学基金项目(30370152、31270345和31470388)的资助。

项目文章| 1028Gb超长测序+NextDenovo助力六倍体栽培燕麦的起源与进化研究

燕麦作为谷物中最好的全价营养食品,因其富含蛋白质、不饱和脂肪酸以及可溶性膳食纤维而广受消费者青睐。同时,栽培燕麦是六倍体作物,它在生物量、活力和对环境变化的适应性方面均具有多倍体植物的显著优势,在应对粮食安全挑战中可以发挥其独特作用。

北京时间2022年7月18日晚23时,国家燕麦荞麦产业技术体系首席科学家任长忠研究员领衔的以四川农业大学和吉林省白城市农业科学院为核心的燕麦研究团队在《自然-遗传学》Nature Genetics 上发表了题为 “Reference genome assemblies reveal the origin and evolution of allohexaploid oat” 的研究论文。

原文来自该项目课题组

该研究工作由四川农业大学和吉林省白城市农业科学院联合中国科学院遗传与发育生物学研究所、四川大学、西昌学院、中国农业科学院和武汉希望组生物科技有限公司合作完成,并得到了国家燕麦荞麦产业技术体系,国家自然科学基金,吉林省人才开发基金和吉林省科技发展计划等项目的资助。

四川农业大学彭远英、颜红海、邓操,吉林省白城市农业科学院郭来春、王春龙和四川大学王毓博为论文共同第一作者,吉林省白城市农业科学院任长忠研究员、中国科学院遗传与发育研究所鲁非研究员、四川大学马涛教授、四川农业大学魏育明教授和彭远英教授为论文共同通讯作者。希望组参与组装注释以及部分分析工作。

该研究发布了栽培六倍体裸燕麦及其二倍体和四倍体祖先的参考基因组,并进一步选择能代表燕麦属现存所有基因组类型的二倍体、四倍体和六倍体材料结合全基因测序、叶绿体基因组和转录组分析,深入探究六倍体燕麦的起源与亚基因组进化。

基因组组装

燕麦(Avena sativa L., 2n = 6x = 42, AACCDD 基因组) 作为重要的粮饲兼用型作物,由于其基因组为异源六倍体组成,基因组大(~11G)、重复序列含量高(~87%)且亚基因组间存在大量的交换,导致其基因组组装难度较大,相关研究一直滞后。研究团队利用近20年的燕麦属物种研究经验,针对六倍体燕麦亚基因组构成及其在基因组组装中可能遇到的问题,设计了利用ultra-long三代测序结合HiC、二代测序、Iso-seq和RNA-seq,并同时组装栽培燕麦最可能的四倍体和二倍体祖先的策略。项目组首先选择来自裸燕麦起源中心的传统地方品种“三分三”为材料,基于1028Gb的三代超长序列,并使用650 Gb的二代数据进行校正,组装了10.76 Gb的燕麦基因组,基于1296 Gb的Hi-C数据将99.06%的基因组序列挂载到燕麦21条染色体上(表1)。基因组组装从contig N50(75.27Mb),LAI(18.34)、BUSCO(99.44%)以及与来自六倍体燕麦一致性图谱标记的共线性等多方面进行质量评估,均显示了所组装基因组的高质量。为了准确区分亚基因组并阐明六倍体燕麦的多倍化历史,我们对其最可能的祖先物种A. longiglumis(2n=2x=14,AlAl基因组)和A. insularis(2n=4x=28,CCDD基因组)同时进行了测序和组装,分别构建了3.74 Gb和7.52 Gb的二倍体和四倍体参考基因组。基于这三个物种染色体之间的相似性,我们明确了六倍体燕麦21条染色体的A、C和D亚基因组归属,完成了六倍体的染色体组装、挂载和注释,获得了燕麦染色体级别的高质量参考基因组(图1)。

图1 AlAl基因组二倍体、CCDD基因组四倍体和AACCDD六倍体栽培燕麦的基因组。a, A和D基因组染色体着丝粒位置;b, C基因组特异性重复序列Am1在染色体上的分布。其中,三分三的的1A、2D、3D、4D和5D染色体上富含Am1的区域是C基因组渗入;c, A基因组特异性重复序列As120a在染色体的分布;d,k-mer频率;e,串联重复(TR)密度;f, LTR密度;g,基因密度;h,染色体名称和大小。最内层显示六倍体及其祖先物种的共线性,上层的彩色表示每个六倍体染色体及其祖先染色体的共线性,灰色的下层显示六倍化后的染色体重排。

系统进化基因组分析

为进一步阐明燕麦在禾本科谷类作物中的进化地位,我们进行了主要禾谷类作物的系统进化基因组学分析。通过鉴定到的2237个同源单拷贝核基因对燕麦及其相关禾谷类作物的系统分析结果表明:燕麦族和小麦族之间的分化发生在稻族形成之后,且燕麦族与多花黑麦草的亲缘关系比与小麦族更近。通过与以水稻为代表的祖先核型和普通小麦的三个亚基因组进行比较,明确燕麦不同亚基因组的核型进化历史并发现在燕麦中存在大量染色体重排(图2)。

图2 禾谷物作物的系统基因组关系。a,燕麦及其相关禾谷类作物系统发育和分化时间;b,燕麦族、多花黑麦草和小麦族中共享和独特基因家族的数量韦恩图;c,燕麦和小麦可能的染色体进化核型模式。亚基因组染色体不同的颜色显示其来源于水稻不同的染色体(Os1–Os12)片段,水稻染色体可以作为祖先染色体核型(AGK1–AGK12)的代表;d,燕麦和小麦三个亚基因组之间的染色体共线性。

选择能代表燕麦属所有基因组亚型和不同倍性水平的物种进行基于全基因组重测序、转录组测序和叶绿体基因组的系统发育分析,结果一致表明Al/As基因组二倍体以及四倍体A. insularis 的C和D亚基因组分别与六倍体燕麦的A、C和D亚基因组具有最高的相似性,且通过叶绿体基因组确定D基因组是六倍体燕麦的母本供体,而C基因组二倍体作为栽培燕麦的父本基因组,通常比母系起源的基因组更容易发生染色体变异,与本研究中燕麦C基因组二倍体和多倍体物种的C亚基因组间相对较低的共线性一致。由此,我们明确了栽培燕麦的多倍化历史并提出了燕麦属物种的网状进化模式。现有的ACD基因组六倍体栽培燕麦是以Al/As基因组二倍体祖先为父本,和CD-基因组四倍体A. insularis为母本杂交加倍后形成的(图3)。

图3 六倍体燕麦的网状进化模式图

燕麦多倍化过程中的染色体结构变异

为了研究燕麦多倍化过程中发生的染色体结构变异,我们对二倍体、四倍体和六倍体物种进行了共线性分析。结果表明,在燕麦多倍化过程中发生了多次大的易位和倒位事件,我们通过荧光原位杂交证实了这些染色体结构变异(图4)。此外,在燕麦四倍体中主要是非同源染色体间的染色体易位,仅有3.91%发生在同源染色体之间,而六倍体中高达49.69%的易位是在同源染色体之间发生的,且六倍体燕麦中的同源交换有88.4%(931.94/1054.30 Mb)发生在A和D亚基因组之间,远高于A和C(11.2%,117.71/1054.30 Mb)或D和C(0.04%,4.66/1054.30 Mb),表明六倍化后的同源交换在栽培燕麦基因组结构的形成中发挥了重要作用,且在多倍体细胞核中关系更近的同源基因组更易于产生亚基因组间的重组,六倍体燕麦中A和D亚基因间相似性很高,而这两个基因组与C亚基因间的差异相对较大,因此同源交换主要发生在A和D亚基因组之间,且这两个基因组间大量频繁的染色体重组形成了类似马赛克的染色体镶嵌结构,这也是六倍体燕麦的A和D亚基因组起源问题一直存在争议的重要原因。

图4 燕麦属物种多倍化过程中的染色体结构变异。a,六倍体燕麦的亚基因组与可能的四倍体和二倍体祖先之间的共线性。黄色和蓝色箭头和线条分别代表观察到的来自A和C基因组的大染色体易位(>40MB)。深灰色箭头和线条表示四倍体A. insularis和“Sanfensan”之间3C染色体倒位;b,将C基因组二倍体序列比对到六倍体参考基因组显示C-A和C-D基因组间的大片段易位; c,C基因组特异性重复序列为探针的FISH证实了C-A和C-D基因组易位。来自A基因组特异性重复序列(As120a)的荧光信号以绿色显示,来自C基因组特异性重复序列(Am1)的信号以红色显示。白色箭头表示C-D和C-A基因组间易位;d, FISH验证六倍体燕麦基因组中3C染色体倒位。探针5SrDNA(红色)和6C343(绿色)分别在四倍体3C染色体的短臂和长臂上出现了明显的杂交信号,而这两个信号都同时出现在六倍体3C染色体的长臂。

六倍体燕麦中亚基因组优势

此外,多方面的证据显示六倍体燕麦在进化过程中已出现优势亚基因组(图5):首先PAV分析显示在C亚基因组中的基因丢失率较高,且C亚基因组中有更多收缩的基因家族;第二,Ka/Ks分析表明C亚基因组受到的纯化选择少于六倍体燕麦的其他两个亚基因组;第三,C亚基因组包含更多转座因子(TE),并且在基因附近显示出比A和D亚基因组更高的TE密度,而基因附近TE密度相对较高的基因往往具有较低的表达水平;第四,通过对干旱、水涝、高温、低温、盐胁迫和碱胁迫下以及燕麦不同组织的亚基因组的表达模式分析表明C亚基因组中表达的基因数量显著低于A和D亚基因组,这些结果均表明六倍体燕麦中存在亚基因组优势。

图5 燕麦属物种多倍化过程中的亚基因进化。a,四倍体和六倍体燕麦在多倍化过程中相对其二倍体亲本的同源基因丢失情况(PAV);b,六倍体燕麦三个亚基因组Ka/Ks值分布;c,六倍体燕麦三个亚基因组中基因附近TE密度的比较。相对于A和D亚基因组中的同源染色体,C亚基因组中基因附近的TE密度最高;d, 六倍体燕麦A、C和D三个亚基因组的同源基因表达差异。

燕麦抗病基因的定位和克隆

燕麦在生长中受到病害的威胁,其中最严重的是冠锈病。NBS-LRR蛋白质由一类抗性基因(R基因)编码,在植物免疫中发挥重要作用。我们在六倍体燕麦的三个亚基因组中鉴定了1269个R基因,与四倍体和二倍体不同亚基因组中鉴定的数量相比显示出收缩。大多数R基因在染色体端部成簇出现,且与燕麦已知的冠锈病基因QTL区段共定位,表明本研究构建的燕麦参考基因组可以为燕麦抗病基因的定位和克隆提供有效的参考(图6)。

图6 | R基因在燕麦基因组中鉴定及其在染色体上的分布。a, 比较六倍体燕麦及其假定祖先基因组中R基因数量;b,冠锈病抗性QTL位点和R基因在六倍基因组染色体上的分布。

燕麦的皮裸性状

栽培燕麦根据其籽粒外壳包被情况,分为皮燕麦和裸燕麦两类。燕麦籽粒的皮裸性状是重要的驯化性状之一(图7a)。本研究通过对659份不同来源地的栽培燕麦的49702个SNP进行了全基因组关联分析,在染色体4D末端检测到显著关联区域,与之前报道的控制皮裸性状的N1基因位点区域一致。候选基因预测筛选到一个注释为受体样激酶(RLK)的基因,该基因在拟南芥中的同源基因AtVRLK1参与次生细胞壁加厚,在水稻的同源基因mis2的突变体中显示开壳小穗。比较该基因在皮、裸燕麦中的编码序列差异,发现在第一个外显子中的SNP会引起氨基酸变化。根据该SNP位点开发竞争等位基因特异性PCR(KASP)标记验证了其与皮、裸性状的相关性;通过比较10个皮燕麦和12个裸燕麦之间的转录组数据,我们发现该基因在裸燕麦中高表达;同时,在燕麦不同发育阶段的穗部表达模式也表明该基因在裸燕麦穗部发育过程中的表达量远高于皮燕麦。这些结果表明A.satnudsfs4d01g00045是控制燕麦的皮裸性状可能的候选基因(图7)。

图7 燕麦裸粒性状的全基因组关联分析及候选基因预测。a,皮裸燕麦的小穗和籽粒;b,659个燕麦品种全基因组关联分析N1候选区域关联映射的曼哈顿图及其候选基因A.satnudsfs4d01g00045的基因结构;c,基因SNP差异的KASP标记验证A.satnudsfs4d01g00045与皮裸性状之间的关联;d,A.satnudsfs4d01g00045在10个皮燕麦和12个裸燕麦七个不同组织或不同发育时期等量混合的RNA样本中的表达水平;j, A.satnudsfs4d01g00045在裸燕麦“三分三”和皮燕麦“Ogle”穗部不同发育时期的表达水平比较。S1、S2、S3和S4分别代表孕穗期(Zadok’s 45)、抽穗期(Zadok’s 50)、开花期(Zadok’s 58)和灌浆期(Zadok’s 83)的穗。