Next系列软件应用 | NextDenovo软件脱颖而出,助力家蚕T2T基因组组装

鳞翅目物种大多是害虫,每年造成严重的经济损失。高质量的基因组测序和组装揭示了害虫发生的遗传基础,并为害虫控制措施提供了指导。长读长测序技术和组装算法的进步为组装高质量基因组打下基础,这就迫切需要选择合适的测序平台和组装策略来获得高质量的基因组信息。本研究参考了如何获得和评估高质量的基因组组装,并为鳞翅目害虫和相关物种的生物控制、比较基因组学和进化研究提供了资源。

研究思路

研究结果

1.ONT基因组组装

作者对ONT序列使用三种不同的长读长组装工具NextDenovo、wtdbg2和NECAT进行组装。结果表明,NextDenovo组装的基因组最小(约449–468 Mb),contig数约为89–114。wtdbg2组装的基因组最大(约452–794 Mb),contig数约为3273–13714,其连续性差,完整性低,组装质量较差。NECAT的组装质量介于NextDenovo和wtdbg2之间。NECAT组装的基因组大小约为561–581 Mb,contig数量约为688–851。

为了评估基因组组装的准确性,作者使用Inspector计算了结构错误和小规模错误的数量。其中NextDenovo的小规模错误数量最少,结构错误数量略低于wtdbg2(图2)。Wtdbg2具有最高的小规模错误数和最低的结构错误数。NECAT的结构误差最多,小尺度误差次之。

总之,对于ONT数据的组装,NextDenovo软件的组装效果最好

NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

图1 不同数据深度的CLR、ONT、HIFI组装的质量值(QV)评分和计算时间

图2 CLR、ONT、HIFI组装的结构错误

2.CLR基因组组装
CLR reads的组装使用四种不同的长读长组装工具(NextDenovo、Canu、wtdbg2和MECAT2)进行。当满足一定的测序深度(>=40×)时,每个基因组组装的contig数量差异不显著,NextDenovo的结果仍然最佳。所有组装(contig N50)的连续性随着测序深度的增加而增加,NextDenovo组装增加最明显(图3)。NextDenovo组装显示出最高的连续性(contig N50=9.41 Mb)、最小的大小(477 Mb)和最少的contigs(n=205)。总之,NextDenovo的整体表现最好,其次是Canu。

图3 测序深度对基因组组装影响

3.HiFi基因组组装

与CLR和ONT相比,HiFi组装的基因组连续性和完整性明显优于CLR和ONT。HiFi基因组组装的大小、连续性和完整性没有显著差异。最大的差异体现在contig数上,hifiasm组装的contig数目比HiCanu组装的少的多(图3)。与ONT和CLR相比,HiFi组装包含最少的结构误差和小规模误差(图2)。与其他两种测序方法相比,HiFi组装显示出最佳的组装质量、最低的contig、最高的连续性、准确性和完成度。它还需要最少的时间和计算机内存,可以被认为是未来鳞翅目害虫基因组的最佳测序方法。

4.基于Hi-C的染色体水平基因组的构建及质量评价

作者使用3D-DNA在染色体水平上构建基因组,为每种测序方法选择了最佳的基因组组装。使用默认参数,3D-DNA实现了大多数染色体的聚类。然而,仍然存在一些染色体聚类错误和contig易位和反转,这些都是使用Hi-C图识别的。然后,作者设计了基于EagleC的染色体水平基因组组装质量评估标准。这可以快速准确地识别组织错误,并能够以表格的形式报告基因组组装中的错配百分比,以便于纠正这些组装错误(图4c)。根据EagleC的建议,完成了基因组组装的调整,并使用Racon进行了纠错,使用TGS GapCloser进行了补洞。最后,使用五个碱基端粒重复序列(’TTAG’)作为序列查询,鉴定到了50个端粒,并构建了28个假染色体用于家蚕(P50T HiFi)基因组(图4a,c)。根据EagleC的报告,这些差异区域是由几个Mb级组装错误造成的,例如Chr24(图4e)。P50T SilkBase组装中的组装错误也通过5个蚕基因组组装的Chr19平行图得到证实(图4d)。尽管CLR和ONT的基因组组装质量不如HiFi,但在使用EagleC和3D-DNA(基于Hi-C)处理后,两者都完成了非常高的连续和完整的染色体水平基因组组装(图4b)。

图4 不同家蚕品系染色体水平基因组组装总结

对于鳞翅目害虫的基因组测序,作者建议使用HiFi和Hi-C测序,然后使用hifiasm和3D-DNA进行组装和染色体组装,这实现了最佳的单倍体基因组组装。对于已经通过ONT或CLR测序的物种,作者建议NextDenovo、3D-DNA和EagleC进行染色体级基因组优化

文献解读|Nature Communications!基于粪便微生物的机器学习用于多类疾病诊断

近期研究表明肠道微生物失衡会导致人体各类疾病。目前微生物标记的开发主要是使用二元分类,然而现有证据显示大多数健康状况都表现出重叠的肠道微生物组特征,因此单一疾病诊断模型很可能被其他无关疾病混淆甚至出现错误诊断。尽管多元分类诊断模型已经在尝试开发中,但分析过程中对于公共数据集的依赖和涉及到的异质性、技术偏差和批次效应都大大限制了该模型的准确度。

研究思路

研究结果

作者对2320名香港华人(平均年龄54.9岁,48.7%为女性)的粪便样本进行了宏基因组测序,这些样本包含9种典型疾病:结直肠癌(CRCn=174)、结直肠癌腺瘤(CAn=168)、克罗恩病(CDn=200)、溃疡性结肠炎(UCn=147)、,肠易激综合征(腹泻亚型,IBS-Dn=145)、肥胖(n=148)、心血管疾病(CVDn:143)、急性新冠肺炎综合征(PACSn=302)和健康对照组(n=893),并鉴定了1208种细菌。

01.不同表型的共享微生物组特征

通过多元关联分析,这9种疾病与215种细菌分类群在物种水平上共有1061个显著的关联(FDR<0.05)。在这215个物种中,超过94%的物种与两种或两种以上的疾病显著相关,这与以前的报道一致,即不同的疾病之间共享许多信号。例如,肺炎克雷伯氏菌(Klebsiella pneumoniae),一种特征明显的病原体,与CDCRCIBS-D、肥胖症、PACSUC呈正相关,而Roseburia intestinalis,一种具有生产丁酸盐特性的益生菌,与这六种疾病表型呈负相关。虽然各种疾病都有共同的微生物特征,但这些发现表明存在着疾病特有的微生物组成。然而,二元分类器是否能捕捉到这些疾病的特异性特征尚不清楚。在不相关的疾病中测试了训练的二元模型的特异性,结果显示误诊率很高。这些结果表明,二元分类器未能捕捉到仅基于单一疾病与对照样本的真正疾病特异性特征。

02.基于粪便微生物组的多类诊断模型的建立

基于2320名香港华人的队列,训练了五个机器学习多类分类器(RFK近邻(KNN)、多层感知器(MLP)、支持向量机(SVM)、和图卷积神经网络(GCN))来分类不同的疾病,使用来自训练集的物种水平数据(70%的样本与队列具有相同的类别比例),并从保留的测试集(30%的样本,图1a)中展示其最终表现。所有这些模型的平均AUROC0.670.99(四分位数范围,IQR 0.810.92),表明基于粪便微生物组的多类疾病分类是可行的。其中,RF多类模型对于测试集中的不同疾病表型实现了0.900.99的平均AUROCIQR 0.910.94,图1b)。测试集中RF模型的性能显著优于所有其他模型,并且与训练集的性能相似,表明该分类器的高度完整性。因此,使用RF多类模型进行进一步分析。在基于最高约登指数的阈值下,RF多类别分类器的灵敏度范围为0.810.95IQR 0.870.93),对不同疾病的特异性为0.760.98IQR 0.830.95),准确度为0.770.98IQR 0.820.92,图1c),突出了良好的诊断性能。

基于粪便微生物组的机器学习用于多类疾病诊断

03.在独立数据集上验证多类模型

作者整合了来自亚洲、欧洲和北美的12个公共数据集的1597个鸟枪粪便宏基因组数据。RF多类别分类器在分类不同疾病时显示平均AUROC0.690.91IQR 0.790.87),并且通常优于所有其他模型。为了进一步验证模型的准确性,作者选择了60名新冠肺炎感染完全康复的患者。训练模型显示,将这些受试者分类为健康者的准确率为83.3%。这些数据证实,完全康复的新冠肺炎存活者(无PACS)与健康人具有相似的肠道微生物群特征。此外,还测试了训练数据集中未包括的疾病的训练RF模型,包括肝硬化和便秘为主的IBS数据集。作者发现,使用RF多类别模型,由于大多数受试者未达到相应阈值,因此无法进行预测的可能性很高,并且可能被归类为待定。而且,每种表型的误分类率从0%0/60CACVDIBS-D,肥胖)到5%3/60CDCRCPACS),这表明该模型对队列中的9种表型具有高度的特异性和准确性,对无关疾病的误分类风险很低。

04.细菌特征和表型之间的关联

最后,研究人员将对模型贡献最大的前50个细菌物种与不同的疾病表型相关联,发现在测试集中,这50个细菌物种对不同疾病的平均AUROC0.88-0.99,而在公共数据集中的平均AUROC0.67-0.90。此外,研究人员在这50个物种与不同的疾病表型之间共发现了363个明显的关联(香港队列,FDR<0.05,图2)。与健康对照组相比,几乎所有疾病状态都与厚壁菌门或放线菌门的微生物群丰度显著降低和拟杆菌门的显著增加有关。这种共享的微生物特征可以作为区分健康和疾病的基础。进一步,研究发现尽管CRC患者和CA患者的肠道细菌组成相对相似,但与健康对照组相比,CRC患者的Parvimonas micra丰度显著高于CA患者,表明Parvimonas micra可作为区分CRC与结肠直肠腺瘤的标志物(图2)。

对于其他疾病,微生物组差异主要由放线菌驱动。肥胖受试者显示出Actinomyces naeslundiiActinomyces odontolyticusActinomyces oris的增加,而IBS-D受试者显示出Collinsella aerofaciensCollinsella stercoris的增加。研究人员进一步将公共数据集中的细菌和表型相关联,发现许多疾病的特异性生物标志物在不同的数据集中是稳定的。这些结果表明,多类分类模型可以捕获不同疾病的特异性微生物特征,具有强大诊断性能。

图2 与健康状况或不同疾病表型相关的微生物物种

这种基于微生物组的多疾病分类模型在疾病诊断和治疗反应监测中具有潜在的临床应用,值得进一步探索。

Next系列软件应用 | 桃金娘科首个T2T基因组研究成果公布

桃金娘(Rhodomyrtus tomentosa)是一种重要的药用植物,成熟果实呈紫色。先前的研究初步确定了桃金娘中花青素的合成类型和药理作用。然而,很少有人研究桃金娘花色苷和其他生物活性物质。

发表期刊:Horticulture Research  
发表时间:2023.01

研究思路

研究结果

1.桃金娘T2T无gap参考基因组

LFSTJN-1被选择用于T2T无gap参考基因组组装(图1A)。结果表明,桃金娘的基因组约为450.77Mb,杂合度为0.29%。使用Hifiasm对PacBio-HiFi数据进行组装,对于ONT数据使用NextDenovo进行组装,并用NextPolish软件对其进行纠错。在填补所有空白后,产生了一个470.35Mb的桃金娘无gap基因组,包含11条染色体,contig N50为43.80Mb。使用七个碱基端粒重复序列(’CCCTAAA’)作为序列查询,鉴定到所有22个端粒,并构建了桃金娘基因组的11个T2T伪染色体(图1C;补充表2)。11个伪染色体中都鉴定出着丝粒,长度在0.35Mb至3.49Mb之间(图1C)。

图1 桃金娘的基因组组装和基因组特征

NextDenovo/NextPolish软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

2.桃金娘基因组组装的质量评估

采用了多种数据和方法对桃金娘基因组进行组装。HI-C矩阵表明,11条染色体被充分和合理地组装(图1B),其数量与以前的记录一致。同时,调查和组装中使用的短读数和HIFI读数数据的比对显示出约99.96%和约99.93%的定位率。BUSCO评估表明,97.7%和99.0%的核心保守植物基因在组装中完整。长末端重复序列(LTR)的完整性测试显示,该组装的LTR组装指数(LAI)为16.16,与无gap组装类似。这些数据表明桃金娘基因组组装质量高。

3.桃金娘基因组进化

系统发育进化分析表明,桃金娘属和石榴属之间的分歧时间约为1437万年前(MYA),而953个和714个基因家族分别显示了桃金娘的扩张和收缩(图2A-B)。三种桃金娘科植物和石榴属植物之间的共线性分析表明,它们是完全连续的共线性。同时,在与桃金娘的比对中,巨桉(E. grandis,桃金娘科桉属)比番石榴(P. guajava,桃金娘科番石榴属)检测到更多的染色体倒置,这可能导致桃金娘科内部的分化(图2C)。

桃金娘科物种的同义替换位点(Ks)的分布在Ks≈1.25处达到峰值,这表明桃金娘与其他桃金娘科植物共享一个共同的近期WGD事件(图2D)。进一步确定了桃金娘科的WGD事件在66.58–95.50 MYA发生(图2A)。

图2 桃金娘与其他物种的系统发育和共线性分析

4.桃金娘器官间基因表达模式与果实软化相关代谢

为了探索桃金娘器官中的基因表达模式,研究者使用来自不同器官和发育阶段的10种类型样本中的25038个表达基因构建了加权相关网络(WGCNA)。先前关于番石榴的研究表明,果实软化和成熟的过程与细胞壁活性和淀粉降解有关。桃金娘是进一步探索桃金娘科肉质果实发育机制的良好材料。相关分析检测到器官和样本发育阶段高度相关的共表达模块(r>0.8)(图3A)。与番石榴相似,桃金娘的淀粉含量随着果实发育而降低(图3C)。根据KEGG注释,鉴定到桃金娘7个家族中的20个淀粉降解相关基因。相关基因的表达分析表明,淀粉-聚糖过程(GWD/ISA)基因主要在F1阶段表达(图3D)。F3和F4中鉴定出多个参与单糖或多糖代谢的高度特异性表达基因拷贝,包括RmAGL-1RmAGL-2RAMY-1RMBAMM-5。此外,这些参与淀粉降解的基因在叶片或茎衰老过程中也高度表达。这与多种物种的器官老化过程一致。

图3 桃金娘不同组织中的基因表达模式及淀粉降解途径

5.桃金娘果实发育过程中与色素和花青素合成相关的代谢产物和基因表达模式

果实成熟期间的着色是桃金娘的一个指示性特征(图4A)。形态学观察和总花青素含量的测定表明,在F3至F4期间,桃金娘果实中的花青素含量急剧增加,果实颜色也变为紫色(图4A-B)。

UP-MS的代谢产物分析在来自桃金娘三个器官的6种样品中检测到189种黄酮类化合物。这些代谢物分为9个丰度集群(图4C)。在花青素合成的核心过程中,包括RmCHI-1RmCHI-2RmF3HRmDFRRmANS,都在F3阶段高度表达。这一趋势对应于从F3到F4(开花后75到90天;图4C-D)桃金娘果实颜色花色苷含量的急剧变化和增加。

图4 代谢产物丰度聚类和黄酮类化合物(主要是花青素分支)合成途径

6.桃金娘科植物果实的着色和花青素的积累

本研究用番石榴和桃金娘作比较,番石榴果实中的花青素合成活性没有增强,与番石榴果实的底色一致(图4D-E)。此外,对这两个物种的花青素合成下游途径的比较研究表明,OMT基因的CNV(拷贝数变异)是花青素糖基化所必需的。由串联重复拷贝数变化产生的两个基因拷贝(RmOMT 4/RmOMT-5)位于1号染色体末端(图5A)。表达分析表明,RmOMT-4的表达在果实中特异性增加,而RmOMT-5也在果实成熟的所有阶段表达,但在根部表达最高(图4D)。基于系统发育关系的亚家族分析表明,桃金娘中的GSTU亚家族基因多于番石榴(图5B)。该亚家族被证明参与花青素转运,值得进一步研究。

图5 分析基因拷贝数、MYB和GST基因家族系统发育、MYB差异表达基因以及正向选择基因

7.正选择的MYB基因对桃金娘花色苷合成的潜在影响

研究者发现番石榴中四个MYB基因的同源基因中没有检测到高表达(图5C)。系统发育分析表明,RmPAP1RmPAP2与拟南芥中的PAP1MYB75PAP2MYB90)以及AtMYB113聚集,其高表达已被证明可促进花青素合成。这两种MYB转录因子的共表达网络包含花青素合成途径中的九个基因(图5D)。同时,对桃金娘科植物中正选择基因的检测表明,这些基因包含32个MYB转录因子,包括RmPAP-2RmMYB113。这种种间表达趋势的差异和花色苷的MYB调节因子进化中的正向选择可能会导致桃金娘的果实着色(图5E)。

本研究介绍了桃金娘科第一个无gapT2T基因组,确定了桃金娘花色苷的主要化合物及其合成途径。基因表达的模式分析和通路识别进一步丰富了对桃金娘肉质果实发育的认识。比较基因组和基因表达分析为果实中花青素的积累和着色提供了可能的机制。该基因组组装为研究桃金娘科肉质果实的起源和加速桃金娘的遗传改良奠定了基础。

Next系列软件应用 | 白菜近完成图组装为着丝粒的进化提供了新的见解

白菜基因组是芸薹属首个也是使用最广泛的参考基因组,然而,目前的白菜参考基因组(Chiifu v3.0)仍有407个缺口和1.45Mb的相对较短的contig N50,完整的基因组序列信息对于理解基因组结构和进一步促进关键农艺性状的遗传改良至关重要。本研究中,使用ONT测序和Hi-C技术,展示了第一个白菜近完成图,代表了最高的完整性、可靠性和质量,将推动未来芸薹属基因组结构和功能基因的发现。

发表期刊:Plant Biotechnology Journal  
发表时间:2023.01.23

研究思路

研究结果

1.白菜基因组组装  
本研究使用ONT和Hi-C技术对白菜(Chiifu-401-42)进行了测序。使用NextDenovo(v2.5,https://github.com/Nextomics/NextDenovo)进行校正ONT和Illumina读数得到的contig。生成了12个contigs,contig N50为38.26Mb。利用Hi-C数据进行支架构建后,将所有contigs锚定在十条染色体上(图1)。

NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

图1 白菜基因组组装

2.ALECRM LTR对白菜着丝粒的侵袭

序列分析显示,94.23%的着丝粒区域被LTR占据(图2a)。在Chiifu v4.0的这555个着丝粒基因中,17.66%被转录,远低于整个基因组的基因转录比。为了更好地理解着丝粒的远程组织,生成了一个热图,显示了着丝粒上的成对序列身份。结果表明,在Chiifu v4.0中,着丝粒被破坏成着丝粒序列中的不同区域(图2b-c)。值得注意的是,在12个FL-LTR -RTs家族中,539个ALE和281个CRM LTRs在着丝粒的这些侵入区域内的拷贝数显著增加(图2b-c)。这些结果表明,着丝粒主要受到ALECRM LTR的入侵,进一步形成了白菜的着丝粒结构。

图2 白菜参考基因组Chiifu v4.0的着丝粒特征分析

3.白菜基因组着丝粒的多样性

染色体共线性分析表明,在所有白菜参考基因组中,同源着丝粒很少或没有序列共线性。例如,与染色体臂不同,Chiifu v4.0和基因组“A03”之间的着丝粒CentA04几乎没有序列共线性(图3a)。将Chiifu v4.0的其他七个完整着丝粒与基因组“A03”、ECD04和Z1 v2的同源着丝粒进行比较时,也观察到了很小的序列共线性。总之,这些结果表明,在不同的白菜基因组中,着丝粒是高度可变的。

图3 白菜基因组染色体共线性分析

4.快速扩增的LTR驱动着丝粒的进化

作者进一步注释了基因组“A03”、ECD04和Z1 v2中的FL-LTR-RT。在基因组“A03”、ECD04和Z1 v2的着丝粒区域共鉴定出1 001、993和767个FL-LTR-RT,这与Chiifu v4.0的着丝粒中FL-LTR-RTs的数量相似(图3b)。分析FL-LTR-RT在着丝粒中的插入时间表明,在Chiifu v4.0、“A03”、ECD04和Z1 v2中,78.83%-86.04%的FL-LTR-RTs扩增≤0.5 MYA,38.57%-57.78%的FL-LTR-RT扩增≤0.1 MYA。相比之下,在Chiifu v4.0、“A03”、ECD04和Z1 v2的着丝粒中,5.64%-7.86%的扩增>1MYA(图3b)。此外,在Chiifu v4.0、“A03”、ECD04和Z1 v2的着丝粒中分别检测到539、612、605和451个ALE  LTRs和281、261、214和214个CRM LTRs(图3d)。这些发现表明,LTRs是共享的,但在白菜的着丝粒中显示出不同的年龄和拷贝数。

根据最近的一项研究,作者将年龄≤0.5 MYA的FL-LTR-RT定义为年轻LTR,将年龄>0.5 MYA定义为老年LTR。FL-LTR-RTs的年龄分布分析表明,白菜LTR的着丝粒区域丰富(图4a)。Chiifu v4.0中不同染色体区域的LTR插入时间的进一步比较表明,着丝粒中的FL-LTR-RT显著年轻(平均0.14 MYA),比全基因组的FL-LTR-RT(平均0.32 MYA(图4b)。发现Chiifu v4.0中着丝粒中心部分的LTR比着丝粒的其他部分年轻得多(图4c)。此外,在Chiifu v4.0中发现了83个FL-LTR-RT的嵌套插入事件,这些事件远少于黑芥。总之,该结果表明,LTR在着丝粒中快速扩增,这可能会驱动白菜着丝粒的进化。

图4 白菜参考基因组Chiifu v4.0的着丝粒中的LTRs插入时间分析

5.旧的LTRs富集于白菜的近着丝粒

在Chiifu v4.0中比较了外周着丝粒和其他染色体区域之间LTR的插入时间后,作者发现近中心点中FL-LTR-RT的插入时间(平均0.51 MYA)明显比整个基因组的插入时间长(平均0.32 MYA),并且比着丝粒中的插入时间更长(平均0.14 MYA(图4b))。在基因组“A03”、ECD04和Z1 v2中发现了类似的模式(图4b)。比较近着丝粒和着丝粒之间的LTR发现,Gypsy LTRs在近着丝粒富集,而着丝粒富集的CopiaGypsy LTRs更多(图5c-e)。此外,Gypsy LTRs的插入时间(平均0.29-0.38 MYA)显著长于Copia LTRs(平均0.14-0.22 MYA)(图5f),这可能是白菜近着丝粒中LTRs插入时间早于着丝粒的原因。

图5 LTRs富集在白菜的近着丝粒

总之,接近完整的基因组组合,白菜Chiifu v4.0为芸薹属研究界提供了关键的基因组资源,并揭示了白菜中着丝粒的快速进化。这些资源将为阐明芸薹属植物的基因组结构和功能提供坚实的基础。

项目文章 | Nat Commun! 利用ONT测序揭示基因组结构不稳定性驱动piRNA进化历程以保护基因组完整性的机制

近日,美国罗切斯特大学医学中心生物化学和生物物理学系RNA生物学中心联合西北农林科技大学动物科学与技术学院、加拿大麦吉尔大学在Nature Communications杂志发表了题为“Amniotes co-opt intrinsic genetic instability to protect germ-line genome integrity”的论文。论文通过对鸡、鸭、小鼠和人类的比较研究,以及对不同品种鸡的长读长纳米孔测序,揭示了粗线期piRNA的功能,以及其快速进化历程。

美国罗切斯特大学的孙禹,西北农林科技大学的崔宏晓,美国俄亥俄州立大学的宋驰和浙江大学医学院附属第四医院的沈加飞为并列第一作者,加拿大麦吉尔大学的赵辛和美国罗切斯特大学的李鑫为共同通讯作者。希望组梁帆、陶庆参与了该项研究工作。

研究思路

01鸟类粗线期piRNA迅速分化
为了揭示鸡piRNA的表达图谱,研究者通过收集鸡(雅典加拿大肉鸡随机繁殖品系,ACRB)在八个关键发育阶段(第1天至30周性成熟;图1a,i)的睾丸组织,分析了第一波精子发生过程(图1a,i)的RNA变化。大多数piRNA在12至18周的过渡期表达(图1a、ii和iii),即精子发生第一波过程中减数分裂的时期。这一阶段与CIWI的mRNA表达一致(图1a,iv),CIWI是一种PIWI家族基因,其在小鼠中的同源基因与粗线期piRNAs特异性结合。研究者还检测到粗线期精母细胞胞浆中CIWI蛋白的阶段特异性染色(图1b),并绘制出了八个发育阶段中每个piRNA基因座的piRNA丰度,发现在粗线期检测到大量表达,而在早期阶段几乎没有piRNA(图1c),表明成年睾丸中的大多数piRNA都是粗线期piRNA。与哺乳动物粗线期piRNA类似,成年鸡睾丸中的大多数piRNA不是来自重复区域或基因区域(图1a,iii)。这些结果表明鸡中存在粗线期piRNA,而且粗线期piRNA在鸟类和哺乳动物生殖细胞发育过程中大量表达。在功能水平上,虽然在鸭睾丸中检测到大量的piRNA,但与鸡piRNA基因座同源的136个基因座并不产生piRNA(图1d)。研究者得出结论,哺乳动物和鸟类粗线期piRNA的共同特征是快速分化。考虑到与哺乳动物基因组相比,鸟类基因组在核苷酸序列、基因共线性和染色体结构方面表现出高度的进化停滞,piRNA在哺乳动物和鸟类之间的快速分化是其进化的共同特征。

图1 鸡粗线期piRNA的存在

02piRNA基因座是鸟类和哺乳动物的结构变异(Structural variation,SV)热点
研究者使用ONT进行测序,并达到每只鸡31X的测序深度。与未驯化野生鸡的参考基因组相比,每只家鸡共发生17321±777次SV事件(图2a,b)。虽然piRNA基因座仅占鸡基因组的0.98%,但SV发生在粗线期piRNA基因座的频率更高:12.4%的串联重复、19.4%的倒位、1.7%的缺失和1.2%的插入与piRNA基因座位重叠(图2a,iii)。同时发现,在piRNA基因座中,串联重复、倒位和缺失的富集是显著的(图2c)。

piRNA基因座中的SV也与piRNA在表达量(图3a)、正义/反义链表达方向(图3b)和不同piRNA序列的相对丰度(图3c)的变化相关。研究者量化了piRNA丰度、链偏向性和香农多样性指数的个体差异,发现piRNA基因座内的SV区域显著高于缺乏SV的piRNA基因(图3d)。因此,与SV热点重叠与piRNAs的快速分化相关。

图2 鸡piRNA位点是SV热点

图3 实现piRNA可塑性的保守机制

03piRNA位点与SV热点重叠的收敛进化
研究者设想了导致piRNA基因座和SV热点之间关联的三种可能机制(图4a):(1)piRNA基因和SV热点独立起源,它们的重叠是在共同选择压力下趋同进化的结果(收敛假说);(2) SV热点首先出现,增加了基因组区域进化为piRNA基因座的机会(突变假说);以及(3)保守的分子机制将piRNA的生成与SV的形成联系起来(保守假说),例如piRNA的产生导致基因组不稳定性或SV造成的DNA损伤触发了piRNA的形成。研究者发现与随机打乱的基因组序列相比,鸡piRNA位点对转座子(Transposable element,TE)的富集显著,但节段重复(Segmental duplication,SD)相对缺失(图4b)。总之,该数据表明,鸡、小鼠和人类piRNA基因座上的SV热点是独立形成的,由不同的突变机制导致(图4c)。因此,趋同进化导致SV热点和粗线期piRNA基因座在鸟类和哺乳动物的基因组中重叠。

图4 趋同进化驱动了SV热点和粗线期piRNA位点之间的关联

04粗线期piRNA的保守功能是抑制活跃的转座子
与基因组的其余部分相比,小鼠和人类粗线期piRNA基因座中的活跃TE序列并没有更少:小鼠的比例为1.6%,人类为1.0%(图5a)。研究者利用了Mov10l1突变体小鼠进行研究,该突变体可以正常进行减数分裂,但在圆形精子细胞阶段停止发育。在对圆形精子细胞成像发现,Mov10l1突变体中有8±2个γH2AX聚焦点(DNA损伤的标志物),而野生型细胞则没有任何聚焦点(图5b)。利用RNA-seq发现,尽管83%的TE家族(1223个家族中的1020个)的表达没有改变,但大多数活跃TE家族的表达在Mov10l1突变体睾丸中显著增加(图5c)。通过对Mov10l1突变体睾丸中的piRNA Ping-Pong信号分析显示,靶向这些TE的piRNA引导的切割显著减少(图5d),从而表明Mov10l1突变体睾丸的TE是被靶向TE的粗线期piRNAs所抑制。尽管只有2.4%的鸡粗线期piRNA基因座编码活跃的TE,但所有活跃的TE家族都被粗线期piRNA靶向(图5e)。

图5 抑制活跃转座子是粗线期piRNA的保守功能,同时也驱动了粗线期piRNA进化

05piRNA变异和有害SV之间的适应性平衡
与不产生piRNA的其他SV热点相比,研究者发现piRNA基因座与人类和鸡的蛋白质编码基因显著更接近(图5f),表明源自piRNA位点的SV比其他SV热点更可能损害蛋白质功能。人染色体15q上的多个致病性SV位点就是一个典型的例子(图5g)。这些SV仅在年轻的piRNA基因座中富集,这表明它们不会在长期进化过程中被选择下来。因此,粗线期piRNA基因座比其他SV热点更有害,SV热点通过产生新的piRNA来保护基因组完整性的功能产生的益处使得源自piRNA基因的SV在体细胞中的致病作用是可以忍受的。

项目文章 | 超长测序+NextDenovo助力盾叶薯蓣高质量基因组解析与薯蓣皂苷生物合成进化

自1930年代中期从山萆薢(Dioscorea tokoro)根状茎中分离出薯蓣皂素,特别是1943年以薯蓣皂素为起始原料成功地合成黄体酮以来,由于简便、经济,薯蓣皂素成为不可替代的合成甾体激素类药物的理想原料已近90年。薯蓣属植物中,部分物种具有重要的食用价值,很多薯蓣属植物根状茎/块茎中含薯蓣皂素,最高记录为我国特有种盾叶薯蓣(Dioscorea zingiberensis),其单株根状茎薯蓣皂素最高含量达16.15%。盾叶薯蓣也因此被认为是世界上最理想、最重要的甾体激素药源植物之一。薯蓣皂素在植物体内通常以薯蓣皂苷形式存在。研究薯蓣皂苷的生物合成、起源和进化具有重要意义。然而,由于薯蓣属植物遗传背景复杂,缺少高质量的染色体级别基因组信息,薯蓣皂苷生物合成与演化机制的研究难以深入。

近日,Horticulture Research 上线了(Advance Access)武汉大学李家儒课题组题为The genome of Dioscorea zingiberensis sheds light on the biosynthesis, origin and evolution of the medicinally important diosgenin saponins 的研究论文。

该研究采用三代Oxford Nanopore、Hi-C、10X Genomics技术进行盾叶薯蓣全基因组测序,组装得到一个染色体水平的参考基因组。本次发布的盾叶薯蓣基因组大小为629 Mb,contig N50为1.16 Mb,scaffold N50 为55.78 Mb。共有93.39%的基因组序列被组装到10对染色体上(图1a)。BUSCO和CEGMA分析结果显示基因组完整性分别为96.84%和97.98%,表明基因组组装完整性较高。希望组为本研究提供了测序及Nextdenovo软件服务,并参与了基因组组装、注释及后续分析工作。

研究发现,盾叶薯蓣基因组中存在大量扩张的基因家族(图1b),其中,参与薯蓣皂苷生物合成的基因家族如CYP450、UGT以及OSC等基因家族成员数量显著扩增,这可能是盾叶薯蓣能够大量合成薯蓣皂苷的主要原因之一。进化基因组分析表明盾叶薯蓣基因组经历了两次全基因组加倍事件(图1c)。通过推算基因组加倍事件发生的时间,基因串联重复事件以及薯蓣皂苷合成关键基因家族的复制时间,该研究表明,盾叶薯蓣基因组中全基因组加倍事件以及基因的串联重复产生了大量的基因家族成员扩增,这为盾叶薯蓣中薯蓣皂苷生物合成途径提供了关键的进化资源。

图1 盾叶薯蓣基因组的特征及基因组进化分析

通过盾叶薯蓣中薯蓣皂素时空变化、免疫组织化学定位及转录组分析,发现薯蓣皂素首先在叶片合成,转化为薯蓣皂苷,然后运输到地下根茎中储存(图2)。通过评估薯蓣属物种中薯蓣皂苷的分布和进化模式发现,薯蓣皂苷可能是薯蓣属植物中某种祖先性状被选择性保留。对13 种薯蓣属植物的转录组和代谢物进行比较分析表明,薯蓣皂苷生物合成通路基因的特定表达模式促进了薯蓣属植物薯蓣皂苷生物合成途径的差异性进化。

图2 盾叶薯蓣不同组织中薯蓣皂素的分布及基因表达水平比较

综上所述,该研究聚焦薯蓣属植物,在获得高质量染色体水平的盾叶薯蓣参考基因组的基础上,进一步深入解析了薯蓣皂苷的生物合成、起源与进化,为薯蓣皂苷的工业化生产提供了宝贵基因资源,也为植物特异代谢物的生物合成与进化研究,提供了新的视角和范例。

武汉大学生命科学学院博士生李毅为论文第一作者,武汉大学生命科学学院李家儒教授为该论文通讯作者,美国国家自然历史博物馆文军教授、美国华盛顿州立大学David Gang教授、中国科学院植物研究所漆小泉研究员、韶关学院包英华副教授、中国科学院西双版纳热带植物园陈江华研究员、广西大学陈玲玲教授和华中农业大学杨庆勇教授、希望组公司孙宗毅及王凯参与了该研究。该项目得到了国家自然科学基金项目(30370152、31270345和31470388)的资助。

项目文章| 1028Gb超长测序+NextDenovo助力六倍体栽培燕麦的起源与进化研究

燕麦作为谷物中最好的全价营养食品,因其富含蛋白质、不饱和脂肪酸以及可溶性膳食纤维而广受消费者青睐。同时,栽培燕麦是六倍体作物,它在生物量、活力和对环境变化的适应性方面均具有多倍体植物的显著优势,在应对粮食安全挑战中可以发挥其独特作用。

北京时间2022年7月18日晚23时,国家燕麦荞麦产业技术体系首席科学家任长忠研究员领衔的以四川农业大学和吉林省白城市农业科学院为核心的燕麦研究团队在《自然-遗传学》Nature Genetics 上发表了题为 “Reference genome assemblies reveal the origin and evolution of allohexaploid oat” 的研究论文。

原文来自该项目课题组

该研究工作由四川农业大学和吉林省白城市农业科学院联合中国科学院遗传与发育生物学研究所、四川大学、西昌学院、中国农业科学院和武汉希望组生物科技有限公司合作完成,并得到了国家燕麦荞麦产业技术体系,国家自然科学基金,吉林省人才开发基金和吉林省科技发展计划等项目的资助。

四川农业大学彭远英、颜红海、邓操,吉林省白城市农业科学院郭来春、王春龙和四川大学王毓博为论文共同第一作者,吉林省白城市农业科学院任长忠研究员、中国科学院遗传与发育研究所鲁非研究员、四川大学马涛教授、四川农业大学魏育明教授和彭远英教授为论文共同通讯作者。希望组参与组装注释以及部分分析工作。

该研究发布了栽培六倍体裸燕麦及其二倍体和四倍体祖先的参考基因组,并进一步选择能代表燕麦属现存所有基因组类型的二倍体、四倍体和六倍体材料结合全基因测序、叶绿体基因组和转录组分析,深入探究六倍体燕麦的起源与亚基因组进化。

基因组组装

燕麦(Avena sativa L., 2n = 6x = 42, AACCDD 基因组) 作为重要的粮饲兼用型作物,由于其基因组为异源六倍体组成,基因组大(~11G)、重复序列含量高(~87%)且亚基因组间存在大量的交换,导致其基因组组装难度较大,相关研究一直滞后。研究团队利用近20年的燕麦属物种研究经验,针对六倍体燕麦亚基因组构成及其在基因组组装中可能遇到的问题,设计了利用ultra-long三代测序结合HiC、二代测序、Iso-seq和RNA-seq,并同时组装栽培燕麦最可能的四倍体和二倍体祖先的策略。项目组首先选择来自裸燕麦起源中心的传统地方品种“三分三”为材料,基于1028Gb的三代超长序列,并使用650 Gb的二代数据进行校正,组装了10.76 Gb的燕麦基因组,基于1296 Gb的Hi-C数据将99.06%的基因组序列挂载到燕麦21条染色体上(表1)。基因组组装从contig N50(75.27Mb),LAI(18.34)、BUSCO(99.44%)以及与来自六倍体燕麦一致性图谱标记的共线性等多方面进行质量评估,均显示了所组装基因组的高质量。为了准确区分亚基因组并阐明六倍体燕麦的多倍化历史,我们对其最可能的祖先物种A. longiglumis(2n=2x=14,AlAl基因组)和A. insularis(2n=4x=28,CCDD基因组)同时进行了测序和组装,分别构建了3.74 Gb和7.52 Gb的二倍体和四倍体参考基因组。基于这三个物种染色体之间的相似性,我们明确了六倍体燕麦21条染色体的A、C和D亚基因组归属,完成了六倍体的染色体组装、挂载和注释,获得了燕麦染色体级别的高质量参考基因组(图1)。

图1 AlAl基因组二倍体、CCDD基因组四倍体和AACCDD六倍体栽培燕麦的基因组。a, A和D基因组染色体着丝粒位置;b, C基因组特异性重复序列Am1在染色体上的分布。其中,三分三的的1A、2D、3D、4D和5D染色体上富含Am1的区域是C基因组渗入;c, A基因组特异性重复序列As120a在染色体的分布;d,k-mer频率;e,串联重复(TR)密度;f, LTR密度;g,基因密度;h,染色体名称和大小。最内层显示六倍体及其祖先物种的共线性,上层的彩色表示每个六倍体染色体及其祖先染色体的共线性,灰色的下层显示六倍化后的染色体重排。

系统进化基因组分析

为进一步阐明燕麦在禾本科谷类作物中的进化地位,我们进行了主要禾谷类作物的系统进化基因组学分析。通过鉴定到的2237个同源单拷贝核基因对燕麦及其相关禾谷类作物的系统分析结果表明:燕麦族和小麦族之间的分化发生在稻族形成之后,且燕麦族与多花黑麦草的亲缘关系比与小麦族更近。通过与以水稻为代表的祖先核型和普通小麦的三个亚基因组进行比较,明确燕麦不同亚基因组的核型进化历史并发现在燕麦中存在大量染色体重排(图2)。

图2 禾谷物作物的系统基因组关系。a,燕麦及其相关禾谷类作物系统发育和分化时间;b,燕麦族、多花黑麦草和小麦族中共享和独特基因家族的数量韦恩图;c,燕麦和小麦可能的染色体进化核型模式。亚基因组染色体不同的颜色显示其来源于水稻不同的染色体(Os1–Os12)片段,水稻染色体可以作为祖先染色体核型(AGK1–AGK12)的代表;d,燕麦和小麦三个亚基因组之间的染色体共线性。

选择能代表燕麦属所有基因组亚型和不同倍性水平的物种进行基于全基因组重测序、转录组测序和叶绿体基因组的系统发育分析,结果一致表明Al/As基因组二倍体以及四倍体A. insularis 的C和D亚基因组分别与六倍体燕麦的A、C和D亚基因组具有最高的相似性,且通过叶绿体基因组确定D基因组是六倍体燕麦的母本供体,而C基因组二倍体作为栽培燕麦的父本基因组,通常比母系起源的基因组更容易发生染色体变异,与本研究中燕麦C基因组二倍体和多倍体物种的C亚基因组间相对较低的共线性一致。由此,我们明确了栽培燕麦的多倍化历史并提出了燕麦属物种的网状进化模式。现有的ACD基因组六倍体栽培燕麦是以Al/As基因组二倍体祖先为父本,和CD-基因组四倍体A. insularis为母本杂交加倍后形成的(图3)。

图3 六倍体燕麦的网状进化模式图

燕麦多倍化过程中的染色体结构变异

为了研究燕麦多倍化过程中发生的染色体结构变异,我们对二倍体、四倍体和六倍体物种进行了共线性分析。结果表明,在燕麦多倍化过程中发生了多次大的易位和倒位事件,我们通过荧光原位杂交证实了这些染色体结构变异(图4)。此外,在燕麦四倍体中主要是非同源染色体间的染色体易位,仅有3.91%发生在同源染色体之间,而六倍体中高达49.69%的易位是在同源染色体之间发生的,且六倍体燕麦中的同源交换有88.4%(931.94/1054.30 Mb)发生在A和D亚基因组之间,远高于A和C(11.2%,117.71/1054.30 Mb)或D和C(0.04%,4.66/1054.30 Mb),表明六倍化后的同源交换在栽培燕麦基因组结构的形成中发挥了重要作用,且在多倍体细胞核中关系更近的同源基因组更易于产生亚基因组间的重组,六倍体燕麦中A和D亚基因间相似性很高,而这两个基因组与C亚基因间的差异相对较大,因此同源交换主要发生在A和D亚基因组之间,且这两个基因组间大量频繁的染色体重组形成了类似马赛克的染色体镶嵌结构,这也是六倍体燕麦的A和D亚基因组起源问题一直存在争议的重要原因。

图4 燕麦属物种多倍化过程中的染色体结构变异。a,六倍体燕麦的亚基因组与可能的四倍体和二倍体祖先之间的共线性。黄色和蓝色箭头和线条分别代表观察到的来自A和C基因组的大染色体易位(>40MB)。深灰色箭头和线条表示四倍体A. insularis和“Sanfensan”之间3C染色体倒位;b,将C基因组二倍体序列比对到六倍体参考基因组显示C-A和C-D基因组间的大片段易位; c,C基因组特异性重复序列为探针的FISH证实了C-A和C-D基因组易位。来自A基因组特异性重复序列(As120a)的荧光信号以绿色显示,来自C基因组特异性重复序列(Am1)的信号以红色显示。白色箭头表示C-D和C-A基因组间易位;d, FISH验证六倍体燕麦基因组中3C染色体倒位。探针5SrDNA(红色)和6C343(绿色)分别在四倍体3C染色体的短臂和长臂上出现了明显的杂交信号,而这两个信号都同时出现在六倍体3C染色体的长臂。

六倍体燕麦中亚基因组优势

此外,多方面的证据显示六倍体燕麦在进化过程中已出现优势亚基因组(图5):首先PAV分析显示在C亚基因组中的基因丢失率较高,且C亚基因组中有更多收缩的基因家族;第二,Ka/Ks分析表明C亚基因组受到的纯化选择少于六倍体燕麦的其他两个亚基因组;第三,C亚基因组包含更多转座因子(TE),并且在基因附近显示出比A和D亚基因组更高的TE密度,而基因附近TE密度相对较高的基因往往具有较低的表达水平;第四,通过对干旱、水涝、高温、低温、盐胁迫和碱胁迫下以及燕麦不同组织的亚基因组的表达模式分析表明C亚基因组中表达的基因数量显著低于A和D亚基因组,这些结果均表明六倍体燕麦中存在亚基因组优势。

图5 燕麦属物种多倍化过程中的亚基因进化。a,四倍体和六倍体燕麦在多倍化过程中相对其二倍体亲本的同源基因丢失情况(PAV);b,六倍体燕麦三个亚基因组Ka/Ks值分布;c,六倍体燕麦三个亚基因组中基因附近TE密度的比较。相对于A和D亚基因组中的同源染色体,C亚基因组中基因附近的TE密度最高;d, 六倍体燕麦A、C和D三个亚基因组的同源基因表达差异。

燕麦抗病基因的定位和克隆

燕麦在生长中受到病害的威胁,其中最严重的是冠锈病。NBS-LRR蛋白质由一类抗性基因(R基因)编码,在植物免疫中发挥重要作用。我们在六倍体燕麦的三个亚基因组中鉴定了1269个R基因,与四倍体和二倍体不同亚基因组中鉴定的数量相比显示出收缩。大多数R基因在染色体端部成簇出现,且与燕麦已知的冠锈病基因QTL区段共定位,表明本研究构建的燕麦参考基因组可以为燕麦抗病基因的定位和克隆提供有效的参考(图6)。

图6 | R基因在燕麦基因组中鉴定及其在染色体上的分布。a, 比较六倍体燕麦及其假定祖先基因组中R基因数量;b,冠锈病抗性QTL位点和R基因在六倍基因组染色体上的分布。

燕麦的皮裸性状

栽培燕麦根据其籽粒外壳包被情况,分为皮燕麦和裸燕麦两类。燕麦籽粒的皮裸性状是重要的驯化性状之一(图7a)。本研究通过对659份不同来源地的栽培燕麦的49702个SNP进行了全基因组关联分析,在染色体4D末端检测到显著关联区域,与之前报道的控制皮裸性状的N1基因位点区域一致。候选基因预测筛选到一个注释为受体样激酶(RLK)的基因,该基因在拟南芥中的同源基因AtVRLK1参与次生细胞壁加厚,在水稻的同源基因mis2的突变体中显示开壳小穗。比较该基因在皮、裸燕麦中的编码序列差异,发现在第一个外显子中的SNP会引起氨基酸变化。根据该SNP位点开发竞争等位基因特异性PCR(KASP)标记验证了其与皮、裸性状的相关性;通过比较10个皮燕麦和12个裸燕麦之间的转录组数据,我们发现该基因在裸燕麦中高表达;同时,在燕麦不同发育阶段的穗部表达模式也表明该基因在裸燕麦穗部发育过程中的表达量远高于皮燕麦。这些结果表明A.satnudsfs4d01g00045是控制燕麦的皮裸性状可能的候选基因(图7)。

图7 燕麦裸粒性状的全基因组关联分析及候选基因预测。a,皮裸燕麦的小穗和籽粒;b,659个燕麦品种全基因组关联分析N1候选区域关联映射的曼哈顿图及其候选基因A.satnudsfs4d01g00045的基因结构;c,基因SNP差异的KASP标记验证A.satnudsfs4d01g00045与皮裸性状之间的关联;d,A.satnudsfs4d01g00045在10个皮燕麦和12个裸燕麦七个不同组织或不同发育时期等量混合的RNA样本中的表达水平;j, A.satnudsfs4d01g00045在裸燕麦“三分三”和皮燕麦“Ogle”穗部不同发育时期的表达水平比较。S1、S2、S3和S4分别代表孕穗期(Zadok’s 45)、抽穗期(Zadok’s 50)、开花期(Zadok’s 58)和灌浆期(Zadok’s 83)的穗。

项目文章 | 超长测序 + Nextdenovo助力四个水稻基因组T2T组装

北京大学何航研究员、隆平高科杨远柱研究员与广东省农业科学院水稻研究所周德贵副研究员为论文共同通讯作者,北京大学博士生张宜林、隆平高科傅军、王凯博士、北京大学博士后韩雪为论文共同第一作者。北京大学现代农业研究院邓兴旺教授等对本研究提供了支持。本研究得到国家重点研发计划项目、湖南省科技创新计划等重大项目的支持。希望组提供Nextdenovo组装软件支持。

2022年6月24日,北京大学现代农学院邓兴旺实验室何航团队、隆平高科杨远柱团队与广东省农业科学院水稻研究所周德贵副研究员在Plant Biotechnology Journal期刊在线发表了研究论文“The telomere-to-telomere gap-free genome of four rice parents reveals SV and PAV patterns in hybrid rice breeding”,该研究利用HiFi和Ultra-long测序结合的组装策略,完成了湘陵628S、晶4155S、隆科638S与华占4个杂交水稻骨干亲本无缺口参考基因组组装,结合其余六个已发表的杂交水稻亲本基因组,系统分析了结构变异在杂交育种过程中的分布和影响,发现结构变异在F1功能基因及转录杂种优势起着重要作用。该研究展示杂种优势和杂交育种研究已进入无缺口参考基因组水平。

1. 四个两系杂交水稻骨干亲本无缺口参考基因组构建

湘陵628S(XL628S)、隆科638S(LK638S)、晶4155S(J4155S)是隆平高科自主培育的骨干两系不育系,华占(HZ)是中国水稻所与广东省农业科学院水稻研究所共同培育的优秀的两系和三系骨干恢复系,与另一个广泛推广的恢复系五山丝苗(WSSM,R534)属于同一家系(图1A),隆平高科利用隆科638S、晶4155S和华占选配的超级稻品种隆两优华占和晶两优华占连续三年蝉联我国杂交水稻品种推广面积前三位,选配的隆两优534、晶两优534连续多年列我国杂交水稻品种推广面积前十位。利用PacBio(HiFi)和Nanopore(Ultra-long)平台进行三代测序后构建基因组,并通过新的组装方法获得无缺口基因组(图1B)。通过对基因组进行准确性、完整性、连续性的评估,二代测序比对率为98.83%~99.66%,覆盖度大于99.97%。BUSCO值为98.7%~98.9%,LAI值为24.02~24.89。每个基因组上都有着丝粒区和20到22个端粒,证明了基因组组装的高质量(图1C)。湘陵628S、隆科638S、晶4155S和华占无缺口参考基因组的构建,为其功能基因组研究和下一步分子设计育种研究奠定了基础。

2.籼稻基因组结构变异在杂交水稻培育中的应用

基于对以上四个杂交水稻骨干亲本以及已发表的珍汕97(ZS97)、明恢63(MH63)、蜀恢498(R498)、五山丝苗(WSSM)、Y58S、9311的基因组,与日本晴(MSU)进行基因组比对,鉴定出不同水稻亲本之间的结构变异。在日本晴和10个籼稻基因组之间鉴定出422,858-526,481个INDEL和56,817个非冗余的SV,包括52,943个PAV(图1D)。在10个籼稻基因组中,共有2182个功能基因受到PAV的影响,其中565个为籼粳稻之间PAV,包括OsLBD37,SaM,OsMFT1,OsF3H,其余为籼稻内部PAV基因,而其中70个为某一籼稻基因组特有PAV基因,这部分基因可能是该杂交组合表现优异的重要原因。

本研究收集的10个籼稻骨干亲本具有典型的代表性,包括2010年前栽培面积最大的著名杂交稻组合SY63(ZS97A/MH63);2012-2016年推广面积最大的超级杂交稻品种Y两优1号(Y58S/93-11);2018-2020年中国推广面积前三位的绿色超级杂交稻组合晶两优华占(J4155S/HZ),隆两优华占(LK638S/HZ)和晶两优534(J4155S/WSSM),以及推广面积前十位的隆两优534(LK638S/WSSM)。分别有593-738个双亲互补PAV基因发生在6个组合中,其中只有46个基因被所有组合共同利用,三个时期的杂交组合中利用的互补基因存在显著差异(图1E)。转录水平杂种优势基因也在互补基因中显著富集(图1F,G)。本研究原始数据与基因组及变异相关数据均在国家基因组科学数据中心PRJCA008812 (BioProject)和Github (https://github.com/yilinZhang-bio/Four-rice-gap-free-genome) 公布。

图1四个杂交水稻亲本无缺口基因组及杂交育种中的PAVs

项目文章 |《Nature Genetics》番木瓜基因组研究

2022年5月12日,海峡联合研究院基因组与生物技术研究中心研究团队在国际权威学术期刊《自然遗传学》(Nature Genetics)在线发表了题为“ SunUp and Sunset genomes revealed impact of particle bombardment mediatedtransformation and domestication history in papaya”的研究成果。希望组提供Bac-long超长测序服务。

背景介绍

番木瓜是一种优质热带水果,在我国有“岭南佳果”之美誉,拥有“乔木葱葱滋地气,圆实累累衬红霞”的赞叹。番木瓜不仅汁多味甜,而且具有很高的营养和药用价值,在中国的早期典籍《食物本草》中就有记载。

番木瓜科由6个属共40个种组成,番木瓜属于番木瓜科番木瓜属,主要分布于热带和亚热带地区,野生番木瓜仅在墨西哥南部和中美洲发现。番木瓜于17世纪传入我国,最早在1661年的《九江乡志》书中有记载,称之为“万寿果”,说明我国栽培番木瓜至少有300多年历史了。

1992年,由于番木瓜环斑病毒(PRSV)的大流行,番木瓜产业面临崩溃的威胁。转基因番木瓜品种的诞生使番木瓜产业免遭PRSV的毁灭,这是番木瓜生产上的第一次革命性突破,是转基因作物拯救整个产业的一个典型的成功案例。目前番木瓜是我国批准商业化种植的唯一转基因水果作物。

部分研究细节

然而在获得转基因植物的过程中,外源DNA片段是如何整合到核基因组上的?整合过程中植物基因组发生了哪些结构变异?这些结构变异对基因功能造成了哪些影响?

通过全基因组共线性分析,研究者在SunUp品种的5号染色体上发现两个大的结构变异,一个1.6 Mb插入和591.9 Kb的缺失(图1)。研究发现,三个转基因片段均位于该1.6 Mb的插入片段上,并且三个转基因插入片段的6个侧翼序列中有5个侧翼序列来源于核质体基因组片段(NUPTs),它们在转基因过程中经历了结构变异,只有一个序列来源于核线粒体基因组片段(NUMTs)并且未发生结构变异(图1)。对1.6 Mb和591.9 Kb这两个大的结构变异上的基因进行分析,研究者意外的发现几乎所有基因都是叶绿体和线粒体基因组编码基因。通过 SunUp和Sunset品种不同发育阶段的叶和花组织的表达谱分析发现:两个结构变异上的差异表达基因中只有9个基因是单拷贝基因,表明基因枪轰击介导的转基因可引起显著的基因组结构变异,但是对基因功能造成的影响非常小,这为植物基因枪轰击介导的转基因过程对基因组结构和功能的影响提供了直接的证据。

图1. SunUp 基因组中转基因插入的整合位点(a)SunUp和Sunset 5号染色体的共线性比对;(b)SunUp 1.6 Mb的片段插入在Sunset 5号染色体上;(c)三个转基因片段在质粒上的位置与在1.6 插入片段上的位置对比;(d)三个转基因片段的6个侧翼片段在SunUp和Sunset中的比对。

SunUp和Sunset基因组的比较分析进一步发现1.6 Mb插入片段是由77个重排和异位的片段组成,包括3个转基因片段、61个来自Sunset核基因组的片段和13个来自叶绿体和线粒体细胞器基因组的片段。其中 61个核基因组片段包括1个核基因组、18个NUMTs和42个NUPTs片段(图2)。这个结果说明转基因插入位点偏向于插入叶绿体富集区域,具有“偏好性”。通过以上发现,研究人员推测了基因枪介导的外源基因整合到基因组的可能机制:外源 DNA片段整合到富含NUPTs的区域,伴随着基因组中已有的NUPTs、NUMTs和核基因组序列发生多聚化、异位以及重排。由于基因枪穿透细胞引发的损伤反应促使叶绿体和线粒体细胞器片段整合到转基因插入片段所在的多聚化区域,这种机制可能是植物自身应对外界伤害的一种精密的自我保护的调控机制(图3)。

图2. SunUp 5号染色体上的 1.6Mb 插入片段来源分布图

图3. 外源 DNA 整合到核基因组中的模式图

总结

该研究破译了番木瓜转基因品种SunUp与非转基因品种Sunset高质量的基因组图谱,首次揭示了植物基因枪介导的转基因过程对基因组结构和功能的影响,以及番木瓜地理起源和驯化历史。该成果是在植物转基因过程解析方面取得的原创性突破,对深入解密植物转基因过程具有重要参考价值,对推动果树作物的基础研究以及品种改良等具有里程碑式的意义。

更多细节:我中心《Nature Genetics》在线发表番木瓜基因组研究成果
文章链接:https://www.nature.com/articles/s41588-022-01068-1
研究简报链接:https://www.nature.com/articles/s41588-022-01030-1

世界上最毒蘑菇是如何炼成的?——昆明植物所在毒蘑菇鹅膏环肽毒素合成机制研究中取得重要进展

近日以Genes and evolutionary fates of the amanitin biosynthesis pathway in poisonous mushrooms为题在国际著名期刊Proceedings of the National Academy of Sciences of the United States of America(PNAS)的遗传学板块全文发表。中国科学院昆明植物研究所罗宏副研究员为该论文的第一作者和共同通讯作者,吕李云娇博士研究生为共同第二作者,法国农业科学院Francis M. Martin院士为论文的共同通讯作者。该研究得到中国科学院B类先导专项(XDB31000000)和国家自然科学基金面上项目(31972477、31772377)的经费支持。希望组提供真菌测序服务。

有毒蘑菇对人类健康常常造成威胁,但同时也是重要药物和功能分子的来源。危害最大的有毒蘑菇当属鹅膏属的某些真菌,绝大部分的致死中毒案例由这一类蘑菇所致。剧毒鹅膏中的毒素为鹅膏环肽,但鹅膏环肽并非仅鹅膏属真菌独有,在亲缘关系很远的环柄菇属和盔孢伞属中,也有能产生这类毒素的真菌。

中国科学院昆明植物研究所的科研人员在研究中发现了两个鹅膏环肽合成新的关键基因(P450-29和FMO1),二者为不同的加氧酶,负责在鹅膏环肽毒素的关键位点(异亮氨酸C-5和脯氨酸C-4等)引入氧原子。若缺少这些氧原子,将导致毒素的活性下降1000倍以上。该结果将已知毒素合成基因从原来的2个增加到了4个,对鹅膏环肽生源合成途径有了更为深入的认识。通过建立目前全球唯一的剧毒鹅膏基因组平台,构建了鹅膏属、盔孢伞属和环柄菇属中13个剧毒物种的基因组数据库,完整解析了鹅膏环肽生源合成途径在蘑菇目中的整体架构,发现在蘑菇目三个不同属中,鹅膏环肽的主要合成基因是相同或相似的,因此鹅膏环肽生源合成途径是同宗同源的。系统发育和遗传学研究证据表明鹅膏、盔孢伞、环柄菇之所以都能产生鹅膏环肽毒素,其根源是基因水平转移。更深入的进化分析表明,基因水平转移发生的年代久远且并非直接发生在这几类蘑菇之间,而是由未知古老真菌物种作为供体分别传递给了这些蘑菇(图)。

研究首次证实,在蘑菇目中,虽然鹅膏、盔孢伞、环柄菇间的亲缘关系较远,但其产生鹅膏环肽毒素的遗传学基础是一致的,均由相似的基因控制。但令人吃惊的是,在进化长河中,上述三大类蘑菇中的毒素合成能力却发生了翻天覆地的变化。在木腐生的盔孢伞属真菌中,仅有1个毒素前体基因且该基因编码α-鹅膏毒肽;在土壤腐生的环柄菇属真菌中,存在MSDIN前体基因家族的轻微扩张,有约10种毒素前体基因;在菌根共生的鹅膏属真菌中,MSDIN前体基因家族存在显著扩张,甚至还产生了新的毒素修饰基因,可将环肽数目再扩大数十倍,因此鹅膏的实际产毒能力是盔孢伞和环柄菇的成千上万倍!

简而言之,虽然鹅膏、盔孢伞、环柄菇都继承了由供体转移来的毒素基因,但可能受到不同生理和生态压力的影响,分道扬镳,各自朝不同的方向进化,最终形成了三种迥异的命运(图)。鹅膏是其中的佼佼者,其鹅膏环肽生源合成途径产生了众多创新,产毒能力提升了千倍万倍,炼成了当之无愧的蘑菇毒王!

鹅膏、盔孢伞、环柄菇中环肽毒素合成基因分布及代谢途径进化示意图

文章链接:http://www.kib.cas.cn/xwzx/ttxw/202205/t20220510_6445695.html