项目文章 | 超长测序 + Nextdenovo助力四个水稻基因组T2T组装

北京大学何航研究员、隆平高科杨远柱研究员与广东省农业科学院水稻研究所周德贵副研究员为论文共同通讯作者,北京大学博士生张宜林、隆平高科傅军、王凯博士、北京大学博士后韩雪为论文共同第一作者。北京大学现代农业研究院邓兴旺教授等对本研究提供了支持。本研究得到国家重点研发计划项目、湖南省科技创新计划等重大项目的支持。希望组提供Nextdenovo组装软件支持。

2022年6月24日,北京大学现代农学院邓兴旺实验室何航团队、隆平高科杨远柱团队与广东省农业科学院水稻研究所周德贵副研究员在Plant Biotechnology Journal期刊在线发表了研究论文“The telomere-to-telomere gap-free genome of four rice parents reveals SV and PAV patterns in hybrid rice breeding”,该研究利用HiFi和Ultra-long测序结合的组装策略,完成了湘陵628S、晶4155S、隆科638S与华占4个杂交水稻骨干亲本无缺口参考基因组组装,结合其余六个已发表的杂交水稻亲本基因组,系统分析了结构变异在杂交育种过程中的分布和影响,发现结构变异在F1功能基因及转录杂种优势起着重要作用。该研究展示杂种优势和杂交育种研究已进入无缺口参考基因组水平。

1. 四个两系杂交水稻骨干亲本无缺口参考基因组构建

湘陵628S(XL628S)、隆科638S(LK638S)、晶4155S(J4155S)是隆平高科自主培育的骨干两系不育系,华占(HZ)是中国水稻所与广东省农业科学院水稻研究所共同培育的优秀的两系和三系骨干恢复系,与另一个广泛推广的恢复系五山丝苗(WSSM,R534)属于同一家系(图1A),隆平高科利用隆科638S、晶4155S和华占选配的超级稻品种隆两优华占和晶两优华占连续三年蝉联我国杂交水稻品种推广面积前三位,选配的隆两优534、晶两优534连续多年列我国杂交水稻品种推广面积前十位。利用PacBio(HiFi)和Nanopore(Ultra-long)平台进行三代测序后构建基因组,并通过新的组装方法获得无缺口基因组(图1B)。通过对基因组进行准确性、完整性、连续性的评估,二代测序比对率为98.83%~99.66%,覆盖度大于99.97%。BUSCO值为98.7%~98.9%,LAI值为24.02~24.89。每个基因组上都有着丝粒区和20到22个端粒,证明了基因组组装的高质量(图1C)。湘陵628S、隆科638S、晶4155S和华占无缺口参考基因组的构建,为其功能基因组研究和下一步分子设计育种研究奠定了基础。

2.籼稻基因组结构变异在杂交水稻培育中的应用

基于对以上四个杂交水稻骨干亲本以及已发表的珍汕97(ZS97)、明恢63(MH63)、蜀恢498(R498)、五山丝苗(WSSM)、Y58S、9311的基因组,与日本晴(MSU)进行基因组比对,鉴定出不同水稻亲本之间的结构变异。在日本晴和10个籼稻基因组之间鉴定出422,858-526,481个INDEL和56,817个非冗余的SV,包括52,943个PAV(图1D)。在10个籼稻基因组中,共有2182个功能基因受到PAV的影响,其中565个为籼粳稻之间PAV,包括OsLBD37,SaM,OsMFT1,OsF3H,其余为籼稻内部PAV基因,而其中70个为某一籼稻基因组特有PAV基因,这部分基因可能是该杂交组合表现优异的重要原因。

本研究收集的10个籼稻骨干亲本具有典型的代表性,包括2010年前栽培面积最大的著名杂交稻组合SY63(ZS97A/MH63);2012-2016年推广面积最大的超级杂交稻品种Y两优1号(Y58S/93-11);2018-2020年中国推广面积前三位的绿色超级杂交稻组合晶两优华占(J4155S/HZ),隆两优华占(LK638S/HZ)和晶两优534(J4155S/WSSM),以及推广面积前十位的隆两优534(LK638S/WSSM)。分别有593-738个双亲互补PAV基因发生在6个组合中,其中只有46个基因被所有组合共同利用,三个时期的杂交组合中利用的互补基因存在显著差异(图1E)。转录水平杂种优势基因也在互补基因中显著富集(图1F,G)。本研究原始数据与基因组及变异相关数据均在国家基因组科学数据中心PRJCA008812 (BioProject)和Github (https://github.com/yilinZhang-bio/Four-rice-gap-free-genome) 公布。

图1四个杂交水稻亲本无缺口基因组及杂交育种中的PAVs

项目文章 |《Nature Genetics》番木瓜基因组研究

2022年5月12日,海峡联合研究院基因组与生物技术研究中心研究团队在国际权威学术期刊《自然遗传学》(Nature Genetics)在线发表了题为“ SunUp and Sunset genomes revealed impact of particle bombardment mediatedtransformation and domestication history in papaya”的研究成果。希望组提供Bac-long超长测序服务。

背景介绍

番木瓜是一种优质热带水果,在我国有“岭南佳果”之美誉,拥有“乔木葱葱滋地气,圆实累累衬红霞”的赞叹。番木瓜不仅汁多味甜,而且具有很高的营养和药用价值,在中国的早期典籍《食物本草》中就有记载。

番木瓜科由6个属共40个种组成,番木瓜属于番木瓜科番木瓜属,主要分布于热带和亚热带地区,野生番木瓜仅在墨西哥南部和中美洲发现。番木瓜于17世纪传入我国,最早在1661年的《九江乡志》书中有记载,称之为“万寿果”,说明我国栽培番木瓜至少有300多年历史了。

1992年,由于番木瓜环斑病毒(PRSV)的大流行,番木瓜产业面临崩溃的威胁。转基因番木瓜品种的诞生使番木瓜产业免遭PRSV的毁灭,这是番木瓜生产上的第一次革命性突破,是转基因作物拯救整个产业的一个典型的成功案例。目前番木瓜是我国批准商业化种植的唯一转基因水果作物。

部分研究细节

然而在获得转基因植物的过程中,外源DNA片段是如何整合到核基因组上的?整合过程中植物基因组发生了哪些结构变异?这些结构变异对基因功能造成了哪些影响?

通过全基因组共线性分析,研究者在SunUp品种的5号染色体上发现两个大的结构变异,一个1.6 Mb插入和591.9 Kb的缺失(图1)。研究发现,三个转基因片段均位于该1.6 Mb的插入片段上,并且三个转基因插入片段的6个侧翼序列中有5个侧翼序列来源于核质体基因组片段(NUPTs),它们在转基因过程中经历了结构变异,只有一个序列来源于核线粒体基因组片段(NUMTs)并且未发生结构变异(图1)。对1.6 Mb和591.9 Kb这两个大的结构变异上的基因进行分析,研究者意外的发现几乎所有基因都是叶绿体和线粒体基因组编码基因。通过 SunUp和Sunset品种不同发育阶段的叶和花组织的表达谱分析发现:两个结构变异上的差异表达基因中只有9个基因是单拷贝基因,表明基因枪轰击介导的转基因可引起显著的基因组结构变异,但是对基因功能造成的影响非常小,这为植物基因枪轰击介导的转基因过程对基因组结构和功能的影响提供了直接的证据。

图1. SunUp 基因组中转基因插入的整合位点(a)SunUp和Sunset 5号染色体的共线性比对;(b)SunUp 1.6 Mb的片段插入在Sunset 5号染色体上;(c)三个转基因片段在质粒上的位置与在1.6 插入片段上的位置对比;(d)三个转基因片段的6个侧翼片段在SunUp和Sunset中的比对。

SunUp和Sunset基因组的比较分析进一步发现1.6 Mb插入片段是由77个重排和异位的片段组成,包括3个转基因片段、61个来自Sunset核基因组的片段和13个来自叶绿体和线粒体细胞器基因组的片段。其中 61个核基因组片段包括1个核基因组、18个NUMTs和42个NUPTs片段(图2)。这个结果说明转基因插入位点偏向于插入叶绿体富集区域,具有“偏好性”。通过以上发现,研究人员推测了基因枪介导的外源基因整合到基因组的可能机制:外源 DNA片段整合到富含NUPTs的区域,伴随着基因组中已有的NUPTs、NUMTs和核基因组序列发生多聚化、异位以及重排。由于基因枪穿透细胞引发的损伤反应促使叶绿体和线粒体细胞器片段整合到转基因插入片段所在的多聚化区域,这种机制可能是植物自身应对外界伤害的一种精密的自我保护的调控机制(图3)。

图2. SunUp 5号染色体上的 1.6Mb 插入片段来源分布图

图3. 外源 DNA 整合到核基因组中的模式图

总结

该研究破译了番木瓜转基因品种SunUp与非转基因品种Sunset高质量的基因组图谱,首次揭示了植物基因枪介导的转基因过程对基因组结构和功能的影响,以及番木瓜地理起源和驯化历史。该成果是在植物转基因过程解析方面取得的原创性突破,对深入解密植物转基因过程具有重要参考价值,对推动果树作物的基础研究以及品种改良等具有里程碑式的意义。

更多细节:我中心《Nature Genetics》在线发表番木瓜基因组研究成果
文章链接:https://www.nature.com/articles/s41588-022-01068-1
研究简报链接:https://www.nature.com/articles/s41588-022-01030-1

世界上最毒蘑菇是如何炼成的?——昆明植物所在毒蘑菇鹅膏环肽毒素合成机制研究中取得重要进展

近日以Genes and evolutionary fates of the amanitin biosynthesis pathway in poisonous mushrooms为题在国际著名期刊Proceedings of the National Academy of Sciences of the United States of America(PNAS)的遗传学板块全文发表。中国科学院昆明植物研究所罗宏副研究员为该论文的第一作者和共同通讯作者,吕李云娇博士研究生为共同第二作者,法国农业科学院Francis M. Martin院士为论文的共同通讯作者。该研究得到中国科学院B类先导专项(XDB31000000)和国家自然科学基金面上项目(31972477、31772377)的经费支持。希望组提供真菌测序服务。

有毒蘑菇对人类健康常常造成威胁,但同时也是重要药物和功能分子的来源。危害最大的有毒蘑菇当属鹅膏属的某些真菌,绝大部分的致死中毒案例由这一类蘑菇所致。剧毒鹅膏中的毒素为鹅膏环肽,但鹅膏环肽并非仅鹅膏属真菌独有,在亲缘关系很远的环柄菇属和盔孢伞属中,也有能产生这类毒素的真菌。

中国科学院昆明植物研究所的科研人员在研究中发现了两个鹅膏环肽合成新的关键基因(P450-29和FMO1),二者为不同的加氧酶,负责在鹅膏环肽毒素的关键位点(异亮氨酸C-5和脯氨酸C-4等)引入氧原子。若缺少这些氧原子,将导致毒素的活性下降1000倍以上。该结果将已知毒素合成基因从原来的2个增加到了4个,对鹅膏环肽生源合成途径有了更为深入的认识。通过建立目前全球唯一的剧毒鹅膏基因组平台,构建了鹅膏属、盔孢伞属和环柄菇属中13个剧毒物种的基因组数据库,完整解析了鹅膏环肽生源合成途径在蘑菇目中的整体架构,发现在蘑菇目三个不同属中,鹅膏环肽的主要合成基因是相同或相似的,因此鹅膏环肽生源合成途径是同宗同源的。系统发育和遗传学研究证据表明鹅膏、盔孢伞、环柄菇之所以都能产生鹅膏环肽毒素,其根源是基因水平转移。更深入的进化分析表明,基因水平转移发生的年代久远且并非直接发生在这几类蘑菇之间,而是由未知古老真菌物种作为供体分别传递给了这些蘑菇(图)。

研究首次证实,在蘑菇目中,虽然鹅膏、盔孢伞、环柄菇间的亲缘关系较远,但其产生鹅膏环肽毒素的遗传学基础是一致的,均由相似的基因控制。但令人吃惊的是,在进化长河中,上述三大类蘑菇中的毒素合成能力却发生了翻天覆地的变化。在木腐生的盔孢伞属真菌中,仅有1个毒素前体基因且该基因编码α-鹅膏毒肽;在土壤腐生的环柄菇属真菌中,存在MSDIN前体基因家族的轻微扩张,有约10种毒素前体基因;在菌根共生的鹅膏属真菌中,MSDIN前体基因家族存在显著扩张,甚至还产生了新的毒素修饰基因,可将环肽数目再扩大数十倍,因此鹅膏的实际产毒能力是盔孢伞和环柄菇的成千上万倍!

简而言之,虽然鹅膏、盔孢伞、环柄菇都继承了由供体转移来的毒素基因,但可能受到不同生理和生态压力的影响,分道扬镳,各自朝不同的方向进化,最终形成了三种迥异的命运(图)。鹅膏是其中的佼佼者,其鹅膏环肽生源合成途径产生了众多创新,产毒能力提升了千倍万倍,炼成了当之无愧的蘑菇毒王!

鹅膏、盔孢伞、环柄菇中环肽毒素合成基因分布及代谢途径进化示意图

文章链接:http://www.kib.cas.cn/xwzx/ttxw/202205/t20220510_6445695.html

项目文章|三代测序(TGS)技术助力水稻泛基因组研究再攀高峰

基因组研究热点+前沿测序技术=基因组学顶级期刊!

泛基因组是一个群体中所有基因组的集合,在众多领域(尤其作物科学领域)的基因组研究中显示出巨大的潜力,泛基因组的构建和基因存在-缺失变异(PAVs)分析是基因组研究的新热点。目前基于二代测序技术(SGS),初步构建了主要作物(如水稻、玉米、大豆)的泛基因组,其中水稻泛基因组大小比水稻参考基因组(NipRG)日本晴要大近270 Mb。然而,使用二代测序数据构建的泛基因组仍存在基因组不完整和基因注释不准确的缺点。这些问题在很大程度上可以通过前沿测序技术——长读长的三代测序解决。

近日,上海交通大学生命科学技术学院韦朝春团队和中国农业科学院作物科学研究所合作完成基于三代测序数据的水稻泛基因组构建及分析,相关成果论文 “Long-read sequencing of 111 rice genomes reveals significantly larger pan-genomes”在基因组学顶级期刊《Genome Research》发表。希望组为本研究提供了二代和三代测序服务,自主研发的NextDenovo软件被应用于项目的关键环节——水稻基因组组装。

研究概要

研究挑选了111个代表性水稻品种,结合二代和三代测序技术进行全基因组测序,获得了连续性和完整性很高的个体基因组,并在此基础上构建了高质量水稻泛基因组,同时填补了9个代表性水稻群体的高质量参考基因组,其中包括5个gapless水稻基因组。

研究结果

1. 水稻泛基因组构建及特征分析

结合111个水稻基因组构建的高质量泛基因组有879Mb的非冗余新序列(序列相似度<90%,长度> 500bp)。新序列中转座因子占一半以上,其中逆转录因子52.71%,DNA转座子16.05%,名为Gypsy的长末端重复(LTRs)逆转录元件占比达47.83%。新序列分布于每条染色体上,Chr1新序列数量最多,Chr11新序列长度最长。除了 Chr4 和 Chr11 的端粒附近的两个峰以外,含高密度新序列的基因组区域倾向于位于着丝粒附近。另外,在所有水稻基因组中,野生稻包含的重复序列 LTRs 明显多于栽培稻。泛基因组变异分析的结果显示缺失和易位为主要的结构变异(structural variations,SVs)模式。

在水稻泛基因组中一共发现19319个新编码基因(分布于2132个新基因家族),其中89.5%包含至少一个功能区域。进一步统计分析,在所有基因中65.7%为核心基因,14.4%为候选核心基因(存在于90%的样本),19.6%为非核心基因家族基因(少于90%但不仅在一个样本中存在),0.2%为特有基因。

 图一 水稻泛基因组的基因组特征

2.测序技术及品种数量对构建泛基因组的影响

后续分析中分别构建了相同品种水稻的SGS和TGS泛基因组及品种数量不等的TGS泛基因组,比较分析结果显示:同样的测序技术,加入品种数量不同时,品种数量越多得到新序列越多;品种数量相同时,基于TGS技术构建的泛基因组比基于SGS技术构建的泛基因组得到的新序列多。

进一步对同品种SGS和TGS构建的泛基因进行PAVs分析,将全部基因分为TGS偏好、SGS偏好及无偏好三组。对比分析发现TGS偏好基因的GC含量更高,CDS长度更短;多数SGS偏好基因CDS区与重复元件重叠,与DNA转座子和LTR相关;具有较高LINEs和RC/Helitron比例的基因在TGS中比SGS中更频繁。这些结果表明,SGS数据在检测基因PAVs时往往会得到更高的假阳性率,尤其是对于包含重复序列的基因。

图二 SGS和TGS基因家族比较分析

3. 栽培稻表型关联分析

通过栽培稻基因PAV和表型关联分析,检测到14,471个显著的基因PAVs和表型的关联(8130个基因和9个表型)。例如LOC_Os01g27930(一种反转录转座子蛋白)的缺失与籽粒长宽比增加相关,而它的存在也与籽粒宽度增加相关;SD-1的缺失会导致植株高度的降低。这些结果表明,基因PAVs对水稻表型变异可能有重要贡献。

小结

本研究结合SGS和TGS数据构建了水稻高质量泛基因组,全面解析水稻基因组相关特征。研究结果将全面推动水稻的功能基因组学研究,为水稻品种改良提供重要参考资源。

项目文章 | 希望组异源四倍体组装案例——象草

象草超“能”,原因几何?

%、13%的木素,是生产高生物量、多种素素、草料和多种植物的重要植物。的炭原料,约45吨/公顷。理想下可收获3-4次。拥有如此巨大的量,但其本身却是天然生物基因的四倍体基因。的不同来源,却是四体基因。基因组组合,而不同的不同源头四种资源实现也分配。

近期,齐鲁源、齐鲁涛生物大学(山东省鲁涛生物大学)志课题组以及夏大学热带科学决策学院发表海南课题组于分子生态资源杂志上题为“染色体组长组合提供了不同的对科学院课题组”四倍体上确定了草草基础的鉴定和大象草的生物质(生物质积分)。研究和进化、基因家族分析、在项目中提供了新的视觉检测技术组合图谱、ONT超象草技术、ONT超象素基因组图技术、PacBio纳米技术、PacBio全长药物组合技术、Hi-D C技术以及下一个诺组件服务。

01 研究思路

02 研究结果

1. 源四倍体象草基因组的从头组件及注释

通过K-mer分析和流式细胞仪,象草的基因组排列预测为2.0 Gb和2.13 Gb。另外,通过K-mer分析的综合比例为1.3%。最终为2.22 Gb的组成序列当中,N50组合为 25 Mb8con。4N5M 组合 25 Mb。去 Gbtig 获得 N.46 组合后,con2.2.4 组合 N587 组合谱。90 Mb。10 倍的 Bioscaffold 以及 2.0.0 辅助的组合组合,通过了 N50 的基因组列表。 。 加载系数为 6.88% 的 N50146.844,BUSCO 97.8% M-9% 的评估为 C 77,19 帮助预测的一个。

图1 异源象草基因组圈图

2.异源四倍体象草的进化分析

禾本科植物和树种基因有不同的来源和类似的基因系统(图2)。三。禾本科植物的组合中线发生融合22马,植物形成组中线(图2b)。 2的编码基因’B亚的重建和染色体家族的后裔,1条染色体家族的共同支持,母体之间有2个基因组之间的关系。一个“基因组基因组整合”的源体组合(图2c和)似乎出现了3次多倍组化事件。中,一个亚组11492显着发现,1719个组,而象草B亚0031这些基因家族有2个发现有1个下来)。在进化过程中保留家族链(图)基因家族的家族基因组丰富的或能力亚基具有重要的分析能力。以及过氧化物的家族基因。

图2 狼蛛相关的尾草进化属中象草

3. 象草的生物量特性相关分析

在A’和B亚组中(图3b)的两个结果中,组和B亚组中的两个和三个重复分别出现的结果,A’B亚组的基因组序列相同。积分。

图3 象草的合成基因表达和速热图

136个基因的基因发现的木质素合成相关,个数源可能是由于对四象体形成了5亚种的加成。(图4b,通过WGCNA分析)鉴定了664个木质素合成的有加。

图4 象草和木素热合成的基因表达图

03 小结

本文利用三代长基因组基因技术以及辅助组件技术,象草生物量巨大的潜在成分组,为研究象草组的提供了组合、组合、组合、组合、多种组合化的重要和进化也为等方面提供了基础,其他开发利用的资源。

平台升级 | 希望组HiFi产能扩大50%,交付快人一步!

为满足市场需求,给客户带来更高效更经济的服务,2022年4月22日希望组再次引进PacBio公司的最新Sequel IIe测序平台,HiFi产能扩大50%,目前,希望组已经累计构建PacBio Sequel/Sequel I I/IIe达12台。测序平台产能瓶颈解除之后,希望组将持续助力更多的动植物基因组完成图、三代群体重测序研究以及医学诊断等领域的研究与应用。

Sequel IIe真容

相较于以往Sequel II机型,Sequel IIe测序仪在测序原理上并无差别,但在硬件和软件上进行了一些改进和优化,用户可在Sequel IIe系统上直接获得高品质的HiFi 测序数据,总体上能够缩短用户近70%的下游分析时间,同时能够减少近90%的数据传送时间及节约相应的存储空间。与此同时,基于Sequel IIe测序仪的Read population可视化优化后可直接看到reads在长度和准确度上的空间分布情况及subread passes数对最终reads质量的影响情况,更快一步看到样本测序初步质量。

既快又好,希望组的HiFi测序数据质量及相应基因组组装结果是这样的!

1. 高产保质的HiFi测序

HiFi数据量和长度统计

近半个月来,希望组承接的40个HiFi测序项目中,除去个别特殊处理样本,每个cell的HiFi数据产出量均达25G以上!并且统计结果显示,产出数据的N50长度均能达到15kb左右,部分样本甚至可达20kb!

2. 快速高效的HiFi基因组组装

HiFi基因组组装统计

近期希望组完成的HiFi基因组组装案例,覆盖了真菌及各种大小型动植物,且组装的各项指标均达到预期!对最终组装结果进行BUSCO评估,用以评估基因组组装、基因集和转录本的准确性和完整性,各项目的BUSCO评估结果显示Complete BUSCOs 比例均达95%以上,相关基因组组装的完整性非常高!

3. HiFi宏基因组组装——HiFi测序应用的另一块高地

目前宏基因组测序方式主要是短读长的二代测序和长读长的三代测序。二代测序获得的宏基因组组装由于测序读长的限制,分析结果往往出现基因信息不完整、种群分类分辨率偏低、只能到属水平、组装连续性小等不理想状况。新升级的Pacbio Sequel II及Sequel IIe HiFi reads,兼顾长读长和高精准度,完全可以解决以上问题,通过长且准的测序方式提升组装完整性和连续性。HiFi宏基因组,在保证准确度和组装质量的前提下,提升了组装速度,为后续深入分析研究奠定基础。目前希望组正在基于华为云平台开发自动化分析流程,将进一步缩短分析流程,加快项目周期,为科研工作者和分析人员提供更便捷精准的平台,敬请期待!

项目文章 | Nature Plants封面-苏铁基因组发布

种子植物包括裸子植物(gymnosperms)和被子植物(angiosperms),裸子植物分为四大类,即苏铁类(cycads)、银杏类(Ginkgo)、松柏类(conifers)和买麻藤类(gnetophytes)。裸子植物基因组较大,重复序列含量高,结构复杂,迄今为止,现存最原始种子植物苏铁分支尚缺少完整的基因组图谱。

2022年4月18日,由22个机构65位科学家联合在Nature Plants发表了题为“The Cycas genome and the early evolution of seed plants”的封面文章,报道了现存最原始种子植物苏铁参考基因组,填补了种子植物基因组研究的空白。苏铁基因组的发布,代表着种子植物基因组演化研究中的最后一块拼图完成,为后续比较基因组学的开展奠定了基础。希望组参与了本研究项目中攀枝花苏铁的测序、组装及初步注释服务。

苏铁基因组测序材料选取苏铁类的基部类群、也是整个苏铁类分布纬度最北的种类攀枝花苏铁(Cycas panzhihuaensis)。基于长片段测序与MGI-SEQ测序,苏铁基因组组装大小为10.5 Gb,contig N50为12Mb,结合Hi-C数据,挂载为11条染色体。其中共注释32,353个蛋白编码基因,BUSCO评估完整度为91.6%,是目前裸子植物中最高质量的大基因组图谱。

裸子植物具有4大分支,1118种,关于裸子植物内部大分支之间的系统演化关系一直有不同的学术观点。基于15个维管植物基因组3282个直系同源低拷贝核基因、90个种子植物转录组1569个直系同源基因、72种维管植物叶绿体和线粒体基因组数据的系统分析结果表明,苏铁单独(线粒体数据)、或和银杏一起(核基因、叶绿体数据)构成其它所有裸子植物的姐妹群。

基因组加倍是植物演化适应的重要驱动力,关于裸子植物共同祖先是否经历了全基因组加倍事件一直存在争议。研究者采用对重复基因同义替代分析和系统发育基因组学方法,并使用基因组内共线性区域进行比较验证,发现现存裸子植物的最近共同祖先可能经历了一次古老的全基因组复制事件(命名为ω,图一a)。伴随着种子植物起源,许多关键创新性状如种子发育、花粉、次生生长相关的基因家族均发生了创新或扩张。在种子植物的祖先节点共发现663个新获得的基因家族和368个扩张的基因家族。其中,106个新获得和55个显著扩张的基因家族与种子生理发育有关,包括调控胚胎早期发育、种子休眠和萌发、种子能量和营养代谢,种皮形成以及种子的免疫和应激反应等(图一b)。

图一、a) 基于系统发育关系推断种子植物的全基因组加倍事件;b) 种子植物的基因家族创新和扩张。

最显著扩张的种子生理相关家族是cupin蛋白家族。攀枝花苏铁编码一类新的vicilin-like贮藏蛋白 vicilin-like antimicrobial peptides(v-AMP),在基因组中呈串联基因阵列分布,多在授粉胚珠后期和受精胚珠时期表达,而后逐渐降低,暗示v-AMP基因在种子发育过程特定时期发挥重要作用。LAFL家族(LEC1ABI3LEC2FUS3)是种子发育核心调控基因,苏铁等裸子植物的FUS3LEC2基因可构成一个新的进化枝,定义为FUS3 / LEC2-like类型,与被子植物的FUS3LEC2形成姐妹分支关系。FUS3 / LEC2-like类别是裸子植物特有的。在攀枝花苏铁授粉后,其会表现出明显的表达,表明可能在裸子植物胚胎发生早期发挥特定作用 。

苏铁类起源于古生代二叠纪早期,距今已有至少2亿7千万年历史。在经历大量灭绝以后,现代苏铁多是近期几次辐射演化的后代。如今苏铁具有2科10属。研究者基于现存苏铁目339种植物的转录组数据,重建了苏铁类自身的系统发育关系。分子钟分析表明,现存苏铁的多样化同步发生于距今1100至2000万年之间,是中新世以来气候剧烈变化的结果(图二)。

图二、苏铁目系统发育树支持现存苏铁是辐射演化的结果

雌雄性别分化是一种进化性状。裸子植物已报道的1118个物种中,65%的种类都是雌雄异株, 而在被子植物中雌雄异株只占到6%。苏铁类植物均为雌雄异株(图三),由于其生长缓慢,以往只能在开花时才能判断性别,而成株树龄多在十年以上以及在适宜的环境才会开花。研究苏铁性别决定的分子机制,可以在植株进入花期前就确定性别,对于苏铁类植物的就地和迁地保护和园林培育具有重要意义。苏铁的性别控制基因一直困扰科学界。研究者通过对源于四川攀枝花苏铁国家级保护区62株雌雄苏铁群体测序,表达差异分析,和雄性Y染色体的组装,找到雌雄表达差异最大的一个基因来自雄株的Y染色体,该基因编码一个MADS-box转录因子,推测其调控雌雄苏铁的性器官发育,揭示了苏铁性别决定的遗传机制。该转录因子的同源基因也仅能在雄株基因组中检测到,说明了该性别决定机制在苏铁类植物中的保守性。

图三、a) 攀枝花苏铁;b) 攀枝花苏铁雄株和雌株的孢子体。

早期维管植物的精子都是有鞭毛,可以游动的。随着演化,鞭毛丢失。在现生种子植物中仅苏铁和银杏保留精子具鞭毛的特征。研究人员发现,苏铁和银杏均保留了大量鞭毛组装所需基因,但与苏铁相比,银杏中RSP类基因有一定的丢失(RSP2RSP3RSP 9, 和RSP11等)。此外,与鞭毛行使功能密切相关的外周致密纤维合成基因(ODFs),只在苏铁和银杏基因组中存在,在其它种子植物中则全部丢失。进一步证实了苏铁在种子植物演化中古老的地位。
水平基因转移泛指不同物种间的基因交流,在陆生植物适应性进化过程中起到推动作用。研究者在攀枝花苏铁基因组中发现一种细胞毒素蛋白基因(fitD),这种基因起源于细菌,通过水平基因转移的方式转移到真菌和苏铁中(图四a)。基于苏铁类339个物种转录组数据,研究人员发现该毒素蛋白只在苏铁属物种中存在。同时,fitD基因在种子和根部高表达,这可能也是苏铁种子和根部具有毒性的原因之一。基于基因重组技术,在大肠杆菌表达的毒素蛋白产物对小菜蛾和棉铃虫有显著致死性(图四b-f),显示出毒素蛋白具有一定的农业应用前景。

 图四、a)苏铁水平转移毒蛋白基因的演化历史。b-f) 苏铁毒蛋白基因表达,及对昆虫毒性实验。

该研究由深圳华大生命科学研究院、深圳市仙湖植物园、中国科学院昆明植物研究所、兰州大学、中国环境科学研究院、河南大学和南京林业大学等22个机构65位科学家联合完成。该论文第一作者为深圳华大生命科学研究院刘阳、王思博、李林洲、杨婷、魏桐,深圳仙湖植物园董珊珊,兰州大学武生聃等为共同第一作者,分别在基因组不同的领域贡献了自己的专业力量。深圳仙湖植物园张寿洲,深圳华大生命科学研究院刘欢,中科院昆明植物所龚洵,美国佛罗里达大学Douglas E. Soltis,比利时根特大学Yves Van de Peer为文章共同通讯作者。该项目得到深圳市城市管理和执法局科研专项、国家重点研发计划、生态环境部生物多样性调查与评估等基金支持。

项目文章 | 华中农大联合深圳基因所组装康乃馨染色体级别基因组并结合多组学数据解析花色、花型和花香等重要性状调控密码

康乃馨(Dianthus caryophyllus)是石竹科石竹属多年生植物。因其花色绚丽,花型独特,香气馥郁,深受世界各地人民的喜爱,被称作世界‘四大切花’之一,具有极高的观赏价值和经济价值。

2022年3月5日,华中农业大学园艺林学学院傅小鹏研究团队,联合中国农业科学院农业基因组研究所(简称‘基因组所’)武志强研究团队,在国际著名学术期刊Plant Biotechnology Journal上发表了题为“Integrated multi-omic data and analyses reveal the pathways underlying key ornamental traits in carnation flowers”的研究论文。希望组在本文章中提供了基因组测序及Hi-C测序服务!

该研究首次组装了康乃馨染色体级别的基因组,并结合比较基因组,转录组,代谢组等方法,系统地研究了康乃馨基因组的进化,并对康乃馨的花色,花型和花香等重要观赏性状的分子机理进行解析,鉴定了参与这些性状形成的关键基因。本研究的开展为定向改良康乃馨的观赏性状,培育康乃馨新品种奠定了基础。

研究团队利用第三代ONT、二代Illumina和HIC技术,对康乃馨栽培品种‘斯嘉丽’( D. caryophyllus, cultivar ‘Scarlet Queen’)进行了全基因组测序和组装。康乃馨(2n=30)的基因全长为636.30 Mb,重复序列占70.62%,共注释到43,925个基因,Contig N50 和Scaffold N50分别为14.67 Mb和38.55M。研究发现康乃馨与藜科在~64.07 MYA发生了分化,并经历了一次近期的WGT事件,这次加倍事件促进了康乃馨特殊香气丁香酚合成相关的基因的扩张。

图1.康乃馨基因组的组装与进化

基于本基因组,对康乃馨红边花瓣进行代谢组分析,发现天竺葵素的积累促使花瓣红边的成色,叶黄素和多个类黄酮物质的共同积累,促使花瓣基部成黄色;结合转录组分析,筛选到几个MYBs, bHLHs 和WRKY44等基因共同作用于ANS调控康乃馨复色的形成。同时,利用GC_MS以及转录组,对香石竹丁香酚在不同时期花瓣的积累过程进行解析,发现EGS基因存在外显子上的结构变异,其提前终止可能是康乃馨丁香酚丢失的原因。另外,研究发现康乃馨汇总A、C类基因的异位表达可能是影响重瓣型康乃馨形成的重要因素。

图2. 康乃馨花瓣花边颜色的形成

图3.潜在的康乃馨中丁香酚合成通路

 图4.康乃馨重瓣花形成的遗传机制

本研究为开展康乃馨重要观赏性状的调控和遗传改良提供了宝贵的数据信息和坚实的理论基础,对推动康乃馨分子育种育种具有里程碑式的意义。

华中农业大学博士张晓妮(现为基因组所武志强组博士后)为论文第一作者,华中农业大学傅小鹏教授和基因组所武志强研究员为共同通讯作者。该研究是在包满珠教授和BENDAHMANE教授全程指导和帮助下完成的。同时,该研究得到了国家自然基金、国家青年科学基金、深圳市科创委以及基因组所启动基金等的支持。

原文链接:https://onlinelibrary.wiley.com/toc/14677652/0/ja

文章来源:植物生物技术Pbj公众号

进展迅速丨高质量人类二倍体基因组组装策略来临

自T2T联盟于2021年5月在BioRixv预印版上发表了首个人类基因组完成图及相关文章之后,近日人类泛参考基因组联盟紧跟步伐在BioRixv预印版上发布了题为“Automated assembly of high-quality diploid human reference genomes”的文章。

样本来源

目前常用的人类参考基因组GRCh38,是科研团队花费20多年的努力而完成的高质量的人类基因组。该基因组极大程度上推进了生命科学相关领域的发展。但是它仍然存在着许多gaps(gap数已从原来的150,000个降低至了现今的995个)和错误。因为GRCh38是20位匿名志愿者的混合样本,所以并不代表单个个体的人类基因组。2021年,T2T联盟利用最新的长读长技术与自主研发的生信算法组装出了高质量端粒到端粒的参考基因组CHM13(首个人类基因组完成图)。由于它来源于一个带有重复基因的葡萄胎细胞系,因而几乎是纯合基因组。在组装难度上,纯合基因组比二倍体基因组组装相对较低。为了解决这些原有人类基因组序列的局限性,研究团队成立了人类泛参考基因组联盟(Human Pangenome Reference Consortium,HPRC)。该联盟旨在整合高质量、低成本、二倍体人类基因组,用以构建代表人类遗传多样性的人类泛参考基因组。

人类泛参考基因组联盟使用的是二倍体基因组,组装难度会更高。在样本选择上,选择了广泛使用的HG002的永生化淋巴细胞GM24385,用于ONT测序和Bionano光学图谱测序。二代illumina测序和PB测序数据使用的样本是由大量GM24385细胞而来的NIST标准样本8391 DNA样本。父系样本HG003和母系样本HG004分别来源于公开的GM24149和GM14143细胞系,并通过二代illumina测序对NIST标准样本8392(含HG002、HG003和HG004)的DNA进行测序。

组装策略及结果

本文是以HPRC的名义发表的首篇文章,该文章确定了当前基因组测序和automated组装方法的组合可以在人工干预最少的情况下产生最完整、最准确和最经济的二倍体基因组组装。在组装过程中,团队选择了最优的高精度长读长reads和父母本及子代数据进行单倍体分型组装(trio-based assembles)的方法。第一个高质量二倍体人类参考基因组(XY型),平均每条染色体仅有~4个Gaps(范围在0-12),大多数染色体长度和CHM13相比仅有±1%的差异。将近四分之一的蛋白编码基因在单倍型间存在同义氨基酸变化,而其中着丝粒区域变异的密集度最高。该研究为构建涵盖从单个核苷酸到大型结构重排的所有遗传变异的人类泛参考基因组奠定了基础。

测序及组装方法的测试总结

HPRC Trio pipeline v1.0组装流程图

小结

使用目前已有的方法和技术,研究者们可将二倍体HG002基因组的组装达到整体完整度的98.5%。利用这些方法组装不同的二倍体人类基因组,构建人类泛参考基因组,将会更全面地了解人类遗传多样性,提高精准医疗的准确性,并对生物基因组学有更深入的了解。

美国学者Erich D. Jarvis为论文的第一作者,中南大学王建新团队、中山医眼科肖传乐团队、中国农科院阮珏团队、昆明动物所张国捷团队以及华大基因杨琛涛团队均参与该项项目研究。

希望组一直致力于推动各个物种基因组完成图的组装及应用。近期还为动植物基因组完成组量身定制包含测序及组装在内的全套解决方案,敬请期待!

原文链接:https://doi.org/10.1101/2022.03.06.483034

基因组T2T完成图新工具丨BAC-long(>150Kb)测序技术正式推出!

2022年伊始,Nature杂志发布年度前沿技术展望,其中人类基因组T2T(端粒到端粒)完成图成为7大技术展望之首。

人类基因组T2T完成图

当Karen Miga和Adam Phillippy在2019年启动端粒到端粒(T2T)联盟时,大约有十分之一的人类基因组还没完全绘制出来,而今该数字已降至为零。该联盟2021年5月在BioRixv上发布的预印版中报道了第一个人类T2T基因组序列,有将近2亿个新的碱基对加入了广泛应用的人类基因组参考序列中,成为了一个全新的T2T-CHM13基因组版本,撰写了人类基因组计划的最终章。

从人类基因组端粒到端粒的完成图发布,到已发布的拟南芥基因组完成图,物种基因组完成图时代已经来临。

科学的进步一直伴随着技术的突破,人类基因组T2T项目的完成也不例外。近年来,长读长测序技术持续改进,陆续打破了传统的测序技术极限,成为了基因组T2T完成图组装的必备工具。其中,PacBio公司开发的HiFi测序技术,可以得到超过20Kb,准确度在99.9%以上的测序序列,成为了基因组组装领域的必备工具;ONT公司开发的Ultralong测序技术,可以将DNA测序长度扩展到N50 100Kb的极限,成为基因组T2T组装的首选技术。

但是,从人类基因组到模式生物基因组,以及逐步拓展到非模式生物基因组T2T组装,将面临更大的挑战:

1)二倍体基因组全染色体分型问题;
2)二倍体/多倍体基因组高杂合度问题;
3)超大基因组(>10Gb)带来的高重复问题;
4)超高/超长重复序列组装问题;
5)新进化产生的大片段重复(Segmental Duplications)识别问题;
6)一些复杂物种的大规模STR识别问题;
7)一些植物的高占比的着丝粒和端粒的识别问题;

这些问题的解决,也许需要采用比现有的人类基因组T2T项目更前沿的技术。

为了全面推动基因组组装进入T2T完成图时代,希望组(GrandOmics)历经近5年时间的持续研发,在逾10,000张ONT测序芯片的实战基础上,特别测试了超过1,200张超长DNA测序。在此基础上,研发出希望组自主知识产权的BAC-long(>150Kb)试剂盒,并正式面向全球提供BAC-long(>150Kb)测序服务。

测序技术里程碑——BAC-long测序

短读长组装到BAC-long组装

BAC文库构建可以插入平均150Kb的长片段DNA,是早期基因组组装的主要工具。2001年,人类基因组草图完成,国际人类基因组联盟主要采用的即是BAC-Based技术。每完成一个BAC的测序,都需要付出大量的人力、物力、时间和经费,最终整个项目整整持续了11年,花费超过了27亿美元。

2021年发布的CHM13-T2T人类基因组序列是研究者们耗时数年,利用长读长测序技术(PacBio平台的HiFi技术以及ONT平台的Ultralong(>100Kb)技术)完成的第一个零GAP人类基因组组装序列。但是,测序样本CHM13本身是加倍的单倍体,拥有几乎为零的基因组杂合度,难度远远低于普通的人类基因组二倍体,以及其他模式和非模式物种的T2T组装。

为了将真正的T2T基因组组装,从人类基因组拓展到更为广阔的领域,包括动植物基因组、农业育种、医学研究、濒危物种保护等,将T2T基因组组装树立为新的行业标准,希望组正式推出BAC-long试剂盒——直接测序即可获得近乎BAC插入片段长度,提供测序读长N50超过150Kb的BAC-long reads,从而可以让测序长度更长,更容易跨过端粒、着丝粒等复杂重复区域,在基因组组装中的表现更优越,为每个物种的基因组完成图助力。

以下为近期希望组BAC-long项目中某植物、某动物的测序reads分布图,显示reads长度更长。

想要获得基因组完成图,除了需要BAC-long reads,跨越复杂重复区域,降低基因组组装拼接难度外,还需要相匹配的完成图组装软件。希望组特地为用户匹配了NextDenovo 2.0系列组装软件,彻底解决完成图组装的后顾之忧。

敬请关注希望组升级软件NextDenovo 2.0!