项目文章 | 中-非中心科研团队“百岁兰”基因组研究成果在Nature Communications上发表

背景资料
百岁兰(Welwitschia mirabilis)又名千岁兰,是买麻藤类单种科百岁兰科孑遗植物,系裸子植物中唯一的草状木本,是一种十分罕见的植物。化石记录百岁兰曾经广泛分布于巴西、葡萄牙等地。随着大陆板块分裂,气候骤变,自然居群幸存于如今的安哥拉与纳米比亚沙漠(纳米比亚国花)。是《濒危野生动植物种国际贸易公约》(CITES)附录Ⅱ保护植物,被国际植物学会列为世界八大珍稀植物之一。百岁兰一生只有两片叶子,持续生长不脱落,叶子寿命为植物界最长,其个体在原产地可存活达3000年之久,故此得名。
自2017年开始,在中国科学院中-非联合研究中心的组织下,中国科学院武汉植物园王青锋研究员团队、深圳中科院仙湖植物园万涛研究员团队以及纳米比亚Gobabeb研究中心、英国Kew皇家植物园、中国科学院植物研究所、英国伦敦玛丽女王大学、比利时根特大学等十余个合作单位的科学家联合启动了百岁兰基因组与适应性进化机制的研究工作。经过连续三年多次的野外观察和取样,采用第三代测序技术和Hi-C技术辅助组装注释获得了百岁兰6.8G的基因组全长序列,Scaffold N50达295.50 Mbp, 93.65%的序列锚定到了21条染色体上,结合RNA-seq、Bisulphite-seq、sRNA-seq、核磁共振、激素测定等分析,对百岁兰的演化历史和生态适应性进行了研究。希望组为本项目提供了基因组测序、组装、注释和标准分析服务。

图1,百岁兰形态、生境及其分布

研究发现,百岁兰物种分化产生之后约8千6百万年发生了一次独立的全基因组加倍(WGD),基因组在近1-2个百万年内经历了剧烈的转座子爆发,但高频的非同源重组抵消了大部分扩增的转座子序列。上述变化发生的时间和百岁兰所处纳米比亚沙漠的形成历史(约至少八千万年前形成的地球上最古老沙漠)具有很强的关联性。

图2. 百岁兰基因组演化动态和历史

通过对百岁兰原始分生组织和新老叶段的甲基化测序和比较,发现百岁兰基因组整体呈现极端重度甲基化,并通过CHH位点甲基化动态差异来特异性调节沉默转座子,以维持分生组织细胞基因组完整性,避免DNA的有害突变。有意思的是,重度的甲基化似乎加速了百岁兰基因组脱氨基的速率,使得其G-C含量异常低。在漫长的极端干旱和贫营养的条件下,百岁兰基因组演化朝着小且‘低能耗’的方向演化。

图3\4. 百岁兰甲基化图谱,重度甲基化百岁兰基因组脱氨基导致的低GC

通过与其他代表性陆地植物的比较分析,相关抗性基因(HSP,LRR,WRKY,bHLH等)在百岁兰中发生了明显扩增,涉及细胞稳态、细胞生长速率、DA修复的诸多转录因子的表达式样,尤其是调控植物分生组织分生能力的ARPKNOX1共表达模式与其他种子植物区别明显,使得百岁兰能持续不断的获得新分化的叶片细胞,保证两片叶子的持续伸长。研究还发现脱落酸ABA合成限速酶NCED4在百岁兰不同组织差异表达可能是由启动子区CHH差异甲基化调控引起的。

图5/6/7. 百岁兰特性扩张基因家族及新老叶段基因家族的差异表达

相关研究表明,百岁兰的基因组演化与其近1亿年以来经历的地质环境剧变和持续高温干旱影响有较强的关联性,趋向小且‘低能耗’。重度甲基化和CHH位点调节,有效的保证了百岁兰基因组在世代交替过程中的完整性;调控初生分生组织发育转录因子表达模式的变化很可能影响了该物种现今的形态建成式样,特异性降低的细胞生长速率、细胞内稳态建成使得百岁兰的两片叶子缓慢而健康的生长,而抗热、高度木质化的叶片进一步助其适应极度干旱的环境。
相关研究成果以The Welwitschia genome reveals unique biology underpinning extreme longevity in deserts为题,于2021年7月12日发表在Nature Communications上。研究工作得到中国科学院中-非联合研究中心研究专项、国家自然科学基金等的支持。

完成图里程碑丨首个完整人类基因序列发布

基因组完成图一直以来都是组学研究领域的前沿,近期发表的人类X染色体完成图8号染色图完成图极大地推动了人们对基因组完成图的认知及研究。近日,T2T联盟(端粒到端粒联盟小组)研究人员几乎同时在bioRxiv杂志上公开3篇文章,宣布完成首个无gap的人类基因组完成图,并首次解锁了基因组完成图级别的结构变异和表观遗传。这些研究成果将会成为人类测序史上里程碑事件!下面跟着组学君一起学习下这3篇文章吧。

The complete sequence of a human genome
2001年,Celera Genomics和国际人类基因组测序联盟公布了人类基因组草图,自此掀起了基因组学的一场革命。这些草图和随后更新的基因组序列,尽管有效地覆盖了基因组全染色质部分,但异染色质区域以及许多复杂区域仍然未能测通或者存在错误序列。为了解决这悬而未决的8%基因组部分,T2T联盟(染色体端粒到端粒联盟)开始了相关工作,完成了首个真正完整人类基因组测序,共计30.55亿bp的人类基因组序列。这是自人类参考基因组首次发表以来至今,最大的飞跃。新的T2T-CHM13参考基因组包括了所有22条常染色体和x染色体的无GAP组装,纠正了许多错误序列,并引入了近2亿bp(即200Mb)的新序列,其中包含有2,226个同源基因拷贝序列以及115个蛋白质编码区域。最新完成的区域还包含所有着丝粒卫星阵列(centromeric satellite arrays)以及所有5个端粒染色体(acrocentric chromosomes)的短臂区域。首次解锁的这些基因组复杂区域,以便于进行结构变异以及功能相关的研究。

在过去6年的时间里,研究者们采用了多种技术对CHM13进行测序,包括了30x PacBio CCS(HiFi)测序,120x Oxford Nanopore ultra-long测序,100x Illumina PCR-Free测序,70x Hi-C测序,以及Bionano光学图谱和Strand-seq。为了更好的利用这些数据集,研究者们开发了新的组装、校正以及验证的方法。和T2T联盟组装出的第一个X染色体(依赖于ONT测序reads搭建骨干,之后利用其它技术进行校正)相比,研究者们采用了新的组装策略,综合利用HiFi reads的准确性和读取长度,完成了高度重复着丝粒卫星阵列以及密切相关的重复片段的组装。

T2T-CHM13人类完整基因组序列与GRCh38的比较

T2T-CHM13v1.1组装包括了22条人类常染色体和x染色体的端粒到端粒的无GAP组装,由3,054,815,472bp的核DNA16,569bp的线粒体基因组组成(CHM13没有Y染色体)。和GRCh38相比,这个完整组装的参考序列增加或修正了238Mb的序列。该序列的大部分是由着丝粒卫星序列(180Mb)、重复片段(68Mb)和rDNAs10Mb)组成,表明在着丝粒和重复片段确定区域之间存在重叠。在这些区域中有182Mb的序列是首次发现,因此对CHM13组装而言是全新区域。最终发现T2T-CHM13v1.1组装版本显著增加了人类基因组中的已知基因数目和重复序列数量。T2T-CHM13共注释出63,494个基因和233,615个转录本,其中有19,969个基因和86,245个转录本预测为蛋白质编码区域。

Segmental duplications and their variation in a complete human genome
大片段复制(segmental duplications,以下简称SDs)在人类疾病和进化中具有重要意义;但由于其结构的复杂性,这些高度相同的大片段重复(SDs)是人类参考基因组(GRCh38)中最后完成的区域之一。基于完整的 T2T人类基因组(T2T-CHM13),研究者们呈现了一个综合的人类SD结构组织。在染色体级别的scaffolds中鉴定了218Mbp的SDs,其中1/3(81.3 Mbp)的SDs为新发现的或其结构与GRCh38中是不同的,将人类基因组片段复制的占比预估值从5.4%提高到了7.0%,发现近端着丝粒染色体的63%(35.11/55.7Mbp)由SDs组成,且SDs长度比其他SDs长1.75倍(p=0.00034)。使用DupMasker对所有T2T-CHM13 SDs进行注释,鉴定了30个在T2T-CHM13和GRCh38之间拷贝数变化最大的复制子,而这也是基因注释最有可能改变的区域,然后,研究者们集中关注了这30个SDs结构组织的验证,将来自人类fosmid基因组文库(25)的可用末端序列数据比对到T2T-CHM13组装结果中选择合适的探针以确认高同一性(>95%)SDs的模式,结果显示所有30个基于T2T-CHM13预测的SDs都得到了验证。与独特区域相比,SDs有更丰富的单核苷酸变异多样性,而基于T2T-CHM13和GRCh38参考基因组的高质量和单倍型性质,研究者分析比较了全基因组模式的单核苷酸变异,同时基于GRCh38 and T2T-CHM13的共有区域,研究者预估了unique regions 的单核苷酸变异(SNV)密度为0.95SNVs/kbp,而当加上SDs区域时,密度上升为1.47 SNVs/kbp,这50%的增加可能是因为SDs突变率的增加(例如,由于中间基因转换的作用),或是重复序列的平均聚合程度加深。此外,研究者关注了重复基因转录相关的甲基化特征,发现SD区块通常作为一个整体被甲基化或非甲基化,分析预测了182个新的蛋白质编码候选基因,其中许多代表扩张的串联重复(例如,X染色体上的GAGE基因家族成员)或大的散布重复(例如,β-防御素基因座),将几乎相同的基因的额外拷贝添加到人类基因组中。比较了其他人类(n=12)和非人灵长类(n=5)基因组的长读长组装结果,使用T2T-CHM13基因组系统地重建了在人类额叶皮质扩张中重要的生物医学相关(LPA、SMN)和重复基因(TBC1D3、SRGAP2C、ARHGAP11B)的进化和结构单倍型多样性。此项研究揭示了人类及其近亲在SD结构中前所未有的结构杂合度模式和巨大的进化差异。

T2T-CHM13GRCh38SD的统计

T2T-CHM13基因组中的SD占比

Epigenetic Patterns in a Complete Human Genome
人类第一个端粒到端粒基因组T2T-CHM13的完成,使人们能够探索完整的表观基因组,消除之前参考序列缺失所带来的限制。现有的表观遗传研究忽略了未组装和无法定位的基因组区域(如着丝粒、着丝粒附近、端粒臂、亚端粒、片段重复、串联重复)。利用人的基因组完成图,我们能够通过k-mer辅助绘图方法测量表观遗传标记的富集。这使得阵列级富集信息能来表征这些卫星重复的表观遗传调控。利用Nanopore测序数据,我们生成了迄今为止最完整的人类甲基化基因组。我们分析了卫星DNA的甲基化模式,并揭示了沿单个分子有序的甲基化模式。在探索着丝粒表观基因组时,我们发现了一个与着丝粒组装的活性位点一致的着丝粒甲基化的显著下降。并且发现低甲基化区域极其难以接近,并与CENP-A/B结合配对。利用长读长,我们研究了复杂的大卫星阵列(如X染色体失活)中特异等位基因的大范围表观遗传模式。利用单分子测序,可以基于甲基化状态区分表观遗传异质性和均质区来聚类。该研究应用长读长和短读长技术为表观遗传调控提供了新的见解,为研究人类基因组最难以捉摸的区域提供了一个框架。

 

2001年人类基因组计划完成,使人们不仅能够了解编码序列,而且能够了解基因组的其他部分如何通过表观基因组调控基因表达。但表观基因组只能通过生成人类基因组的完整基因组才有机会来探索最后的前沿——基因组的重复区域。在T2T-CHM13中,绝大多数新序列位于着丝粒间、着丝粒和端中心区域(+180.5 Mb)和片段重复区域(+44.2 Mb)。基因组的表观遗传调控不仅控制基因表达,而且通过调控异染色质提供基因组的稳定性。

长读长生成人类染色体完全甲基化图谱

利用T2T-CHM13基因组,我们已经开始探索新完整区域的表观基因组。通过k-mer辅助制图,我们利用现有的短读数据来探索重复阵列水平的表观遗传图景。为了检测重复区域,我们应用Nanopore的长读长表观遗传学分析。与合成测序策略不同,Nanopore测序直接探测DNA,可以同时测序碱基序列和表观遗传状态,长读长提供了对单个分子表观遗传模式的更深入的了解。结合T2T-CHM13组装和来自同一CHM13细胞系的超长读长CpG甲基化数据,我们生成了迄今为止最完整的人类甲基化组。染色体臂上的着丝粒卫星和大卫星的高分辨率甲基化图谱揭示了这些区域的新机制和表观遗传特征。纳米孔测序的单分子读取特性允许进一步了解表观遗传细胞间的异质性和单倍型甲基化。随着对完整基因组组装的大规模改进和超长Nanopore数据的可定位性的结合,研究大范围卫星阵列的表观遗传调控在技术上成为可能,并可揭示新的机制和调控事件。

项目文章 | 基因组研究解析波纹唇鱼进化历史并分析与性别反转相关的视蛋白基因

波纹唇鱼是一种具有较高经济和生态价值的濒危物种,主要特点雌鱼能向雄鱼的性反转,其中的分子机制尚不清楚。近日,上海海洋大学海洋动物分类与进化重点实验室唐文乔团队及其合作者在国际知名期刊Molecular Ecology Resources上以“Chromosome-level genome assembly of the endangered humphead wrasse Cheilinus undulatus: Insight into the expansion of opsin genes in fishes”为题目报道了波纹唇鱼基因组研究成果,组装得到的波纹唇鱼基因组大小1.17Gb,Contig N50 16.5 Mb。研究者对该基因组进行了注释和进化分析工作,并对影响性别反转的视蛋白基因进行了挖掘。本文章的研究成果为鱼类的保护、进化和行为研究提供了宝贵的资源。希望组为研究的顺利进行提供了基因组测序、组装和标准分析服务。
基因组组装注释
研究团队利用Illumina、Nanopore和Hi-C测序,采用NextDenovo +SMARTdenovo + NextPolish策略组装,初步获得大小约1,173.4Mb的基因组,Contig N50达到16.5 Mb,BUSCO评估96.36%,单碱基准确性99.99%;然后利用145.8 Gb Hi-C数据辅助染色体挂载,最终得到24条染色体,Scaffold N50 51.5 Mb,挂载率99.98%;之后,通过同源比对预测并结合RNA-seq数据集,共预测基因22,286个,其中,22,218 (99.69%)个基因得到了功能注释;重复序列注释共鉴定重复序列540.85 Mb,占基因组大小的46.07%,其中,转座子占基因组大小的39.88%。
波纹唇鱼染色体大小和基因密度
基因家族和进化分析
为了分析波纹唇鱼的进化历史,研究者对波纹唇鱼和其它14种近缘物种进行基因家族比较分析,共鉴定出15,688个基因家族和560个单拷贝基因。接着,采用单拷贝基因家族构建系统发育树,波纹唇鱼与娇扁隆头鱼和贝氏隆头鱼亲缘关系最密切,同属于隆头鱼科。在约95.32 Mya,波纹唇鱼与三刺鱼和花鲈共同祖先发生分化。进一步的基因家族分析共鉴定出567个扩张基因家族和1,826个收缩基因家族以及46个显著正选择基因。
波纹唇鱼的基因家族、系统发育树和分化时间
视蛋白基因分析
颜色匹配性伴侣的吸引力很大程度上是通过视觉线索来识别的。然而,关于波纹唇鱼性沟通和性选型交配的潜在机制却知之甚少。研究者通过比较基因组学检测到数个视蛋白SWS2BLWS1Rh2基因的数量以串联方式扩增,并在关键位点上出现氨基酸替换,这可能加强了基因重复后的功能变化,导致视觉色素最大吸光度的光谱偏移,以捕捉功能变化。SWS2A基因丢失,而SWS2B基因拷贝数的增加是由于基因转换引起的非等位同源重组,这是由特定基因组区域的转座因子引起的。视蛋白的表达在促进鱼类交配行为和进化中起着关键作用。转录组聚类分析也表明波纹唇鱼视蛋白基因有表达差异,SWS2B-3SWS2B-4Rh1在视网膜中表达,其中Rh1在视网膜中表达量最高,而SWS1SWS2B-2Rh2b在其他区域而不在视网膜中表达。这说明基因复制后的变化使得这些基因获得了新的功能。
基于560个单拷贝同源性物种树基因组中视蛋白基因的共线性和定向性
总之,本研究团队利用Illumina+Nanopore+Hi-C技术组装注释了高质量的染色体级别波纹唇鱼基因组,阐明了波纹唇鱼的进化,并通过比较基因组和转录组分析了影响波纹唇鱼发生性别转换的视蛋白基因。本研究的数据和结果为研究波纹唇鱼的行为、基因流动和进化提供了宝贵的资源。

项目文章丨利用长读长全基因测序检测牦牛驯化过程中选择的结构变异

三代测序由于其长读长的特点,可以协助检测以往二代短读长测序未能发现的大的结构变异(Structural Variants,SVs)。结构变异也是研究自然选择和人工选择的重要研究手段。2021年5月3日,兰州大学刘建全团队在Molecular Biology and Evolution杂志在线发表题为“Structural variants selected during yak domestication inferred from long-read whole-genome sequencing”的文章,首先利用三代ONT长读长测序以及Hi-C测序获得了组装高度连续的高质量家养牦牛BosGru3.0的参考基因组,并通过长读长重测序数据分析,对比野生牦牛与家养牦牛的SVs,发现了一些主要与神经系统、行为、免疫和繁殖相关的基因,为高海拔地区动物的驯化提供了新的视角。希望组在本项目研究中提供了三代ONT测序服务。

背景介绍
家畜驯化是人类文明史上的主要成就之一。驯化后的动物会有一系列的表型变化,如脑体积减小和驯养性增加等被称之为驯化综合特征。在一些家养物种中,可以通过检测单核苷酸多态性(SNPs)、短的片段插入和缺失(InDels)和拷贝数变异(CNVs)等遗传标记来挖掘潜在的遗传信息。然而,结构变异(包括插入、缺失、复制、倒位或50bp或更长的易位)的作用,由于两种技术限制,并未得到充分的研究。第一个限制,是检测SVs需要能跨越其全长的长读长测序reads。第二个限制是需要具有连续组装的参考基因组,能覆盖基因组中的重复区段。尽管由于单碱基的错误率较高,长读长测序不适合检测单核苷酸变异(SNVs),但它仍是检测大片段SVs的首选方案。在本研究中,利用三代ONT测序以及Hi-C测序,构建了一个高质量的染色体级别组装的BosGru3.0参考基因组,并通过6头野生牦牛以及23头家养牦牛的长读长重测序数据分析,构建覆盖牦牛地理范围内的372220个SVs的SV基因图谱。
三代基因组测序与组装
用于染色体级别组装的BosGru3.0参考基因组,其DNA来源于四川省红原县的一头公牦牛血液。对测序深度约88x的ONT长读长reads进行de novo组装。利用illumina短读长数据对基因组进行polish,并通过Hi-C数据,利用染色体互作强度对基因组数据进行聚类,最终得到一个组装高度连续的BosGru3.0参考基因组,拥有116条contigs,组装成了31条染色体。BosGru3.0的contig N50为44.72Mb,scaffold N50为114.39Mb,远高于其他反刍动物的参考基因组。组装完成后,对重复元件、蛋白质编码基因和非编码元件进行了预测。总共预测了21232个蛋白编码的基因。
表1 BosGru3.0与BosGru2.0的基因组组装比较
长读长重测序分析

研究者选择了23个不同地点的家养个体和6头野生牦牛进行了全基因组长读长重测序。长读长基因组测序的N50平均长度分别达到了22.59Kb(家养)和21.99Kb(野生),有效深度从8.4x到15.6x(家养),11.4x到21.2x(野生)。最终鉴定出372220个SVs,其中包括328936个缺失,32618个插入,4321个重复,1993个倒位以及4352个易位。根据所有SVs在BosGru3.0上的位置进行了相关注释,发现257155个SVs在基因间区,93582个SVs在内含子区,14964个SVs在外显子区,1811个SVs在UTR区以及有3620个SVs在基因的上游和下游侧翼150bp处。大多数SVs(74.43%)含有重复序列。野生牦牛和家养牦牛基因组的SV序列比较显示,各重复序列占比均无明显差异。
为了进一步识别可能参与驯化的SVs,研究者们计算了所有野生和家养牦牛的SVs FST值,发现了3680个SV的FST outliers值大于人为选择的0.28。在这些高FST的 SVs中,有2391个SVs(占所有SVs的0.64%)存在于基因间区,有1288个SV在外显子、内含子或725个基因的侧翼区域。其中,有34个在外显子区域有缺失,有24个导致了ORF的位移(无意义SVs)。
随后对725个高FST的SVs的基因功能进行了注释,发现这些基因最显著富集的功能与神经系统发育和人类疾病,长时程抑郁相关。其他GO功能分类与神经系统相关,包括了神经元的分化,神经元的生成等。典型的例子是具有第二高FST的基因,其结构变异位于信号蛋白MAGI2的内含子中。人类MGAI2基因的缺失与癫痫和精神分裂症有关,在攻击性犬种研究中发现其MAGI2附近存在几个CNVs。其他三个高FST SV基因(GAD2PLCB2GRIK2)也有文献报道了类似的行为关联。
其他携带SVs的基因还涉及到了免疫、解剖学形态结构以及经济性状等方面。例如,NAFI已被证实通过在T细胞中下游靶向的IL-2生长因子来调控有效的免疫调节细胞因子的表达。GSK3BGSK3A的一个isoform,有研究发现其与猪的脂肪存储能力有关。敲除GSK3A可改善小鼠对葡萄糖的糖耐量,并提高了肝糖原的储存和胰岛素的敏感性。无意义SVs相关的一些基因也有研究表明是参与了智力或大脑的发育,例如PAX2MAGT1以及SHROOM2SSBP3
图 野生和家养牦牛SVs重测序分析
综上所述,SVs已参与牦牛的驯化过程,且其靶向基因优先与神经系统、行为和免疫相关。这些研究的发现为牦牛的驯化和牛的进化提供了新的见解。
原文链接:https://doi.org/10.1093/molbev/msab134

项目文章|高质量毛榛和两种真骨鱼基因组组装与分析

近日来,喜讯连连!首先是2月3日,中国科学院深海科学与工程研究所何舜平研究员与西北工业大学王堃副教授的联合团队在《Molecular Biology and Evolution》上公布了高质量的剑鱼、旗鱼基因组,解析了它们的恒温机制。接着是3月1日,兰州大学草地农业生态系统国家重点实验室,生态学创新研究院杨勇志研究员团队在《Horticulture Research》上发表了毛榛染色体级别基因组,挖掘了影响榛子油脂合成的潜在基因和基因家族。希望组有幸参与两篇高质量论文的部分测序和组装工作,详细内容如下:

两种真骨鱼基因组解析鱼类恒温进化
The Genomes of Two Billfishes Provide Insights into the Evolution of Endothermy in Teleosts
发表期刊:Molecular Biology and Evolution(IF:11.062)
发表时间:2021.02.03
研究对象:两种真骨鱼(sailfish and swordfish)
主要技术平台:Nanopore、MGISEQ-2000、Hi-C
主要完成单位:中国科学院深海科学与工程研究、西北工业大学
第一作者:武宝生 (中科院深海所)
通讯作者:何舜平研究员 (中科院深海所) 和王堃副教授 (西北工业大学)
希望组贡献:提供本研究的测序和NextDenovo、NextPolish软件组装服务

图 sailfish and swordfish

恒温是生物体一种典型的趋同进化,可以帮助物种克服环境的约束,对生物体扩展生态位非常有利。在脊椎动物中恒温独立进化至少进行了8次,除了哺乳动物和鸟类这类恒温动物以外的物种,尤其是真骨鱼等水生恒温物种,它们的恒温起源和机制此前尚未完全了解。
本研究选择恒温真骨鱼代表性谱系箭鱼和旗鱼为研究对象,通过测序和组装获得了高质量的染色体级别基因组,验证了其恒温的独立进化过程(图2)。Sailfish and Swordfish基因组组装大小分别为585.62Mb和 659.53 Mb,重复序列占比分别为26.70%和36.35%。

图2脊椎动物的恒温起源和两种真骨鱼的基因组组装

同属真骨鱼的箭鱼和旗鱼与另一谱系的金枪鱼是独立起源的,但在表型上具有明显的趋同性,因此本研究在分子水平上分析了箭鱼、旗鱼和金枪鱼之间的趋同进化,发现了50个正向选择的趋同基因,有4个显著趋同信号的基因(图3),其中pkmb、ryr1a和atp2a1在同一个循环通路中,与深红色肌肉产热相关,可以使分解的ATP产生的能量用于产热而非钙离子运输。
结合真骨鱼中的融合基因和谱系特异性的创新基因,发现了与产热、保存和调节相关的基因变化可能是真骨鱼恒温的关键(图3)。

图3 真骨鱼和金枪鱼中产热的趋同进化

本项研究为我们揭开了两种真骨鱼的恒温起源之谜,解析了它们的恒温分子机制,同时也为今后的研究方向提供了参考意见:不同的恒温物种谱系之间的异同,分子水平上的趋同进化广泛性都值得深入研究探讨。
高质量毛榛基因组为桦木科基因组的进化和榛子育种提供见解
The Corylus mandshurica genome provides insights into the evolution of Betulaceae genomes and hazelnut breeding
发表期刊:Horticulture Research(IF:5.404)
发表时间:2021.03.01
研究对象:毛榛
主要技术平台:Nanopore、HiSeq X Ten、Hi-C
主要完成单位:刘建全团队
第一作者:李颖(兰州大学)、孙朋川(四川大学)
通讯作者:杨勇志(兰州大学)
希望组贡献:提供本研究的测序和NextDenovo、NextPolish软件组装服务

图1 毛榛

图2 毛榛 C. mandshurica 基因组特征及进化和比较基因组分析

利用比较基因组学的方法,本研究重构了桦树属基因组的进化历程,通过推断桦木科五个基因组之间的同源性,确定了毛榛的进化地位,显示毛榛基因组是由于祖先基因组经历1次染色体相互易位,2次嵌套染色体融合和1次染色体端端相连形成了目前的11对染色体核型。同时推测桦木科物种共同起源于一个有14对染色体的祖先基因组,解析了桦木科物种繁多的原因是祖先基因组发生了多次断裂和融合等事件。

图3 桦木科五个基因组的核型进化图解和祖先核型及进化过程中的染色体融合

本研究共鉴定了96个油酸生物合成的候选基因,其中10个表现出了快速进化和正向选择特性。进化分析探究了影响榛子油脂合成的潜在基因和基因家族,鉴定了764个油脂相关基因和一些于抗逆相关的基因家族,这些抗逆基因家族在毛榛基因组中呈现快速扩张趋势。

图4 毛榛基因组代谢途径和生物合成相关基因

总而言之,本研究获得的榛子参考基因组是目前已公布的桦木科基因组中组装质量最完整的,并且首次鉴定了油酸生物合成相关的候选基因,将在榛子功能基因组研究和品质改善中产生巨大价值。

项目文章|三代转录组测序揭示精子中完整Long RNAs图谱

2021.03.01,Nature Communications杂志在线发表题为“Single-molecule long-read sequencing reveals a conserved intact long RNA profile in sperm”的研究论文,由美国罗切斯特大学李鑫团队与爱荷华大学(现俄亥俄州立大学)区健辉团队合作发表。该研究利用三代测序技术检测了精子细胞中完整的 long RNAs(spiRNAs),在小鼠和人类精子中分别检测到了3440和4100种 spiRNAs。结果显示,这些spiRNAs种类上包含mRNA和long non-coding RNAs,进化上spiRNA在小鼠和人类之间是相对保守的,并且在编码核糖体的mRNAs中显示富集。该研究描述的完整long RNAs图谱为进一步研究其生物成因和功能提供了基础,同时本研究中的策略和自主开发的生物信息分析流程为其它类型样本完整longRNAs鉴定提供了参考。希望组提供了本次研究的部分三代测序服务。

文章题目:Single-molecule long-read sequencing reveals a conserved intact long RNA profile in sperm
发表期刊:Nature Communications
发表时间:2021.03.01
影响因子:12.121
测序技术:Pacbio Iso-Seq、Illumina、Nanopore cDNA全长转录组

研究背景
在受精过程中,精子会向合子传递多种RNAs,早期研究已经证实这些RNAs能参与调节表观遗传,响应环境因子从而影响后代表型。目前研究者们关于small RNA的研究较多,但是对于哺乳动物中>200nt的long RNAs却知之甚少。由于检测技术灵敏度和二代高通量测序读长的限制,导致spiRNAs的研究非常受限。三代测序因其长度长优势被广泛应用于全长转录本的鉴定,而二代测序由于其高准确性等优势仍被沿用,但尽管结合三代测序和二代测序解决了读长和准确度的问题,目前也难以精确确定长reads的5′和3′边界。在这项研究中,研究者分离出超纯的小鼠精子RNA,使用三代和二代测序包括精巢样本CAGE及PAS-Seq,呈现全面的精子转录组特性,证明精子中存在完整的long RNAs,探索哺乳动物中spiRNAs可能存在的生物学功能。通过对比小鼠和人类精子的RNAs转录组数据研究spiRNA在进化上的保守性和功能性,并为相关医学诊断提供了参考RNAs信息表。此外本研究中所使用的策略和自主开发的生物信息分析流程将为其它组织或器官的完整longRNAs鉴定提供参考。
材料和方法
该研究以小鼠和人类精子为材料,分离超纯的精子RNA,进行Pacbio Iso-Seq和Illumina转录组链特异性文库测序,数据用于后续分析。共获得256,897个PacBio Iso-Seq long reads,测序深度达到饱和。同时使用ONT cDNA全长转录组测序分析鉴定精子全长转录本,验证并丰富转录组组装结果。此外,使用来自精巢的CAGE and PAS的数据校正精子中的完整转录本,多种类型文库和平台测序数据结合分析,为小鼠精子提供了一个高质量参考转录组(图1)。
主要研究结果
1.小鼠精子中存在完整的long RNAs且与精巢中的有明显不同
 
本研究证实了小鼠精子存在完整的 long RNA,共检测到了来自1,624个基因位点的3,440 种spiRNA ,其中有755种spiRNA和参考序列中已报道过的完全相同,198种spiRNA的基因位点是全新的,7种spiRNA是已知基因位点的反义链(图2a),2479种为已注释位点的新转录本(图2b),研究发现这些新转录本大多由APAs作用产生而来,只有少部分是由可变剪切和选择性转录起始产生(图2c)。此外检测到了1个跨越两个邻近基因的spiRNA(图2d)。与精巢中的完整转录本不同,spiRNA 长度更短(963nt)且有特异性功能富集,基于GO富集分析,spiRNA最显著富集之一的是编码80S核糖体的mRNAs(图4a),而这在精子成熟过程中是不需要的,说明spiRNAs具有组织特异性。

图2:精子中存在完整的long RNA转录本.

2. spiRNAs包含mRNAs和lncRNAs

为了验证spiRNAs在精子发生发生过程中的编码潜力,研究者们结合已有的Ribo-Seq数据库分析后,将小鼠的spiRNAs分成了2343个mRNAs和1097个lncRNAs,RPFs(ribosome protected fragments)在spi-mRNAs的编码区富集(图3a),并且发现在spi-mRNAs上富集的RPFs呈现出了三核苷酸的周期性 (three-nucleotide periodicity)(图3b)。此外该研究还验证了新转录本的潜在编码功能,来自已知位点的共2479个新isoforms中有1538个被注释为mRNAs, RPFs也分布在新的外显子序列中(图3c),这说明spi-mRNAs中的RPFs是可以进行翻译的。而对于来自新位点的198个新转录本,研究者们观察到78个已经注释的mRNAs和120个lncRNAs(图3d,e)之间存在明显差异,这种现象和全转录本中相似(图3a,b)。

图3 spiRNAs include both mRNAs and lncRNAs
3.小鼠与人类之间的spiRNA profile在进化上是保守的
为了检测spiRNA在进化上的保守性,研究者们同时还对人类精子RNA进行了测序 (图5),分析后共检测到2205个基因位点中的4,100 spiRNAs ,包括3517个mRNAs和583个lncRNAs。对比发现小鼠和人类共有562个spiRNAs相同(图4c)。以所有人类spiRNA genes 作为背景进行GO富集分析,结果显示编码蛋白质合成的mRNAs得到了富集(图4d),与在小鼠精子中的发现一致(图4a)。研究者们进一步分析了非核糖体mRNAs,发现小鼠和人类依然存在明显的重叠。说明可能存在一种保守机制决定spiRNAs序列库。

 
图4  The spiRNA profile is evolutionarily conserved
 
 图5 Diverse transcripts in human sperm
总结与讨论

这项研究证明了精子中存在完整的 long RNAs,并在编码核糖体蛋白功能中显示富集,其功能与精巢中的RNAs不同,说明其具有一定的组织特异性。而另外发现的spiRNA在小鼠和人类中具有保守性,说明可能存在一种潜在的保守机制决定着spiRNAs序列库。

总之,该研究结合自助开发的研究策略和生物信息分析流程,揭示精子细胞中的完整RNA图谱,推动了RNA介导的表观遗传学研究,并为该领域进一步的研究提供了宝贵资源。

Cell+Nature!希望组NextDenovo+Ultra-long 助力肺鱼基因组解析!

肺鱼是现存最接近四足动物的近亲,并保留了由水生向陆生过渡相关的祖先特征。现存的6种肺鱼,有4种生活在非洲,1种生活在南美,还有1种生活在澳大利亚。近日,2个不同的研究团队分别以非洲肺鱼和澳洲肺鱼为研究对象在国际顶级期刊Cell和Nature上发表了研究成果。肺鱼基因组是迄今为止报道的最大的动物基因组(约40Gb),基因组中大量的重复序列(>60%)进一步增加组装的难度,希望组凭借领先的ONT Ultra long测序和自主开发的NextDenovo基因组组装技术分别助力两研究团队完成了高水平的基因组组装,其中,为非洲肺鱼文章提供了Nanopore测序和NextDenovo、NextPolish软件的使用,使得该超大基因组的BUSCO评估达到95%以上,武汉希望组生物科技有限公司胡江为本文的共同第一作者;为澳洲肺鱼文章提供了Nanopore Ultra-long测序服务。

图1 非洲肺鱼

African lungfish genome sheds light on the vertebrate water-to-land transition

发表期刊:Cell (IF:38.637)

研究对象:非洲肺鱼

主要测序技术:Nanopore1D、BioNano和Hi-C

主要完成单位:西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室等

第一作者:王堃、王俊、朱成龙、杨连东,任彦栋、阮珏、范广益、胡江(希望组)

通讯作者:王文、何舜平、邱强、赵文明

希望组贡献:提供基因组测序和NextDenovo、NextPolish软件及组装技术支持

非洲肺鱼染色体基因组组装、重复序列与进化分析
研究团队利用Nanopore Ultra long、BioNano和Hi-C测序,采用NextDenovo + wtdbg2 + NextPolish策略组装,最终获得约40.05 Gb的基因组,Contig N50达到1.60 Mb;结合BioNano和Hi-C数据对基因组构建Scaffold和辅助染色体挂载,最终得到17条染色体,Scaffold N50 2.81 Gb,染色体挂载率达到99%以上。BUSCO评估显示该基因组包含了95%以上的脊椎动物完整基因。非洲肺鱼基因组如此巨大主要是由TEs的扩张引起的,非洲肺鱼基因组的61.7%(24.7 Gb)被注释为重复序列。研究团队通过分析Kimura distance估算了TE历史扩张活动,结果表明TEs,特别是反转录转座子,在过去7000万年中一直活跃。基于基因组组装和注释结果,通过对8种脊椎动物的5149个单拷贝基因进行系统发育重建,证实非洲肺鱼是与四足动物最近的姐妹谱系,非洲肺鱼和四足动物的分化时间可追溯到泥盆纪伊始,估算为419 MA。

图2 非洲肺鱼染色体水平基因组组装和进化史

基因改变增强了呼吸能力
肺呼吸能力的进化可能经历了三个步骤:第一步是硬骨鱼的共同祖先已具备了最初级的呼吸空气的能力(已有文献支持),本研究中检测到所有硬骨鱼中存在Sftpb同样也证实这一观点。第二步是通过诸如Sftpc的出现和邻近Foxp1的保守非编码元件(CNEs)等基因创新,肉鳍鱼类的共同祖先获得了增强空气呼吸的能力。第三步可能是进一步的基因创新,包括SftpaSftpd的出现以及Foxp2附近保守非编码元件(CNEs)的出现,为四足动物进化出呼吸系统提供了最后的关键基础。

图3 肉鳍鱼类肺呼吸功能的演变

五趾肢的起源与陆地运动
五趾的出现是脊椎动物从水生到陆生过渡的标志事件。研究者在Hoxa11上游200 bp处发现了一个长度为67 bp的四足动物特有的保守非编码元件(CNE),这个四足动物特有的CNE可能是五趾肢起源的关键基因创新。通过不同的四足动物比较验证了这一观点(在两栖类、鳄鱼、海龟和哺乳动物中,这一元件高度保守,但在蛇和鸟类的基因组中却发生了相当大的改变)。从近端到远端,四足动物的四肢由鳍到肢的过渡形成了上肢、中肢和掌部三部分。转录组和基因组数据验证了and1/2and3Hoxb13基因可能与鳍肢过渡有关。除了发生形态学变化外,四足动物还需要运动神经元刺激控制四肢的肌肉。研究发现位于Hoxc10(已被证实在小鼠腰椎运动神经元、分区和运动池识别中发挥关键作用)上游(3 Kb和2.5 Kb)的2个四足动物特异性的保守非编码元件(CNE)是候选增强子,可能与四足动物的地面运动有关。

图4  肢起源和与陆地运动相关的基因变化

基因改变增强了抗焦虑能力
脊椎动物从水到陆地的过渡过程中,伴随着大脑边缘系统的变化。通过全基因组扫描,研究者在肺鱼和四足动物最后的共同祖先谱系中发现了两个新基因Npsr1Nps,这两个基因分别编码神经肽S受体(Neuropeptide S receptor, NPSR)和神经肽S(Neuropeptide S, NPS),具有促进兴奋和抗焦虑的作用,可调节承压能力,增强杏仁核突触抑制。研究结果表明,Npsr1基因起源于肉鳍鱼类催产素受体基因的复制,主要在大脑和脊髓中表达。Nps起源于肉鳍鱼类的前体序列。除了NPS/NPSR系统外,杏仁核内的γ -氨基丁酸(GABA)是另一种重要的抑制神经递质,用于控制恐惧和焦虑的感觉。GABA相关基因在硬骨鱼类中高度保守的元件在肺鱼与四足类动物的最近共同祖先中却发生了插入或缺失。第一个基因IgSF9b有6个AA缺失;第二个基因Arfgef1有两个AA插入。此外,编码生长激素的Gh基因被检测到在四足动物和非洲肺鱼的大脑中特异性表达,杏仁核中Gh基因上调与恐惧记忆的形成有关。总之,这些由肺鱼和四足动物共享的基因创新与之前的研究一致,即类似四足动物的杏仁核复合体起源于肺鱼和四足动物共同祖先世系。

图5 与杏仁核和抗焦虑能力相关的基因改变

基因变化与咽重塑
随着陆生脊椎动物的主要呼吸功能由鳃向肺转移,鳃弓不再产生鳃。鳃弓也从肉鳍鱼类的5个减少到四足动物的4个或3个。Hoxb3基因在调节咽弓的发育中起重要作用。位于Hoxb3上游4 Kb处的非编码元件(CNE)存在于在大多数脊椎动物中,但在四足动物中该区域已不再保守。这可能是由于两个咽弓缺失导致选择松弛的结果。与此同时,人类等四足动物胚胎发育阶段的第二咽弓被重塑,用以覆盖更多的尾弓,导致后弓内在化,并在后端丢失了一个外开口。自四足动物出现后,甲状旁腺便出现在咽后囊中,这些腺体负责调节释放体内储存的钙,而在鳍刺类鱼中是通过鳃来实现这一功能。Pax1基因是与第二弓后咽袋和甲状旁腺的发育直接相关。研究者在Pax1上游发现了一个四足动物特异性的保守非编码元件(CNE),它能起到增强子的作用。Gcm2基因对甲状旁腺的分化和存在也至关重要。比较研究发现该基因在鳐鱼和非洲肺鱼的鳃中高度表达,而在爪蛙的鳃中表达量较低,说明在四足动物中,相应的功能已经从鳃转移到了甲状旁腺。
 

图6 与咽重塑相关的基因变化

Giant lungfish genomeelucidates the conquest of land by vertebrates
发表期刊:Nature (IF:42.778)

研究对象:澳洲肺鱼

主要测序技术:Nanopore1D 、Ultra long和Hi-C

主要完成单位:德国康斯坦茨大学生物系、德国维尔茨堡大学生物中心等

第一作者:Axel Meyer、Siegfried Schloissnig、Paolo Franchini、Kang Du、Joost Woltering

通讯作者:Axel Meyer、Manfred Schartl、Elly M. Tanaka、Thorsten Burmester、Oleg Simakov

希望组贡献:提供NanoporeUltra-long测序服务

图7 澳洲肺鱼

澳洲肺鱼的基因组测序与陆地运动的进化
研究者利用Nanopore 1D 和Ultra long技术对澳洲肺鱼进行了全基因组测序组装,最终组装出37Gb,Contig N50达1.86Mb的澳洲肺鱼基因组。之后利用271Gb Hi-C 数据,对基因组进行染色体级别组装,最终得到Scaffold N50 1.75Gb,组装出了17条大染色体和10条小染色体。BUSCO评估组装的基因组包含67%的脊椎动物完整基因。肺鱼是属于肉鳍鱼类中的一类,肉鳍鱼的叶状鳍在进化中最终形成了适于陆地爬行的足趾。通过比较基因组分析,研究者对保守的四足动物肢体增强元件的分析表明,有31种起源于肉鳍类。与sall1相关的hs72增强子驱动掌部区域基因表达。sall1在肺鱼胚胎中高表达,并呈现类似于四足动物的表达模式,但在斑马鱼的鳍发育过程中不表达。这表明该基因功能和肺鱼的肉鳍类叶状鳍发育相关。hoxc基因在双鳍和四肢中的表达仅在与甲床相关的哺乳动物中报道过,而RNA-seq分析发现在肺鱼幼体鳍部hoxc基因有表达。研究者还发现hoxc13在蝾螈肢中表达,在辐鳍鱼的胸鳍中不表达,转录本定位显示hoxc13也在肺鱼胚胎远端鳍表达。这表明在四足动物中,该基因结构域可能调控肢体元素生成,如指甲、蹄和爪。hoxcsall1一起,证明了早期肉鳍类起源的四肢样基因表达促进了鳍肢过渡。

图8 肉叶鳍的预适应调节与hoxd基因调控

总之,这2篇高水平的基因组文章分别以非洲肺鱼、澳洲肺鱼为研究对象,分析了肺鱼类的物种和基因组特点,并从不同视角推演了脊椎动物从水生到陆生进化过程,增加了我们对脊椎动物陆生进化的理解,为鱼类到人类的进化提供了宝贵的资源。

作为三代测序基因组学中心,希望组拥有最新的Oxford Nanopore PromethION、PacBio Sequel II、BioNano光学图谱和HiC等技术,是目前国内少数能同时稳定产出高质量ONT ultra-long reads和 PacBio HiFi reads的服务商之一。并自主开发了NextDenovo/NextPolish系列三代测序组装软件,同时配备高水平生信分析团队,完全可以解决超大型基因组的难题,我们将继续致力于攻克更多超大型复杂动植物基因组图谱,为您提供高质量、高准确度的测序、组装、分析服务。

Plos Biology∣汤富酬课题组与希望组开发出单细胞转录组三代单分子测序新方法

2009年首个单细胞转录组测序技术问世,开启了单细胞组学时代(scRNA-seq)(Tang et al., 2009)。过去十余年间单细胞测序技术的不断发展极大地加速了生物医学领域的相关研究,帮助科研人员克服了稀有生物样本以及生物样本内生异质性等重大挑战,一系列模式生物及人类自身的单细胞转录组图谱也由此诞生。然而目前的单细胞测序技术几乎全都是基于二代测序平台,测序读长短,一般在150bp左右,即使采用双端测序技术,测得的有效读长也不超过500bp。而人类转录组中转录本的长度普遍在1000bp以上,有些转录本长度甚至超过100kb(Piovesan et al., 2016; Frankish et al., 2019),远远超过二代测序方法所能检测的最大读长。

为了解决基于二代测序平台的单细胞转录组测序技术难以获得单个细胞中全长转录本的准确信息这一核心困难, 2020年12月30日,北京大学未来基因诊断高精尖创新中心、生物医学前沿创新中心汤富酬课题组与北京希望组生物科技有限公司合作在Plos Biology上在线发表了题为“Single-cell RNA-seq analysis of mouse preimplantation embryos by third-generation sequencing”的研究论文。该研究的主要突破有:

1)开发了一种基于三代单分子测序平台的高灵敏度单细胞转录组测序方法—SCAN-seq (Single cell amplification and sequencing of full-length RNAs by Nanopore platform),能够在单细胞分辨率直接获取全长转录本序列信息,表现出高灵敏度和高稳健性,在小鼠胚胎干细胞每个单细胞中可以检测到8000多个基因的表达,与之前基于二代测序平台最灵敏的单细胞转录组测序方法不相上下(如图1所示)。

图1 SCAN-seq的流程和评估

2)鉴定出了30000多种全新的转录本。总共只测序了200多个单细胞就在小鼠胚胎干细胞(mESCs)和小鼠植入前胚胎中分别鉴定出6487条和27250种新转录本。相比基于二代测序平台的所有单细胞转录组测序方法,SCAN-seq能够区分新找到的转录本是来自同一已知转录本的新转录本,还是来自不同已知转录本已注释剪接点的重新组合的新转录本(如图2所示)。

图2 未注释转录本的鉴定

3)首次提出单细胞转录组三代测序数据可以将一个单细胞中的父母源转录本准确区分开、分别进行精准定量分析。SCAN-seq显示出在同一个单细胞中精准识别小鼠品系特异性单核苷酸多态性(SNPs)的能力,平均误差率只有1.8%。利用这一方法,在单细胞分辨率确认了小鼠2-细胞期后的胚胎细胞中父源等位基因的mRNA比例逐渐增加,到囊胚期时每个胚胎细胞中来自母源和父源等位基因的mRNA拷贝数变得相当(如图3所示)。

图3 等位基因特异性转录本的分析

该研究开发出的SCAN-seq新方法具有广阔的应用前景,能够克服单细胞转录组二代测序方法的各种局限性,将单细胞组学测序从“二”时代推进到“三”时代:(1)从一般只能测序单细胞中cDNA一端的有限信息,提升到能够测序单细胞中cDNA的全长信息;(2)从单细胞中一个基因的所有不同可变剪接产物(转录本)混合测量无法区分,提升到把单细胞中每个基因的所有不同可变剪接产物(转录本)精准分开;(3)从单细胞中一个基因的父母源表达信息混合在一起无法区分,提升到把单细胞中每个基因的父母源转录本精准分开;(4)从只能在单细胞中检测独特序列基因的转录本信息,提升到同时也能精准检测单细胞中高度重复序列的转录本信息;(5)从“一个基因,一个表型”的精度(one gene, one phenotype;人类基因组中有大约3万个基因),提升到“一种基因可变剪接转录本,一个表型”的精度(one RNA isoform, one phenotype;人类基因组中有大约30万种不同的可变剪接转录本)。总之,单细胞转录组三代单分子测序技术将揭开更多的转录组中“暗物质”的奥秘,给人类生物医学研究带来全新的发展机遇。

生物岛实验室研究员范小英、北京大学生命科学学院博士生廖雨涵和北京希望组生物科技有限公司汤冬硕士、李丕栋硕士为该论文的并列第一作者。北京大学未来基因诊断高精尖创新中心、生物医学前沿创新中心汤富酬教授与北京希望组王洋博士为该论文的共同通讯作者。该研究项目得到了国家自然科学基金委、北京市科技委和北京大学未来基因诊断高精尖创新中心的支持。

希望组作为三代测序的引领者,一直深耕三代测序领域,引进国际先进的PacBio Sequel II、ONT PromethION 48、MGISEQ2000、Bionano Saphyr光学图谱等技术平台,为科学研究和临床检测等提供多平台多水平的测序分析服务。利用单细胞结合三代测序平台,获取全长转录组信息,可为研究“一种基因可变剪接转录本,一个表型”打下夯实的基础。欲详细了解单细胞转录组三代测序服务及更多应用场景,可邮件联系sales-support@grandomics.com或联系希望组当地销售顾问。

参考文献:

  1. Tang, C. Barbacioru, Y. Wang, E. Nordman, C. Lee, N. Xu, X. Wang, J. Bodeau, B.B. Tuch, A. Siddiqui, et al. (2009). mRNA-Seq whole-transcriptome analysis of a single cell. Nature Methods, 6, 377-382.

Piovesan, A., Caracausi, M., Antonaros, F., Pelleri, M. C., & Vitale, L. (2016). GeneBase 1.1: A tool to summarise data from NCBI Gene datasets and its application to an update of human gene statistics. Database (Oxford), 2016, baw153.

Frankish, A., Diekhans, M., Ferreira, A. M., Johnson, R., Jungreis, I., Loveland, J., et al. (2019). GENCODE reference annotation for the human and mouse genomes. Nucleic Acids Res. 47, D766–D773.

项目文章丨兰州大学从全基因组水平揭示象草花青素积累和快速生长分子机制

近日,兰州大学草地农业科技学院联合广西畜牧研究所及国际家畜研究所共同合作的象草基因组研究成果以“The elephant grass (Cenchrus purpureus) genome provides insights into anthocyanidin accumulation and fast growth”为题在国际知名期刊《Molecular Ecology Resources》(3年IF=7.15)在线发表。希望组科技服务为本研究提供了Illumina、Nanopore和Hi-C测序服务,承担了基因组的组装及注释任务。该研究首次报道了象草的高质量染色体级别基因组,明确了象草的进化地位,在基因水平解析了紫色品种象草 “紫色”花青素积累的机制,并提出C4光合作用和激素信号转导通路的扩张可能有助于象草快速生长的新见解[1]

象草(Cenchrus purpureus Schumach)因大象爱采食而得名,是禾本科、黍族多年生大型草本植物,原产于亚洲。象草因其具有生物量大、生长快速、适应性强等特点,被用作重要的饲草作物在全世界热带及亚热带被广泛种植。此外,由于象草在生物能方面的优势也使其潜在的能源草。该研究是对象草研究的重大突破,为象草进化、性状改良和功能基因研究提供了理论基础。

图1 紫色象草

研究团队以紫色象草(Cenchrus purpureus cv. Purple)为材料,K-mer评估显示象草具有较高杂合(1.5%)。利用Illumina、Nanopore、Hi-C测序。采用NextDenovo + SMARTdenovo策略组装获得1.97Gb的基因组, Contig N50 为1.83Mb,最长Contig达到15.1Mb。结合Hi-C数据对基因组辅助染色体挂载及遗传连锁图谱,得到14条染色体,挂在率为96.65%。BUSCO评估结果达 97.8%,预测注释基因65,927个。

图2 象草亚基因组特征

象草为异源四倍体(2n=4x=28),包含A’和B两个亚基因组。研究表明同属二倍体植物珍珠粟(Cenchrus  americanus,2n=2x=14)的A基因组与象草A’基因组具有更高同源性。通过共线性分析研究者成功将象草的A’和B两个亚组区分开来,并利用单拷贝基因分析证明象草A’亚基因组和珍珠粟A基因组具有较近的同源性。象草A’A’BB的异源四倍体基因组大约起源于6.61 (4.11-10.92)MYA,并发生了较大的染色体重组。此外,研究者还利用转录组分析了象草亚基因组显性表达,结果表明其可能行使不同的功能。

图3 紫色象草花青素积累机制

紫色象草品种的叶片呈现紫色,一般认为苯丙类、黄酮类、花青素生物合成途径与叶片色素沉积有关。研究者从基因组和转录组层面对象草叶片紫色呈现进行了研究。比较基因组和转录组分析表明,象草关键酶基因苯丙氨酸解氨酶(PAL)、肉桂酸4-羟化酶(C4H)、4-香豆酸辅酶a连接酶(4CL)、查耳酮合酶(CHS)和黄烷酮醇 4 -还原酶(DFR)、类黄酮-3-O-葡糖基转移酶(3GT)发生了扩张并在叶片中显著高表达,其中4CL和DFR在进化过程中受到正选择。 
C4植物通常在碳固定方面效率更高,具有更高的用水效率,有助于它们在干燥环境中生存。C4植物可根据维管束鞘细胞中脱羧方式的不同分为3个亚类,即NAD-ME、NADP-ME和PEPCK。研究者分析了象草中涉及C4碳固定的九个主要基因家族,包括酶和代谢物转运体,比较基因组分析发现它们在象草中发生了扩张。转录组的结果表明这些关键酶和代谢物转运体在光合主要器官叶片中显著高表达,并且发现C4的3个亚类共同存在于象草中。另外,植物激素也是控制植物生物过程(发育过程、信号网络以及对生物和非生物胁迫的反应)的重要因素。研究者从基因组和转录组层面对激素信号转导相关通路进行了分析,发现参与细胞增大和细胞分裂等基因家族在象草中发生扩张并在茎间组织中高表达。这些结果可能为象草的快速生长及高生物量具有重要意义。

图4 象草C4光合途径

该研究利用报道的高质量的象草基因组、解析了花青素合成及快速生长机制,为象草作为优良饲草和潜在能源草的分子改良育种具有重要意义。此外,对于该属的进化以及其它物种的开发利用提供了重要资源。兰州大学草地农业科技学院张吉宇教授为通讯作者、广西畜牧研究所易显凤研究员、国际家畜研究所Jones Chris博士为共同通讯作者。兰州大学草地农业科技学院博士生闫启为第一作者、团队博士生吴凡、许攀和希望组孙宗毅为共同第一作者。

1. Yan Q, Wu F, Xu P, Sun ZY, Li J, Gao LJ, Lu LY, Chen DD, Muktar M, Jones C, Yi XF, Zhang JY. The elephant grass (Cenchrus purpureus) genome provides insights into anthocyanidin accumulation and fast growth. Mol Ecol Resour 2020, doi:10.1111/1755-0998.13271

Plant Journal| 如何通过全长转录组发表一区文章?异源多倍体应用实例

三代全长转录组在动植物转录本水平的研究优势越来越明显,然而基于全长序列得到的完善的转录本结构,如何发表一篇高质量文章还值得不断探索。由于高重复、高杂合性以及二代测序技术的局限,大量多倍体物种的转录组信息还没有完全且准确的挖掘出来,尤其是在可变剪接(Alternative Splicing,AS)和可变多聚腺苷酸化(Alternative Polyadenylation,APA)方面,蕴藏着复杂的转录后调控机制,通过对转录本结构的全面解析,有助于深入研究多倍体物种的基因功能和品系优势。

近日,农业部油料作物生物学与遗传育种重点实验室刘胜毅课题组联合湖北大学,在the Plant Journal杂志在线发表题为“A global survey of the transcriptome of the allopolyploid Brassica napus based on single molecule long-read isoform sequencing and Illumina-based RNA-seq data”的研究文章。本文结合了三代测序技术(Pacbio)和二代测序(Illumina),在转录本水平上探索甘蓝型油菜Brassica napus转录组的复杂性。这些数据提供了丰富的转录组资源,这将有利于基因组的重新注释,加强我们对B. napus转录本的了解,并应用于功能基因组的进一步研究。童超波研究员为通讯作者,姚胜黎为第一作者,希望组梁帆为共同作者。希望组参与了本文中的PacBio测序和分析工作。

研究思路

选择甘蓝型油菜栽培种“ZS11”,取不同发育时期的叶片、根、花芽、角果、愈伤组织等,提取总RNA后等量混合进行三代测序(Iso-Seq),各样本分别进行二代转录组测序。三代测序选用PacBio RS II平台,构建4个文库,共测31cell0-1 kb 5cell1–2 kb 10cell2–3 kb 10cell>3 kb 6cell。二代测序选用HiSeq 4000 平台,每个组织部位2-3个重复,共测123M reads

主要结果

1    特征数据统计

三代数据共得到1161468个ROI,其中72.2%是全长非嵌合序列。47%的全长序列唯一比对到基因组,三代测到的转录本平均长度为2487 bp,明显长于基因组上已有注释的转录本平均长度。矫正后,单碱基错误率降至 1.50%( 0.26% insertions, 0.27% deletions and 0.97% mismatches),校正后,BUSCO比对的完整性提升到83%。

转录本平均长度

2    已有数据横向比较

将Ensembl Plants Database中已有的cDNA序列与本次测得序列比较,数据库中的26346个序列与PacBio测得的63714个序列匹配上,且PacBio测到的全长cDNA更长。将非冗余的147698个转录本和之前已经测序的Darmor-bzh进行比较,发现有142476个转录本能够覆盖到37403个基因位点,其中31392个基因位点是多外显子基因。未比对上这个基因组的5222个转录本中,有4947个转录本可以比对到近源物种(拟南芥,白菜,甘蓝),这表明有些转录本可能是栽培种ZS11特有的。

 

3    可变剪接

共检测到222061个可变剪接事件,来自15068个基因位点,主要是内含子保留(IR),其中128967个转录本是现有基因组上未注释到的。统计显示,20230个多外显子基因有用多个剪接异构体,其中5761个基因能够产生5种以上异构体。比如,BnaC01g03120D在基因组注释上仅有1个转录本,但是PacBio测到了14个不同的剪接异构体。另外发现,可变剪接在An亚基因组中更为普遍。

2  BnaC01g03120D转录本可视化

4   LncRNA鉴定及验证

鉴定到20个已知lncRNA,529个新lncRNA,平均长度1.7 kb,lncRNA具有明显组织特异性。两个亚基因组中的同源基因分别产生了54和53个lncRNA,结果表明两个亚基因组的贡献是相等的。

各样品中lncRNA的表达量

5    APA分析

分析poly(A)位点的侧翼序列,发现上游富集尿嘧啶(U)和下游富集腺嘌呤(a)的核苷酸偏好明显。在polyA的上游,我们鉴定到了两个保守的加A信号,AAUAAA和UGUA。从两个亚基因组得同源基因对中分别鉴定到13812和14184个poly(A)位点,3299和3522个APA基因。An亚基因组的同源基因对polyA位点产生的贡献小于Cn亚基因组的同源基因。

4  MEME分析转录本中的poly(A)信号

6   转录本水平定量
以愈伤组织作为参考,和其他组织两两比较,探究温度、组织对AS的影响,结果显示大多数AS差异事件在HS-callus VS callus中被识别,说明环境因素对AS事件的影响大于组织分化。热处理愈伤组织后,发生特异性AS的基因主要与膜外壳、蛋白靶向、转录因子活性、定位、温度刺激响应和细胞过程的正向调控有关。

各组间差异AS事件统计

亮点总结

  • Ø  将测序数据分别与现有数据库、近源物种比较,锁定品系特有基因集,为品种优势研究奠定基础;
  • Ø  将ROI比对到不同的亚基因组上,区分不同亚基因组对AS、APA和lncRNA的贡献度;
  • Ø  针对AS、APA和lncRNA进行大量的RT-PCR验证;
  • Ø  二代定量和三代定性相结合,引入科学问题“温度、组织对AS的影响程度”,通过组间比较找到关键影响因素和相关基因。

希望组最新引进Sequel II,拥有成熟分析流程,更多方案设计和前沿资讯,欢迎垂询!