项目文章丨利用长读长全基因测序检测牦牛驯化过程中选择的结构变异

三代测序由于其长读长的特点,可以协助检测以往二代短读长测序未能发现的大的结构变异(Structural Variants,SVs)。结构变异也是研究自然选择和人工选择的重要研究手段。2021年5月3日,兰州大学刘建全团队在Molecular Biology and Evolution杂志在线发表题为“Structural variants selected during yak domestication inferred from long-read whole-genome sequencing”的文章,首先利用三代ONT长读长测序以及Hi-C测序获得了组装高度连续的高质量家养牦牛BosGru3.0的参考基因组,并通过长读长重测序数据分析,对比野生牦牛与家养牦牛的SVs,发现了一些主要与神经系统、行为、免疫和繁殖相关的基因,为高海拔地区动物的驯化提供了新的视角。希望组在本项目研究中提供了三代ONT测序服务。

背景介绍
家畜驯化是人类文明史上的主要成就之一。驯化后的动物会有一系列的表型变化,如脑体积减小和驯养性增加等被称之为驯化综合特征。在一些家养物种中,可以通过检测单核苷酸多态性(SNPs)、短的片段插入和缺失(InDels)和拷贝数变异(CNVs)等遗传标记来挖掘潜在的遗传信息。然而,结构变异(包括插入、缺失、复制、倒位或50bp或更长的易位)的作用,由于两种技术限制,并未得到充分的研究。第一个限制,是检测SVs需要能跨越其全长的长读长测序reads。第二个限制是需要具有连续组装的参考基因组,能覆盖基因组中的重复区段。尽管由于单碱基的错误率较高,长读长测序不适合检测单核苷酸变异(SNVs),但它仍是检测大片段SVs的首选方案。在本研究中,利用三代ONT测序以及Hi-C测序,构建了一个高质量的染色体级别组装的BosGru3.0参考基因组,并通过6头野生牦牛以及23头家养牦牛的长读长重测序数据分析,构建覆盖牦牛地理范围内的372220个SVs的SV基因图谱。
三代基因组测序与组装
用于染色体级别组装的BosGru3.0参考基因组,其DNA来源于四川省红原县的一头公牦牛血液。对测序深度约88x的ONT长读长reads进行de novo组装。利用illumina短读长数据对基因组进行polish,并通过Hi-C数据,利用染色体互作强度对基因组数据进行聚类,最终得到一个组装高度连续的BosGru3.0参考基因组,拥有116条contigs,组装成了31条染色体。BosGru3.0的contig N50为44.72Mb,scaffold N50为114.39Mb,远高于其他反刍动物的参考基因组。组装完成后,对重复元件、蛋白质编码基因和非编码元件进行了预测。总共预测了21232个蛋白编码的基因。
表1 BosGru3.0与BosGru2.0的基因组组装比较
长读长重测序分析

研究者选择了23个不同地点的家养个体和6头野生牦牛进行了全基因组长读长重测序。长读长基因组测序的N50平均长度分别达到了22.59Kb(家养)和21.99Kb(野生),有效深度从8.4x到15.6x(家养),11.4x到21.2x(野生)。最终鉴定出372220个SVs,其中包括328936个缺失,32618个插入,4321个重复,1993个倒位以及4352个易位。根据所有SVs在BosGru3.0上的位置进行了相关注释,发现257155个SVs在基因间区,93582个SVs在内含子区,14964个SVs在外显子区,1811个SVs在UTR区以及有3620个SVs在基因的上游和下游侧翼150bp处。大多数SVs(74.43%)含有重复序列。野生牦牛和家养牦牛基因组的SV序列比较显示,各重复序列占比均无明显差异。
为了进一步识别可能参与驯化的SVs,研究者们计算了所有野生和家养牦牛的SVs FST值,发现了3680个SV的FST outliers值大于人为选择的0.28。在这些高FST的 SVs中,有2391个SVs(占所有SVs的0.64%)存在于基因间区,有1288个SV在外显子、内含子或725个基因的侧翼区域。其中,有34个在外显子区域有缺失,有24个导致了ORF的位移(无意义SVs)。
随后对725个高FST的SVs的基因功能进行了注释,发现这些基因最显著富集的功能与神经系统发育和人类疾病,长时程抑郁相关。其他GO功能分类与神经系统相关,包括了神经元的分化,神经元的生成等。典型的例子是具有第二高FST的基因,其结构变异位于信号蛋白MAGI2的内含子中。人类MGAI2基因的缺失与癫痫和精神分裂症有关,在攻击性犬种研究中发现其MAGI2附近存在几个CNVs。其他三个高FST SV基因(GAD2PLCB2GRIK2)也有文献报道了类似的行为关联。
其他携带SVs的基因还涉及到了免疫、解剖学形态结构以及经济性状等方面。例如,NAFI已被证实通过在T细胞中下游靶向的IL-2生长因子来调控有效的免疫调节细胞因子的表达。GSK3BGSK3A的一个isoform,有研究发现其与猪的脂肪存储能力有关。敲除GSK3A可改善小鼠对葡萄糖的糖耐量,并提高了肝糖原的储存和胰岛素的敏感性。无意义SVs相关的一些基因也有研究表明是参与了智力或大脑的发育,例如PAX2MAGT1以及SHROOM2SSBP3
图 野生和家养牦牛SVs重测序分析
综上所述,SVs已参与牦牛的驯化过程,且其靶向基因优先与神经系统、行为和免疫相关。这些研究的发现为牦牛的驯化和牛的进化提供了新的见解。
原文链接:https://doi.org/10.1093/molbev/msab134

项目文章|高质量毛榛和两种真骨鱼基因组组装与分析

近日来,喜讯连连!首先是2月3日,中国科学院深海科学与工程研究所何舜平研究员与西北工业大学王堃副教授的联合团队在《Molecular Biology and Evolution》上公布了高质量的剑鱼、旗鱼基因组,解析了它们的恒温机制。接着是3月1日,兰州大学草地农业生态系统国家重点实验室,生态学创新研究院杨勇志研究员团队在《Horticulture Research》上发表了毛榛染色体级别基因组,挖掘了影响榛子油脂合成的潜在基因和基因家族。希望组有幸参与两篇高质量论文的部分测序和组装工作,详细内容如下:

两种真骨鱼基因组解析鱼类恒温进化
The Genomes of Two Billfishes Provide Insights into the Evolution of Endothermy in Teleosts
发表期刊:Molecular Biology and Evolution(IF:11.062)
发表时间:2021.02.03
研究对象:两种真骨鱼(sailfish and swordfish)
主要技术平台:Nanopore、MGISEQ-2000、Hi-C
主要完成单位:中国科学院深海科学与工程研究、西北工业大学
第一作者:武宝生 (中科院深海所)
通讯作者:何舜平研究员 (中科院深海所) 和王堃副教授 (西北工业大学)
希望组贡献:提供本研究的测序和NextDenovo、NextPolish软件组装服务

图 sailfish and swordfish

恒温是生物体一种典型的趋同进化,可以帮助物种克服环境的约束,对生物体扩展生态位非常有利。在脊椎动物中恒温独立进化至少进行了8次,除了哺乳动物和鸟类这类恒温动物以外的物种,尤其是真骨鱼等水生恒温物种,它们的恒温起源和机制此前尚未完全了解。
本研究选择恒温真骨鱼代表性谱系箭鱼和旗鱼为研究对象,通过测序和组装获得了高质量的染色体级别基因组,验证了其恒温的独立进化过程(图2)。Sailfish and Swordfish基因组组装大小分别为585.62Mb和 659.53 Mb,重复序列占比分别为26.70%和36.35%。

图2脊椎动物的恒温起源和两种真骨鱼的基因组组装

同属真骨鱼的箭鱼和旗鱼与另一谱系的金枪鱼是独立起源的,但在表型上具有明显的趋同性,因此本研究在分子水平上分析了箭鱼、旗鱼和金枪鱼之间的趋同进化,发现了50个正向选择的趋同基因,有4个显著趋同信号的基因(图3),其中pkmb、ryr1a和atp2a1在同一个循环通路中,与深红色肌肉产热相关,可以使分解的ATP产生的能量用于产热而非钙离子运输。
结合真骨鱼中的融合基因和谱系特异性的创新基因,发现了与产热、保存和调节相关的基因变化可能是真骨鱼恒温的关键(图3)。

图3 真骨鱼和金枪鱼中产热的趋同进化

本项研究为我们揭开了两种真骨鱼的恒温起源之谜,解析了它们的恒温分子机制,同时也为今后的研究方向提供了参考意见:不同的恒温物种谱系之间的异同,分子水平上的趋同进化广泛性都值得深入研究探讨。
高质量毛榛基因组为桦木科基因组的进化和榛子育种提供见解
The Corylus mandshurica genome provides insights into the evolution of Betulaceae genomes and hazelnut breeding
发表期刊:Horticulture Research(IF:5.404)
发表时间:2021.03.01
研究对象:毛榛
主要技术平台:Nanopore、HiSeq X Ten、Hi-C
主要完成单位:刘建全团队
第一作者:李颖(兰州大学)、孙朋川(四川大学)
通讯作者:杨勇志(兰州大学)
希望组贡献:提供本研究的测序和NextDenovo、NextPolish软件组装服务

图1 毛榛

图2 毛榛 C. mandshurica 基因组特征及进化和比较基因组分析

利用比较基因组学的方法,本研究重构了桦树属基因组的进化历程,通过推断桦木科五个基因组之间的同源性,确定了毛榛的进化地位,显示毛榛基因组是由于祖先基因组经历1次染色体相互易位,2次嵌套染色体融合和1次染色体端端相连形成了目前的11对染色体核型。同时推测桦木科物种共同起源于一个有14对染色体的祖先基因组,解析了桦木科物种繁多的原因是祖先基因组发生了多次断裂和融合等事件。

图3 桦木科五个基因组的核型进化图解和祖先核型及进化过程中的染色体融合

本研究共鉴定了96个油酸生物合成的候选基因,其中10个表现出了快速进化和正向选择特性。进化分析探究了影响榛子油脂合成的潜在基因和基因家族,鉴定了764个油脂相关基因和一些于抗逆相关的基因家族,这些抗逆基因家族在毛榛基因组中呈现快速扩张趋势。

图4 毛榛基因组代谢途径和生物合成相关基因

总而言之,本研究获得的榛子参考基因组是目前已公布的桦木科基因组中组装质量最完整的,并且首次鉴定了油酸生物合成相关的候选基因,将在榛子功能基因组研究和品质改善中产生巨大价值。

项目文章|三代转录组测序揭示精子中完整Long RNAs图谱

2021.03.01,Nature Communications杂志在线发表题为“Single-molecule long-read sequencing reveals a conserved intact long RNA profile in sperm”的研究论文,由美国罗切斯特大学李鑫团队与爱荷华大学(现俄亥俄州立大学)区健辉团队合作发表。该研究利用三代测序技术检测了精子细胞中完整的 long RNAs(spiRNAs),在小鼠和人类精子中分别检测到了3440和4100种 spiRNAs。结果显示,这些spiRNAs种类上包含mRNA和long non-coding RNAs,进化上spiRNA在小鼠和人类之间是相对保守的,并且在编码核糖体的mRNAs中显示富集。该研究描述的完整long RNAs图谱为进一步研究其生物成因和功能提供了基础,同时本研究中的策略和自主开发的生物信息分析流程为其它类型样本完整longRNAs鉴定提供了参考。希望组提供了本次研究的部分三代测序服务。

文章题目:Single-molecule long-read sequencing reveals a conserved intact long RNA profile in sperm
发表期刊:Nature Communications
发表时间:2021.03.01
影响因子:12.121
测序技术:Pacbio Iso-Seq、Illumina、Nanopore cDNA全长转录组

研究背景
在受精过程中,精子会向合子传递多种RNAs,早期研究已经证实这些RNAs能参与调节表观遗传,响应环境因子从而影响后代表型。目前研究者们关于small RNA的研究较多,但是对于哺乳动物中>200nt的long RNAs却知之甚少。由于检测技术灵敏度和二代高通量测序读长的限制,导致spiRNAs的研究非常受限。三代测序因其长度长优势被广泛应用于全长转录本的鉴定,而二代测序由于其高准确性等优势仍被沿用,但尽管结合三代测序和二代测序解决了读长和准确度的问题,目前也难以精确确定长reads的5′和3′边界。在这项研究中,研究者分离出超纯的小鼠精子RNA,使用三代和二代测序包括精巢样本CAGE及PAS-Seq,呈现全面的精子转录组特性,证明精子中存在完整的long RNAs,探索哺乳动物中spiRNAs可能存在的生物学功能。通过对比小鼠和人类精子的RNAs转录组数据研究spiRNA在进化上的保守性和功能性,并为相关医学诊断提供了参考RNAs信息表。此外本研究中所使用的策略和自主开发的生物信息分析流程将为其它组织或器官的完整longRNAs鉴定提供参考。
材料和方法
该研究以小鼠和人类精子为材料,分离超纯的精子RNA,进行Pacbio Iso-Seq和Illumina转录组链特异性文库测序,数据用于后续分析。共获得256,897个PacBio Iso-Seq long reads,测序深度达到饱和。同时使用ONT cDNA全长转录组测序分析鉴定精子全长转录本,验证并丰富转录组组装结果。此外,使用来自精巢的CAGE and PAS的数据校正精子中的完整转录本,多种类型文库和平台测序数据结合分析,为小鼠精子提供了一个高质量参考转录组(图1)。
主要研究结果
1.小鼠精子中存在完整的long RNAs且与精巢中的有明显不同
 
本研究证实了小鼠精子存在完整的 long RNA,共检测到了来自1,624个基因位点的3,440 种spiRNA ,其中有755种spiRNA和参考序列中已报道过的完全相同,198种spiRNA的基因位点是全新的,7种spiRNA是已知基因位点的反义链(图2a),2479种为已注释位点的新转录本(图2b),研究发现这些新转录本大多由APAs作用产生而来,只有少部分是由可变剪切和选择性转录起始产生(图2c)。此外检测到了1个跨越两个邻近基因的spiRNA(图2d)。与精巢中的完整转录本不同,spiRNA 长度更短(963nt)且有特异性功能富集,基于GO富集分析,spiRNA最显著富集之一的是编码80S核糖体的mRNAs(图4a),而这在精子成熟过程中是不需要的,说明spiRNAs具有组织特异性。

图2:精子中存在完整的long RNA转录本.

2. spiRNAs包含mRNAs和lncRNAs

为了验证spiRNAs在精子发生发生过程中的编码潜力,研究者们结合已有的Ribo-Seq数据库分析后,将小鼠的spiRNAs分成了2343个mRNAs和1097个lncRNAs,RPFs(ribosome protected fragments)在spi-mRNAs的编码区富集(图3a),并且发现在spi-mRNAs上富集的RPFs呈现出了三核苷酸的周期性 (three-nucleotide periodicity)(图3b)。此外该研究还验证了新转录本的潜在编码功能,来自已知位点的共2479个新isoforms中有1538个被注释为mRNAs, RPFs也分布在新的外显子序列中(图3c),这说明spi-mRNAs中的RPFs是可以进行翻译的。而对于来自新位点的198个新转录本,研究者们观察到78个已经注释的mRNAs和120个lncRNAs(图3d,e)之间存在明显差异,这种现象和全转录本中相似(图3a,b)。

图3 spiRNAs include both mRNAs and lncRNAs
3.小鼠与人类之间的spiRNA profile在进化上是保守的
为了检测spiRNA在进化上的保守性,研究者们同时还对人类精子RNA进行了测序 (图5),分析后共检测到2205个基因位点中的4,100 spiRNAs ,包括3517个mRNAs和583个lncRNAs。对比发现小鼠和人类共有562个spiRNAs相同(图4c)。以所有人类spiRNA genes 作为背景进行GO富集分析,结果显示编码蛋白质合成的mRNAs得到了富集(图4d),与在小鼠精子中的发现一致(图4a)。研究者们进一步分析了非核糖体mRNAs,发现小鼠和人类依然存在明显的重叠。说明可能存在一种保守机制决定spiRNAs序列库。

 
图4  The spiRNA profile is evolutionarily conserved
 
 图5 Diverse transcripts in human sperm
总结与讨论

这项研究证明了精子中存在完整的 long RNAs,并在编码核糖体蛋白功能中显示富集,其功能与精巢中的RNAs不同,说明其具有一定的组织特异性。而另外发现的spiRNA在小鼠和人类中具有保守性,说明可能存在一种潜在的保守机制决定着spiRNAs序列库。

总之,该研究结合自助开发的研究策略和生物信息分析流程,揭示精子细胞中的完整RNA图谱,推动了RNA介导的表观遗传学研究,并为该领域进一步的研究提供了宝贵资源。

Cell+Nature!希望组NextDenovo+Ultra-long 助力肺鱼基因组解析!

肺鱼是现存最接近四足动物的近亲,并保留了由水生向陆生过渡相关的祖先特征。现存的6种肺鱼,有4种生活在非洲,1种生活在南美,还有1种生活在澳大利亚。近日,2个不同的研究团队分别以非洲肺鱼和澳洲肺鱼为研究对象在国际顶级期刊Cell和Nature上发表了研究成果。肺鱼基因组是迄今为止报道的最大的动物基因组(约40Gb),基因组中大量的重复序列(>60%)进一步增加组装的难度,希望组凭借领先的ONT Ultra long测序和自主开发的NextDenovo基因组组装技术分别助力两研究团队完成了高水平的基因组组装,其中,为非洲肺鱼文章提供了Nanopore测序和NextDenovo、NextPolish软件的使用,使得该超大基因组的BUSCO评估达到95%以上,武汉希望组生物科技有限公司胡江为本文的共同第一作者;为澳洲肺鱼文章提供了Nanopore Ultra-long测序服务。

图1 非洲肺鱼

African lungfish genome sheds light on the vertebrate water-to-land transition

发表期刊:Cell (IF:38.637)

研究对象:非洲肺鱼

主要测序技术:Nanopore1D、BioNano和Hi-C

主要完成单位:西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室等

第一作者:王堃、王俊、朱成龙、杨连东,任彦栋、阮珏、范广益、胡江(希望组)

通讯作者:王文、何舜平、邱强、赵文明

希望组贡献:提供基因组测序和NextDenovo、NextPolish软件及组装技术支持

非洲肺鱼染色体基因组组装、重复序列与进化分析
研究团队利用Nanopore Ultra long、BioNano和Hi-C测序,采用NextDenovo + wtdbg2 + NextPolish策略组装,最终获得约40.05 Gb的基因组,Contig N50达到1.60 Mb;结合BioNano和Hi-C数据对基因组构建Scaffold和辅助染色体挂载,最终得到17条染色体,Scaffold N50 2.81 Gb,染色体挂载率达到99%以上。BUSCO评估显示该基因组包含了95%以上的脊椎动物完整基因。非洲肺鱼基因组如此巨大主要是由TEs的扩张引起的,非洲肺鱼基因组的61.7%(24.7 Gb)被注释为重复序列。研究团队通过分析Kimura distance估算了TE历史扩张活动,结果表明TEs,特别是反转录转座子,在过去7000万年中一直活跃。基于基因组组装和注释结果,通过对8种脊椎动物的5149个单拷贝基因进行系统发育重建,证实非洲肺鱼是与四足动物最近的姐妹谱系,非洲肺鱼和四足动物的分化时间可追溯到泥盆纪伊始,估算为419 MA。

图2 非洲肺鱼染色体水平基因组组装和进化史

基因改变增强了呼吸能力
肺呼吸能力的进化可能经历了三个步骤:第一步是硬骨鱼的共同祖先已具备了最初级的呼吸空气的能力(已有文献支持),本研究中检测到所有硬骨鱼中存在Sftpb同样也证实这一观点。第二步是通过诸如Sftpc的出现和邻近Foxp1的保守非编码元件(CNEs)等基因创新,肉鳍鱼类的共同祖先获得了增强空气呼吸的能力。第三步可能是进一步的基因创新,包括SftpaSftpd的出现以及Foxp2附近保守非编码元件(CNEs)的出现,为四足动物进化出呼吸系统提供了最后的关键基础。

图3 肉鳍鱼类肺呼吸功能的演变

五趾肢的起源与陆地运动
五趾的出现是脊椎动物从水生到陆生过渡的标志事件。研究者在Hoxa11上游200 bp处发现了一个长度为67 bp的四足动物特有的保守非编码元件(CNE),这个四足动物特有的CNE可能是五趾肢起源的关键基因创新。通过不同的四足动物比较验证了这一观点(在两栖类、鳄鱼、海龟和哺乳动物中,这一元件高度保守,但在蛇和鸟类的基因组中却发生了相当大的改变)。从近端到远端,四足动物的四肢由鳍到肢的过渡形成了上肢、中肢和掌部三部分。转录组和基因组数据验证了and1/2and3Hoxb13基因可能与鳍肢过渡有关。除了发生形态学变化外,四足动物还需要运动神经元刺激控制四肢的肌肉。研究发现位于Hoxc10(已被证实在小鼠腰椎运动神经元、分区和运动池识别中发挥关键作用)上游(3 Kb和2.5 Kb)的2个四足动物特异性的保守非编码元件(CNE)是候选增强子,可能与四足动物的地面运动有关。

图4  肢起源和与陆地运动相关的基因变化

基因改变增强了抗焦虑能力
脊椎动物从水到陆地的过渡过程中,伴随着大脑边缘系统的变化。通过全基因组扫描,研究者在肺鱼和四足动物最后的共同祖先谱系中发现了两个新基因Npsr1Nps,这两个基因分别编码神经肽S受体(Neuropeptide S receptor, NPSR)和神经肽S(Neuropeptide S, NPS),具有促进兴奋和抗焦虑的作用,可调节承压能力,增强杏仁核突触抑制。研究结果表明,Npsr1基因起源于肉鳍鱼类催产素受体基因的复制,主要在大脑和脊髓中表达。Nps起源于肉鳍鱼类的前体序列。除了NPS/NPSR系统外,杏仁核内的γ -氨基丁酸(GABA)是另一种重要的抑制神经递质,用于控制恐惧和焦虑的感觉。GABA相关基因在硬骨鱼类中高度保守的元件在肺鱼与四足类动物的最近共同祖先中却发生了插入或缺失。第一个基因IgSF9b有6个AA缺失;第二个基因Arfgef1有两个AA插入。此外,编码生长激素的Gh基因被检测到在四足动物和非洲肺鱼的大脑中特异性表达,杏仁核中Gh基因上调与恐惧记忆的形成有关。总之,这些由肺鱼和四足动物共享的基因创新与之前的研究一致,即类似四足动物的杏仁核复合体起源于肺鱼和四足动物共同祖先世系。

图5 与杏仁核和抗焦虑能力相关的基因改变

基因变化与咽重塑
随着陆生脊椎动物的主要呼吸功能由鳃向肺转移,鳃弓不再产生鳃。鳃弓也从肉鳍鱼类的5个减少到四足动物的4个或3个。Hoxb3基因在调节咽弓的发育中起重要作用。位于Hoxb3上游4 Kb处的非编码元件(CNE)存在于在大多数脊椎动物中,但在四足动物中该区域已不再保守。这可能是由于两个咽弓缺失导致选择松弛的结果。与此同时,人类等四足动物胚胎发育阶段的第二咽弓被重塑,用以覆盖更多的尾弓,导致后弓内在化,并在后端丢失了一个外开口。自四足动物出现后,甲状旁腺便出现在咽后囊中,这些腺体负责调节释放体内储存的钙,而在鳍刺类鱼中是通过鳃来实现这一功能。Pax1基因是与第二弓后咽袋和甲状旁腺的发育直接相关。研究者在Pax1上游发现了一个四足动物特异性的保守非编码元件(CNE),它能起到增强子的作用。Gcm2基因对甲状旁腺的分化和存在也至关重要。比较研究发现该基因在鳐鱼和非洲肺鱼的鳃中高度表达,而在爪蛙的鳃中表达量较低,说明在四足动物中,相应的功能已经从鳃转移到了甲状旁腺。
 

图6 与咽重塑相关的基因变化

Giant lungfish genomeelucidates the conquest of land by vertebrates
发表期刊:Nature (IF:42.778)

研究对象:澳洲肺鱼

主要测序技术:Nanopore1D 、Ultra long和Hi-C

主要完成单位:德国康斯坦茨大学生物系、德国维尔茨堡大学生物中心等

第一作者:Axel Meyer、Siegfried Schloissnig、Paolo Franchini、Kang Du、Joost Woltering

通讯作者:Axel Meyer、Manfred Schartl、Elly M. Tanaka、Thorsten Burmester、Oleg Simakov

希望组贡献:提供NanoporeUltra-long测序服务

图7 澳洲肺鱼

澳洲肺鱼的基因组测序与陆地运动的进化
研究者利用Nanopore 1D 和Ultra long技术对澳洲肺鱼进行了全基因组测序组装,最终组装出37Gb,Contig N50达1.86Mb的澳洲肺鱼基因组。之后利用271Gb Hi-C 数据,对基因组进行染色体级别组装,最终得到Scaffold N50 1.75Gb,组装出了17条大染色体和10条小染色体。BUSCO评估组装的基因组包含67%的脊椎动物完整基因。肺鱼是属于肉鳍鱼类中的一类,肉鳍鱼的叶状鳍在进化中最终形成了适于陆地爬行的足趾。通过比较基因组分析,研究者对保守的四足动物肢体增强元件的分析表明,有31种起源于肉鳍类。与sall1相关的hs72增强子驱动掌部区域基因表达。sall1在肺鱼胚胎中高表达,并呈现类似于四足动物的表达模式,但在斑马鱼的鳍发育过程中不表达。这表明该基因功能和肺鱼的肉鳍类叶状鳍发育相关。hoxc基因在双鳍和四肢中的表达仅在与甲床相关的哺乳动物中报道过,而RNA-seq分析发现在肺鱼幼体鳍部hoxc基因有表达。研究者还发现hoxc13在蝾螈肢中表达,在辐鳍鱼的胸鳍中不表达,转录本定位显示hoxc13也在肺鱼胚胎远端鳍表达。这表明在四足动物中,该基因结构域可能调控肢体元素生成,如指甲、蹄和爪。hoxcsall1一起,证明了早期肉鳍类起源的四肢样基因表达促进了鳍肢过渡。

图8 肉叶鳍的预适应调节与hoxd基因调控

总之,这2篇高水平的基因组文章分别以非洲肺鱼、澳洲肺鱼为研究对象,分析了肺鱼类的物种和基因组特点,并从不同视角推演了脊椎动物从水生到陆生进化过程,增加了我们对脊椎动物陆生进化的理解,为鱼类到人类的进化提供了宝贵的资源。

作为三代测序基因组学中心,希望组拥有最新的Oxford Nanopore PromethION、PacBio Sequel II、BioNano光学图谱和HiC等技术,是目前国内少数能同时稳定产出高质量ONT ultra-long reads和 PacBio HiFi reads的服务商之一。并自主开发了NextDenovo/NextPolish系列三代测序组装软件,同时配备高水平生信分析团队,完全可以解决超大型基因组的难题,我们将继续致力于攻克更多超大型复杂动植物基因组图谱,为您提供高质量、高准确度的测序、组装、分析服务。

Plos Biology∣汤富酬课题组与希望组开发出单细胞转录组三代单分子测序新方法

2009年首个单细胞转录组测序技术问世,开启了单细胞组学时代(scRNA-seq)(Tang et al., 2009)。过去十余年间单细胞测序技术的不断发展极大地加速了生物医学领域的相关研究,帮助科研人员克服了稀有生物样本以及生物样本内生异质性等重大挑战,一系列模式生物及人类自身的单细胞转录组图谱也由此诞生。然而目前的单细胞测序技术几乎全都是基于二代测序平台,测序读长短,一般在150bp左右,即使采用双端测序技术,测得的有效读长也不超过500bp。而人类转录组中转录本的长度普遍在1000bp以上,有些转录本长度甚至超过100kb(Piovesan et al., 2016; Frankish et al., 2019),远远超过二代测序方法所能检测的最大读长。

为了解决基于二代测序平台的单细胞转录组测序技术难以获得单个细胞中全长转录本的准确信息这一核心困难, 2020年12月30日,北京大学未来基因诊断高精尖创新中心、生物医学前沿创新中心汤富酬课题组与北京希望组生物科技有限公司合作在Plos Biology上在线发表了题为“Single-cell RNA-seq analysis of mouse preimplantation embryos by third-generation sequencing”的研究论文。该研究的主要突破有:

1)开发了一种基于三代单分子测序平台的高灵敏度单细胞转录组测序方法—SCAN-seq (Single cell amplification and sequencing of full-length RNAs by Nanopore platform),能够在单细胞分辨率直接获取全长转录本序列信息,表现出高灵敏度和高稳健性,在小鼠胚胎干细胞每个单细胞中可以检测到8000多个基因的表达,与之前基于二代测序平台最灵敏的单细胞转录组测序方法不相上下(如图1所示)。

图1 SCAN-seq的流程和评估

2)鉴定出了30000多种全新的转录本。总共只测序了200多个单细胞就在小鼠胚胎干细胞(mESCs)和小鼠植入前胚胎中分别鉴定出6487条和27250种新转录本。相比基于二代测序平台的所有单细胞转录组测序方法,SCAN-seq能够区分新找到的转录本是来自同一已知转录本的新转录本,还是来自不同已知转录本已注释剪接点的重新组合的新转录本(如图2所示)。

图2 未注释转录本的鉴定

3)首次提出单细胞转录组三代测序数据可以将一个单细胞中的父母源转录本准确区分开、分别进行精准定量分析。SCAN-seq显示出在同一个单细胞中精准识别小鼠品系特异性单核苷酸多态性(SNPs)的能力,平均误差率只有1.8%。利用这一方法,在单细胞分辨率确认了小鼠2-细胞期后的胚胎细胞中父源等位基因的mRNA比例逐渐增加,到囊胚期时每个胚胎细胞中来自母源和父源等位基因的mRNA拷贝数变得相当(如图3所示)。

图3 等位基因特异性转录本的分析

该研究开发出的SCAN-seq新方法具有广阔的应用前景,能够克服单细胞转录组二代测序方法的各种局限性,将单细胞组学测序从“二”时代推进到“三”时代:(1)从一般只能测序单细胞中cDNA一端的有限信息,提升到能够测序单细胞中cDNA的全长信息;(2)从单细胞中一个基因的所有不同可变剪接产物(转录本)混合测量无法区分,提升到把单细胞中每个基因的所有不同可变剪接产物(转录本)精准分开;(3)从单细胞中一个基因的父母源表达信息混合在一起无法区分,提升到把单细胞中每个基因的父母源转录本精准分开;(4)从只能在单细胞中检测独特序列基因的转录本信息,提升到同时也能精准检测单细胞中高度重复序列的转录本信息;(5)从“一个基因,一个表型”的精度(one gene, one phenotype;人类基因组中有大约3万个基因),提升到“一种基因可变剪接转录本,一个表型”的精度(one RNA isoform, one phenotype;人类基因组中有大约30万种不同的可变剪接转录本)。总之,单细胞转录组三代单分子测序技术将揭开更多的转录组中“暗物质”的奥秘,给人类生物医学研究带来全新的发展机遇。

生物岛实验室研究员范小英、北京大学生命科学学院博士生廖雨涵和北京希望组生物科技有限公司汤冬硕士、李丕栋硕士为该论文的并列第一作者。北京大学未来基因诊断高精尖创新中心、生物医学前沿创新中心汤富酬教授与北京希望组王洋博士为该论文的共同通讯作者。该研究项目得到了国家自然科学基金委、北京市科技委和北京大学未来基因诊断高精尖创新中心的支持。

希望组作为三代测序的引领者,一直深耕三代测序领域,引进国际先进的PacBio Sequel II、ONT PromethION 48、MGISEQ2000、Bionano Saphyr光学图谱等技术平台,为科学研究和临床检测等提供多平台多水平的测序分析服务。利用单细胞结合三代测序平台,获取全长转录组信息,可为研究“一种基因可变剪接转录本,一个表型”打下夯实的基础。欲详细了解单细胞转录组三代测序服务及更多应用场景,可邮件联系sales-support@grandomics.com或联系希望组当地销售顾问。

参考文献:

  1. Tang, C. Barbacioru, Y. Wang, E. Nordman, C. Lee, N. Xu, X. Wang, J. Bodeau, B.B. Tuch, A. Siddiqui, et al. (2009). mRNA-Seq whole-transcriptome analysis of a single cell. Nature Methods, 6, 377-382.

Piovesan, A., Caracausi, M., Antonaros, F., Pelleri, M. C., & Vitale, L. (2016). GeneBase 1.1: A tool to summarise data from NCBI Gene datasets and its application to an update of human gene statistics. Database (Oxford), 2016, baw153.

Frankish, A., Diekhans, M., Ferreira, A. M., Johnson, R., Jungreis, I., Loveland, J., et al. (2019). GENCODE reference annotation for the human and mouse genomes. Nucleic Acids Res. 47, D766–D773.

项目文章丨兰州大学从全基因组水平揭示象草花青素积累和快速生长分子机制

近日,兰州大学草地农业科技学院联合广西畜牧研究所及国际家畜研究所共同合作的象草基因组研究成果以“The elephant grass (Cenchrus purpureus) genome provides insights into anthocyanidin accumulation and fast growth”为题在国际知名期刊《Molecular Ecology Resources》(3年IF=7.15)在线发表。希望组科技服务为本研究提供了Illumina、Nanopore和Hi-C测序服务,承担了基因组的组装及注释任务。该研究首次报道了象草的高质量染色体级别基因组,明确了象草的进化地位,在基因水平解析了紫色品种象草 “紫色”花青素积累的机制,并提出C4光合作用和激素信号转导通路的扩张可能有助于象草快速生长的新见解[1]

象草(Cenchrus purpureus Schumach)因大象爱采食而得名,是禾本科、黍族多年生大型草本植物,原产于亚洲。象草因其具有生物量大、生长快速、适应性强等特点,被用作重要的饲草作物在全世界热带及亚热带被广泛种植。此外,由于象草在生物能方面的优势也使其潜在的能源草。该研究是对象草研究的重大突破,为象草进化、性状改良和功能基因研究提供了理论基础。

图1 紫色象草

研究团队以紫色象草(Cenchrus purpureus cv. Purple)为材料,K-mer评估显示象草具有较高杂合(1.5%)。利用Illumina、Nanopore、Hi-C测序。采用NextDenovo + SMARTdenovo策略组装获得1.97Gb的基因组, Contig N50 为1.83Mb,最长Contig达到15.1Mb。结合Hi-C数据对基因组辅助染色体挂载及遗传连锁图谱,得到14条染色体,挂在率为96.65%。BUSCO评估结果达 97.8%,预测注释基因65,927个。

图2 象草亚基因组特征

象草为异源四倍体(2n=4x=28),包含A’和B两个亚基因组。研究表明同属二倍体植物珍珠粟(Cenchrus  americanus,2n=2x=14)的A基因组与象草A’基因组具有更高同源性。通过共线性分析研究者成功将象草的A’和B两个亚组区分开来,并利用单拷贝基因分析证明象草A’亚基因组和珍珠粟A基因组具有较近的同源性。象草A’A’BB的异源四倍体基因组大约起源于6.61 (4.11-10.92)MYA,并发生了较大的染色体重组。此外,研究者还利用转录组分析了象草亚基因组显性表达,结果表明其可能行使不同的功能。

图3 紫色象草花青素积累机制

紫色象草品种的叶片呈现紫色,一般认为苯丙类、黄酮类、花青素生物合成途径与叶片色素沉积有关。研究者从基因组和转录组层面对象草叶片紫色呈现进行了研究。比较基因组和转录组分析表明,象草关键酶基因苯丙氨酸解氨酶(PAL)、肉桂酸4-羟化酶(C4H)、4-香豆酸辅酶a连接酶(4CL)、查耳酮合酶(CHS)和黄烷酮醇 4 -还原酶(DFR)、类黄酮-3-O-葡糖基转移酶(3GT)发生了扩张并在叶片中显著高表达,其中4CL和DFR在进化过程中受到正选择。 
C4植物通常在碳固定方面效率更高,具有更高的用水效率,有助于它们在干燥环境中生存。C4植物可根据维管束鞘细胞中脱羧方式的不同分为3个亚类,即NAD-ME、NADP-ME和PEPCK。研究者分析了象草中涉及C4碳固定的九个主要基因家族,包括酶和代谢物转运体,比较基因组分析发现它们在象草中发生了扩张。转录组的结果表明这些关键酶和代谢物转运体在光合主要器官叶片中显著高表达,并且发现C4的3个亚类共同存在于象草中。另外,植物激素也是控制植物生物过程(发育过程、信号网络以及对生物和非生物胁迫的反应)的重要因素。研究者从基因组和转录组层面对激素信号转导相关通路进行了分析,发现参与细胞增大和细胞分裂等基因家族在象草中发生扩张并在茎间组织中高表达。这些结果可能为象草的快速生长及高生物量具有重要意义。

图4 象草C4光合途径

该研究利用报道的高质量的象草基因组、解析了花青素合成及快速生长机制,为象草作为优良饲草和潜在能源草的分子改良育种具有重要意义。此外,对于该属的进化以及其它物种的开发利用提供了重要资源。兰州大学草地农业科技学院张吉宇教授为通讯作者、广西畜牧研究所易显凤研究员、国际家畜研究所Jones Chris博士为共同通讯作者。兰州大学草地农业科技学院博士生闫启为第一作者、团队博士生吴凡、许攀和希望组孙宗毅为共同第一作者。

1. Yan Q, Wu F, Xu P, Sun ZY, Li J, Gao LJ, Lu LY, Chen DD, Muktar M, Jones C, Yi XF, Zhang JY. The elephant grass (Cenchrus purpureus) genome provides insights into anthocyanidin accumulation and fast growth. Mol Ecol Resour 2020, doi:10.1111/1755-0998.13271

Plant Journal| 如何通过全长转录组发表一区文章?异源多倍体应用实例

三代全长转录组在动植物转录本水平的研究优势越来越明显,然而基于全长序列得到的完善的转录本结构,如何发表一篇高质量文章还值得不断探索。由于高重复、高杂合性以及二代测序技术的局限,大量多倍体物种的转录组信息还没有完全且准确的挖掘出来,尤其是在可变剪接(Alternative Splicing,AS)和可变多聚腺苷酸化(Alternative Polyadenylation,APA)方面,蕴藏着复杂的转录后调控机制,通过对转录本结构的全面解析,有助于深入研究多倍体物种的基因功能和品系优势。

近日,农业部油料作物生物学与遗传育种重点实验室刘胜毅课题组联合湖北大学,在the Plant Journal杂志在线发表题为“A global survey of the transcriptome of the allopolyploid Brassica napus based on single molecule long-read isoform sequencing and Illumina-based RNA-seq data”的研究文章。本文结合了三代测序技术(Pacbio)和二代测序(Illumina),在转录本水平上探索甘蓝型油菜Brassica napus转录组的复杂性。这些数据提供了丰富的转录组资源,这将有利于基因组的重新注释,加强我们对B. napus转录本的了解,并应用于功能基因组的进一步研究。童超波研究员为通讯作者,姚胜黎为第一作者,希望组梁帆为共同作者。希望组参与了本文中的PacBio测序和分析工作。

研究思路

选择甘蓝型油菜栽培种“ZS11”,取不同发育时期的叶片、根、花芽、角果、愈伤组织等,提取总RNA后等量混合进行三代测序(Iso-Seq),各样本分别进行二代转录组测序。三代测序选用PacBio RS II平台,构建4个文库,共测31cell0-1 kb 5cell1–2 kb 10cell2–3 kb 10cell>3 kb 6cell。二代测序选用HiSeq 4000 平台,每个组织部位2-3个重复,共测123M reads

主要结果

1    特征数据统计

三代数据共得到1161468个ROI,其中72.2%是全长非嵌合序列。47%的全长序列唯一比对到基因组,三代测到的转录本平均长度为2487 bp,明显长于基因组上已有注释的转录本平均长度。矫正后,单碱基错误率降至 1.50%( 0.26% insertions, 0.27% deletions and 0.97% mismatches),校正后,BUSCO比对的完整性提升到83%。

转录本平均长度

2    已有数据横向比较

将Ensembl Plants Database中已有的cDNA序列与本次测得序列比较,数据库中的26346个序列与PacBio测得的63714个序列匹配上,且PacBio测到的全长cDNA更长。将非冗余的147698个转录本和之前已经测序的Darmor-bzh进行比较,发现有142476个转录本能够覆盖到37403个基因位点,其中31392个基因位点是多外显子基因。未比对上这个基因组的5222个转录本中,有4947个转录本可以比对到近源物种(拟南芥,白菜,甘蓝),这表明有些转录本可能是栽培种ZS11特有的。

 

3    可变剪接

共检测到222061个可变剪接事件,来自15068个基因位点,主要是内含子保留(IR),其中128967个转录本是现有基因组上未注释到的。统计显示,20230个多外显子基因有用多个剪接异构体,其中5761个基因能够产生5种以上异构体。比如,BnaC01g03120D在基因组注释上仅有1个转录本,但是PacBio测到了14个不同的剪接异构体。另外发现,可变剪接在An亚基因组中更为普遍。

2  BnaC01g03120D转录本可视化

4   LncRNA鉴定及验证

鉴定到20个已知lncRNA,529个新lncRNA,平均长度1.7 kb,lncRNA具有明显组织特异性。两个亚基因组中的同源基因分别产生了54和53个lncRNA,结果表明两个亚基因组的贡献是相等的。

各样品中lncRNA的表达量

5    APA分析

分析poly(A)位点的侧翼序列,发现上游富集尿嘧啶(U)和下游富集腺嘌呤(a)的核苷酸偏好明显。在polyA的上游,我们鉴定到了两个保守的加A信号,AAUAAA和UGUA。从两个亚基因组得同源基因对中分别鉴定到13812和14184个poly(A)位点,3299和3522个APA基因。An亚基因组的同源基因对polyA位点产生的贡献小于Cn亚基因组的同源基因。

4  MEME分析转录本中的poly(A)信号

6   转录本水平定量
以愈伤组织作为参考,和其他组织两两比较,探究温度、组织对AS的影响,结果显示大多数AS差异事件在HS-callus VS callus中被识别,说明环境因素对AS事件的影响大于组织分化。热处理愈伤组织后,发生特异性AS的基因主要与膜外壳、蛋白靶向、转录因子活性、定位、温度刺激响应和细胞过程的正向调控有关。

各组间差异AS事件统计

亮点总结

  • Ø  将测序数据分别与现有数据库、近源物种比较,锁定品系特有基因集,为品种优势研究奠定基础;
  • Ø  将ROI比对到不同的亚基因组上,区分不同亚基因组对AS、APA和lncRNA的贡献度;
  • Ø  针对AS、APA和lncRNA进行大量的RT-PCR验证;
  • Ø  二代定量和三代定性相结合,引入科学问题“温度、组织对AS的影响程度”,通过组间比较找到关键影响因素和相关基因。

希望组最新引进Sequel II,拥有成熟分析流程,更多方案设计和前沿资讯,欢迎垂询!

项目文章|物种形成研究揭示峨眉锥栗的杂交起源和生殖隔离位点的非均匀分布

研究同倍体杂交物种形成的难点在于,检验杂交直接影响生殖隔离的形成。如果我们能观测到生殖隔离位点呢?

西双版纳植物园孙永帅团队在Nature Communications发表了题为Genomic basis of homoploid hybrid speciation within chestnut trees的研究论文,该研究以中国特有的峨眉锥栗研究系统为材料,应用进化生态基因组学研究方法,发现了一个树木杂交物种以及生殖隔离位点的分布式样。

 

物种形成模型可分为二歧分支式物种形成和杂交物种形成。二歧分支模型中,每个物种只对应一个祖先群体。杂交物种则源自于两个或多个类群。进一步地,杂交成种分为多倍体杂交成种和同倍体杂交物种形成。多倍体物种形成较常见于植物界。而同倍体杂交物种形成类群颇为少见。迄今,有5个认可度较高的同倍体杂交物种形成类群,均分布在美洲。

 

现存物种及类群间的生殖隔离强度往往高于其祖先群体间的隔离强度。孙永帅团队将这一原理引入到进化生态学与基因组学交叉研究中。即,在与生殖隔离关联的基因组区域上,现存类群间的基因流应低于其祖先群体间的基因流。在生殖隔离位点上,亲本物种的等位基因往往因环境、遗传限制而不能共存。基于这些原理,该团队应用群体基因组学方法鉴定了中华板栗(也称板栗)和锥栗的生殖隔离位点,进而用之检验峨眉锥栗是否起源于板栗和锥栗间杂交。与此前研究报道的5个同倍体杂交成种的实验设计不同,在峨眉锥栗杂交系统中,板栗和茅栗的姐妹种对关系为鉴定板栗和锥栗的生殖隔离位点提供了天然对照和便利(图1)。

 

该研究首先用多个方法分析峨眉锥栗与板栗、锥栗的遗传差异,为峨眉锥栗的分类地位提供了基因组学证据。然后,采用hhs方法、溯祖模型比较分析等对峨眉锥栗的杂交起源过程进行解析,并估算亲本物种对峨眉锥栗基因组的相对贡献。随后,该研究鉴定了与生殖隔离关联的候选基因组位点。在峨眉锥栗基因组中,仅6个生殖隔离位点来自于板栗。基因功能注释分析发现两个花期关联基因位于本研究鉴定的生殖隔离关联位点上。这些结果表明,亲本物种间生殖隔离位点的重新组合可为新物种形成的重要机制。深入分析发现,候选生殖隔离位点偏集中分布于基因组的低重组区域。研究认为,自然选择和遗传重组间互作塑造了峨眉锥栗基因组的进化过程。

 

西双版纳植物园植物进化生态学研究组孙永帅博士为研究论文的第一作者和通讯作者。该项研究得到了国家自然科学基金委,中国科学院和云南省的经费支持。

1. 4个栗属Castanea类群的样品采集地(a)、演化关系(b)、遗传结构(c),以及板栗基因组的重组率分布以及生殖隔离位点的分布式样(d)

项目文章| 三代测序助力蝶蛹金小蜂高质量基因组发布

近日,浙江大学叶恭银教授与方琦副教授团队联合美国罗彻斯特大学和美国密苏里大学,在Molecular Ecology Resources杂志在线发表题为“A Chromosome-Level Genome Assembly of the Parasitoid Wasp Pteromalus Puparum的研究论文。该研究利用三代测序技术组装出了蝶蛹金小蜂高质量的染色体水平基因组,为寄生蜂的分子生物学、系统进化和生物防治研究提供了有价值的资源。浙江大学博士生叶昕海、严智超博士(现为南京农业大学副教授)、博士生杨义为论文共同第一作者,浙江大学叶恭银教授与方琦副教授、美国罗彻斯特大学John H. Werren教授为本文共同通讯作者。此外,浙江大学李飞教授、姚洪渭副教授,美国密苏里大学宋齐生教授等共同参与完成此项研究工作。希望组承担了本研究中二代、三代测序及Hi-C测序工作。
膜翅目寄生蜂在农田生态系统中是一类非常重要的生物防治的昆虫,蝶蛹金小蜂(Pteromalus puparum)是十字花科蔬菜害虫菜粉蝶蛹期优势内寄生蜂。它能够将一种或多种寄生因子注入寄主体内,用来抑制寄主免疫、调控寄主生长发育和营养代谢等生理活动,是研究寄生蜂与宿主相互作用的理想实验室模型。

                                                      图1蝶蛹金小蜂在其寄主菜粉蝶上的生活史

本研究结合短读长、长读长测序和Hi-C技术,生成了高质量染色体水平蝶蛹金小蜂基因组装配。组装的基因组大小为338 Mb,contig N50为38.7 kb,scaffold N50为1.16 Mb,结合Hi-C数据将scaffold组装到5条染色体上,scaffold N50提升至65.8 Mb,其中96%以上的组装碱基位于染色体上。基因组BUSCO评估达98%,表明该装配具有很高的完整性,为后续研究提供了极好的基因组资源。

                                图 2 蝶蛹金小蜂基因组景观。I 5条染色体;II 重复序列密度;III 基因密度;IV GC含量。

研究者利用蝶蛹金小蜂及其他12中代表性膜翅目昆虫的3399个单拷贝基因构建系统发育树,蝶蛹金小蜂与丽蝇蛹金小蜂进化关系最为接近,在约19 Mya年前发生分化(图3a)。GO分析发现蝶蛹金小蜂基因组中,扩张基因家族富集在核小体装配、染色质组织、蛋白质分解代谢过程、细胞凋亡过程和对氧化应激的响应等通路;几丁质分解代谢过程和脂质代谢过程中显示出显著收缩的基因家族(图3b)。

蝶蛹金小蜂及其他12中代表性膜翅目昆虫系统发育分析。
毒液是影响寄生蜂成功寄生宿主的最重要工具之一。寄生蜂毒液包含许多生物活性化合物,可以操纵宿主的代谢和基因表达,从而为幼虫创造合适的环境。本研究对蝶蛹金小蜂基因组中的毒液蛋白编码基因进行了注释,研究了70个已被鉴定的毒液基因在染色体上的位置和分布。大多数毒液基因(52)散布在基因组中,不会串联排列;但是,涉及串联重复的三个毒液基因家族出现在三个不同的染色体上,表明可能由于串联重复而扩大了基因家族。
进一步的研究发现蝶蛹金小蜂基因组中P450基因的极显著扩张(图4)。蝶蛹金小蜂P450基因的扩张可能进化为用于克服宿主体内的不同代谢产物,例如植物来源的毒素和杀虫剂;也可能与其多样的寄主范围有关。

                                                 图4蝶蛹金小蜂中细胞色素P450基因

本研究是昆虫高质量基因组组装研究的极好范例,并将为寄生蜂分子生物学、系统进化及生物防治研究提供有价值的资源。

Science Advances |昆明动物研究所等多单位的合作研究揭示 脊椎动物异源多倍体亚基因组演化的动态历史

以下内容转载自 动物进化与遗传前沿交叉卓越中心,作者 罗 静
多倍化现象在脊椎动物中极为罕见;多倍体脊椎动物在多倍化发生和其后的二倍化进程中可能经历基因组休克效应。但对于相关演化遗传机制是什么、机制是否相同等问题,存在不同假说和许多尚待澄清的问题(PNAS 2016及其他文献)。在张亚平院士领导下,云南大学省部共建云南生物资源保护与利用国家重点实验室罗静教授、中科院昆明动物研究所吕雪梅研究员、湖南师范大学刘少军院士、南京农业大学陈增建教授、中国农业科学院农业基因组研究所阮珏研究员和厦门大学徐鹏教授等带领的团队联合攻关,以鲤亚科鱼类基因组为研究对象,对脊椎动物异源多倍体基因组的亚基因组演化问题进行了深入的研究。
由于鲤亚科鱼类在演化历史上可能经历了四轮之多的全基因组加倍事件,染色体数目达到约100条之多,且其第四轮全基因组加倍事件是伴随一次远缘杂交事件发生(Ma et al.2014.CurrMol Med),而这一类群的二倍体直系祖先均已灭绝,这为鲤亚科鱼类基因组的测序、组装和亚基因组鉴别引入巨大的难度(Xu et al. 2015.NatGenet; Xu et al. 2019.Nat Commun; Yang et al. 2016. BMC Biol.; Chen et al. 2019.Sci Adv)。团队合作通过利用长读长三代测序、Bionano光学图谱和染色质构象捕获测序技术对红鲫(goldfish, Carassius auratus red var.)基因组进行从头组装,获得50条染色体的单倍型参考基因组,完整性和准确性均高于近期发表的金鱼、鲤鱼基因组。同时基于鲤亚科、鲃亚科、裂腹鱼亚科代表物种的线粒体基因组和全基因组标记的系统发育树构建和比较,首次成功对红鲫两个亚基因组的母系和父系亲本来源进行了清晰的划分。
通过重建鲤亚科鱼类的多倍化演化历史,发现鲫鱼、鲤鱼和金线鲃共同起源于13.8~15.1百万年前的一次古异源多倍化事件。比较基因组学和多组织、多胚胎发育时期转录组和DNA甲基化的比较分析结果表明,红鲫与异源多倍体植物和爪蟾基因组中非对称的演化模式呈现明显不同:1)红鲫的父系和母系来源的亚基因组均没有显著的大规模非对称性丢失和演化速率偏向性,两个亚基因组在整个二倍化进程中一直经历交替的非对称性功能丢失;2)虽然两个亚基因组的同源基因对总体呈现平衡表达,有趣的是,两个基因拷贝随胚胎发育时间的推进发生表达优势的切换;3)同源基因拷贝的表达与DNA甲基化的变化呈负相关,但甲基化并不能解释同源基因对在胚胎发育进程中的表达优势切换模式,这提示可能存在更复杂的调控机制决定同源基因对的表达。以上结果说明异源多倍体物种的演化策略具有多样性。在多倍化之后的二倍化进程中,鲤亚科鱼类具有其独特的演化策略,以平衡亚基因组的稳定和多样化。这为研究异源多倍体脊椎动物的基因组演化和功能提供了新的思路。
该工作以“From asymmetrical to balanced genomicdiversification during rediploidization: subgenomic evolution in allotetraploidfish”为题发表在期刊Science Advances(https://advances.sciencemag.org/content/6/22/eaaz7677),云南大学的罗静教授,博士后柴静,中科院北京基因组研究所的博士生文艳玲,湖南师范大学的陶敏博士,云南大学的博士生林国亮为共同第一作者,张亚平院士、吕雪梅研究员、刘少军院士、陈增建教授、阮珏研究员和徐鹏教授为共同通讯作者。希望组科技服务在本研究中提供了PacBio、Bionano测序,基因组组装服务。
该研究得到了国家自然科学基金委、云南省科学技术厅、农业部现代农业体系建设专项资金、湖南省科技重大专项课题、第二次青藏高原综合科学考察研究、中国科学院“西部之光—西部引进人才”项目、博士后创新人才支持计划、中国博士后科学基金的支持。

1 红鲫基因组组装质量比较、共线性及鲤亚科鱼类多倍化演化历史重建。(A)本研究组装的红鲫基因组与前人发表的基因组共线性分析,提示光学图谱和Hi-C数据的辅助组装提升了多倍体基因组序列的连续性和准确度;(B) 红鲫与鲤鱼的亚基因组共线性分析结果;(C) 基于系统发育关系重建鲤亚科基因组的异源多倍化演化历史;(D) 基于单拷贝直系同源基因构建的物种树。