Plos Biology∣汤富酬课题组与希望组开发出单细胞转录组三代单分子测序新方法

2009年首个单细胞转录组测序技术问世,开启了单细胞组学时代(scRNA-seq)(Tang et al., 2009)。过去十余年间单细胞测序技术的不断发展极大地加速了生物医学领域的相关研究,帮助科研人员克服了稀有生物样本以及生物样本内生异质性等重大挑战,一系列模式生物及人类自身的单细胞转录组图谱也由此诞生。然而目前的单细胞测序技术几乎全都是基于二代测序平台,测序读长短,一般在150bp左右,即使采用双端测序技术,测得的有效读长也不超过500bp。而人类转录组中转录本的长度普遍在1000bp以上,有些转录本长度甚至超过100kb(Piovesan et al., 2016; Frankish et al., 2019),远远超过二代测序方法所能检测的最大读长。

为了解决基于二代测序平台的单细胞转录组测序技术难以获得单个细胞中全长转录本的准确信息这一核心困难, 2020年12月30日,北京大学未来基因诊断高精尖创新中心、生物医学前沿创新中心汤富酬课题组与北京希望组生物科技有限公司合作在Plos Biology上在线发表了题为“Single-cell RNA-seq analysis of mouse preimplantation embryos by third-generation sequencing”的研究论文。该研究的主要突破有:

1)开发了一种基于三代单分子测序平台的高灵敏度单细胞转录组测序方法—SCAN-seq (Single cell amplification and sequencing of full-length RNAs by Nanopore platform),能够在单细胞分辨率直接获取全长转录本序列信息,表现出高灵敏度和高稳健性,在小鼠胚胎干细胞每个单细胞中可以检测到8000多个基因的表达,与之前基于二代测序平台最灵敏的单细胞转录组测序方法不相上下(如图1所示)。

图1 SCAN-seq的流程和评估

2)鉴定出了30000多种全新的转录本。总共只测序了200多个单细胞就在小鼠胚胎干细胞(mESCs)和小鼠植入前胚胎中分别鉴定出6487条和27250种新转录本。相比基于二代测序平台的所有单细胞转录组测序方法,SCAN-seq能够区分新找到的转录本是来自同一已知转录本的新转录本,还是来自不同已知转录本已注释剪接点的重新组合的新转录本(如图2所示)。

图2 未注释转录本的鉴定

3)首次提出单细胞转录组三代测序数据可以将一个单细胞中的父母源转录本准确区分开、分别进行精准定量分析。SCAN-seq显示出在同一个单细胞中精准识别小鼠品系特异性单核苷酸多态性(SNPs)的能力,平均误差率只有1.8%。利用这一方法,在单细胞分辨率确认了小鼠2-细胞期后的胚胎细胞中父源等位基因的mRNA比例逐渐增加,到囊胚期时每个胚胎细胞中来自母源和父源等位基因的mRNA拷贝数变得相当(如图3所示)。

图3 等位基因特异性转录本的分析

该研究开发出的SCAN-seq新方法具有广阔的应用前景,能够克服单细胞转录组二代测序方法的各种局限性,将单细胞组学测序从“二”时代推进到“三”时代:(1)从一般只能测序单细胞中cDNA一端的有限信息,提升到能够测序单细胞中cDNA的全长信息;(2)从单细胞中一个基因的所有不同可变剪接产物(转录本)混合测量无法区分,提升到把单细胞中每个基因的所有不同可变剪接产物(转录本)精准分开;(3)从单细胞中一个基因的父母源表达信息混合在一起无法区分,提升到把单细胞中每个基因的父母源转录本精准分开;(4)从只能在单细胞中检测独特序列基因的转录本信息,提升到同时也能精准检测单细胞中高度重复序列的转录本信息;(5)从“一个基因,一个表型”的精度(one gene, one phenotype;人类基因组中有大约3万个基因),提升到“一种基因可变剪接转录本,一个表型”的精度(one RNA isoform, one phenotype;人类基因组中有大约30万种不同的可变剪接转录本)。总之,单细胞转录组三代单分子测序技术将揭开更多的转录组中“暗物质”的奥秘,给人类生物医学研究带来全新的发展机遇。

生物岛实验室研究员范小英、北京大学生命科学学院博士生廖雨涵和北京希望组生物科技有限公司汤冬硕士、李丕栋硕士为该论文的并列第一作者。北京大学未来基因诊断高精尖创新中心、生物医学前沿创新中心汤富酬教授与北京希望组王洋博士为该论文的共同通讯作者。该研究项目得到了国家自然科学基金委、北京市科技委和北京大学未来基因诊断高精尖创新中心的支持。

希望组作为三代测序的引领者,一直深耕三代测序领域,引进国际先进的PacBio Sequel II、ONT PromethION 48、MGISEQ2000、Bionano Saphyr光学图谱等技术平台,为科学研究和临床检测等提供多平台多水平的测序分析服务。利用单细胞结合三代测序平台,获取全长转录组信息,可为研究“一种基因可变剪接转录本,一个表型”打下夯实的基础。欲详细了解单细胞转录组三代测序服务及更多应用场景,可邮件联系sales-support@grandomics.com或联系希望组当地销售顾问。

参考文献:

  1. Tang, C. Barbacioru, Y. Wang, E. Nordman, C. Lee, N. Xu, X. Wang, J. Bodeau, B.B. Tuch, A. Siddiqui, et al. (2009). mRNA-Seq whole-transcriptome analysis of a single cell. Nature Methods, 6, 377-382.

Piovesan, A., Caracausi, M., Antonaros, F., Pelleri, M. C., & Vitale, L. (2016). GeneBase 1.1: A tool to summarise data from NCBI Gene datasets and its application to an update of human gene statistics. Database (Oxford), 2016, baw153.

Frankish, A., Diekhans, M., Ferreira, A. M., Johnson, R., Jungreis, I., Loveland, J., et al. (2019). GENCODE reference annotation for the human and mouse genomes. Nucleic Acids Res. 47, D766–D773.

项目文章丨兰州大学从全基因组水平揭示象草花青素积累和快速生长分子机制

近日,兰州大学草地农业科技学院联合广西畜牧研究所及国际家畜研究所共同合作的象草基因组研究成果以“The elephant grass (Cenchrus purpureus) genome provides insights into anthocyanidin accumulation and fast growth”为题在国际知名期刊《Molecular Ecology Resources》(3年IF=7.15)在线发表。希望组科技服务为本研究提供了Illumina、Nanopore和Hi-C测序服务,承担了基因组的组装及注释任务。该研究首次报道了象草的高质量染色体级别基因组,明确了象草的进化地位,在基因水平解析了紫色品种象草 “紫色”花青素积累的机制,并提出C4光合作用和激素信号转导通路的扩张可能有助于象草快速生长的新见解[1]

象草(Cenchrus purpureus Schumach)因大象爱采食而得名,是禾本科、黍族多年生大型草本植物,原产于亚洲。象草因其具有生物量大、生长快速、适应性强等特点,被用作重要的饲草作物在全世界热带及亚热带被广泛种植。此外,由于象草在生物能方面的优势也使其潜在的能源草。该研究是对象草研究的重大突破,为象草进化、性状改良和功能基因研究提供了理论基础。

图1 紫色象草

研究团队以紫色象草(Cenchrus purpureus cv. Purple)为材料,K-mer评估显示象草具有较高杂合(1.5%)。利用Illumina、Nanopore、Hi-C测序。采用NextDenovo + SMARTdenovo策略组装获得1.97Gb的基因组, Contig N50 为1.83Mb,最长Contig达到15.1Mb。结合Hi-C数据对基因组辅助染色体挂载及遗传连锁图谱,得到14条染色体,挂在率为96.65%。BUSCO评估结果达 97.8%,预测注释基因65,927个。

图2 象草亚基因组特征

象草为异源四倍体(2n=4x=28),包含A’和B两个亚基因组。研究表明同属二倍体植物珍珠粟(Cenchrus  americanus,2n=2x=14)的A基因组与象草A’基因组具有更高同源性。通过共线性分析研究者成功将象草的A’和B两个亚组区分开来,并利用单拷贝基因分析证明象草A’亚基因组和珍珠粟A基因组具有较近的同源性。象草A’A’BB的异源四倍体基因组大约起源于6.61 (4.11-10.92)MYA,并发生了较大的染色体重组。此外,研究者还利用转录组分析了象草亚基因组显性表达,结果表明其可能行使不同的功能。

图3 紫色象草花青素积累机制

紫色象草品种的叶片呈现紫色,一般认为苯丙类、黄酮类、花青素生物合成途径与叶片色素沉积有关。研究者从基因组和转录组层面对象草叶片紫色呈现进行了研究。比较基因组和转录组分析表明,象草关键酶基因苯丙氨酸解氨酶(PAL)、肉桂酸4-羟化酶(C4H)、4-香豆酸辅酶a连接酶(4CL)、查耳酮合酶(CHS)和黄烷酮醇 4 -还原酶(DFR)、类黄酮-3-O-葡糖基转移酶(3GT)发生了扩张并在叶片中显著高表达,其中4CL和DFR在进化过程中受到正选择。 
C4植物通常在碳固定方面效率更高,具有更高的用水效率,有助于它们在干燥环境中生存。C4植物可根据维管束鞘细胞中脱羧方式的不同分为3个亚类,即NAD-ME、NADP-ME和PEPCK。研究者分析了象草中涉及C4碳固定的九个主要基因家族,包括酶和代谢物转运体,比较基因组分析发现它们在象草中发生了扩张。转录组的结果表明这些关键酶和代谢物转运体在光合主要器官叶片中显著高表达,并且发现C4的3个亚类共同存在于象草中。另外,植物激素也是控制植物生物过程(发育过程、信号网络以及对生物和非生物胁迫的反应)的重要因素。研究者从基因组和转录组层面对激素信号转导相关通路进行了分析,发现参与细胞增大和细胞分裂等基因家族在象草中发生扩张并在茎间组织中高表达。这些结果可能为象草的快速生长及高生物量具有重要意义。

图4 象草C4光合途径

该研究利用报道的高质量的象草基因组、解析了花青素合成及快速生长机制,为象草作为优良饲草和潜在能源草的分子改良育种具有重要意义。此外,对于该属的进化以及其它物种的开发利用提供了重要资源。兰州大学草地农业科技学院张吉宇教授为通讯作者、广西畜牧研究所易显凤研究员、国际家畜研究所Jones Chris博士为共同通讯作者。兰州大学草地农业科技学院博士生闫启为第一作者、团队博士生吴凡、许攀和希望组孙宗毅为共同第一作者。

1. Yan Q, Wu F, Xu P, Sun ZY, Li J, Gao LJ, Lu LY, Chen DD, Muktar M, Jones C, Yi XF, Zhang JY. The elephant grass (Cenchrus purpureus) genome provides insights into anthocyanidin accumulation and fast growth. Mol Ecol Resour 2020, doi:10.1111/1755-0998.13271

Plant Journal| 如何通过全长转录组发表一区文章?异源多倍体应用实例

三代全长转录组在动植物转录本水平的研究优势越来越明显,然而基于全长序列得到的完善的转录本结构,如何发表一篇高质量文章还值得不断探索。由于高重复、高杂合性以及二代测序技术的局限,大量多倍体物种的转录组信息还没有完全且准确的挖掘出来,尤其是在可变剪接(Alternative Splicing,AS)和可变多聚腺苷酸化(Alternative Polyadenylation,APA)方面,蕴藏着复杂的转录后调控机制,通过对转录本结构的全面解析,有助于深入研究多倍体物种的基因功能和品系优势。

近日,农业部油料作物生物学与遗传育种重点实验室刘胜毅课题组联合湖北大学,在the Plant Journal杂志在线发表题为“A global survey of the transcriptome of the allopolyploid Brassica napus based on single molecule long-read isoform sequencing and Illumina-based RNA-seq data”的研究文章。本文结合了三代测序技术(Pacbio)和二代测序(Illumina),在转录本水平上探索甘蓝型油菜Brassica napus转录组的复杂性。这些数据提供了丰富的转录组资源,这将有利于基因组的重新注释,加强我们对B. napus转录本的了解,并应用于功能基因组的进一步研究。童超波研究员为通讯作者,姚胜黎为第一作者,希望组梁帆为共同作者。希望组参与了本文中的PacBio测序和分析工作。

研究思路

选择甘蓝型油菜栽培种“ZS11”,取不同发育时期的叶片、根、花芽、角果、愈伤组织等,提取总RNA后等量混合进行三代测序(Iso-Seq),各样本分别进行二代转录组测序。三代测序选用PacBio RS II平台,构建4个文库,共测31cell0-1 kb 5cell1–2 kb 10cell2–3 kb 10cell>3 kb 6cell。二代测序选用HiSeq 4000 平台,每个组织部位2-3个重复,共测123M reads

主要结果

1    特征数据统计

三代数据共得到1161468个ROI,其中72.2%是全长非嵌合序列。47%的全长序列唯一比对到基因组,三代测到的转录本平均长度为2487 bp,明显长于基因组上已有注释的转录本平均长度。矫正后,单碱基错误率降至 1.50%( 0.26% insertions, 0.27% deletions and 0.97% mismatches),校正后,BUSCO比对的完整性提升到83%。

转录本平均长度

2    已有数据横向比较

将Ensembl Plants Database中已有的cDNA序列与本次测得序列比较,数据库中的26346个序列与PacBio测得的63714个序列匹配上,且PacBio测到的全长cDNA更长。将非冗余的147698个转录本和之前已经测序的Darmor-bzh进行比较,发现有142476个转录本能够覆盖到37403个基因位点,其中31392个基因位点是多外显子基因。未比对上这个基因组的5222个转录本中,有4947个转录本可以比对到近源物种(拟南芥,白菜,甘蓝),这表明有些转录本可能是栽培种ZS11特有的。

 

3    可变剪接

共检测到222061个可变剪接事件,来自15068个基因位点,主要是内含子保留(IR),其中128967个转录本是现有基因组上未注释到的。统计显示,20230个多外显子基因有用多个剪接异构体,其中5761个基因能够产生5种以上异构体。比如,BnaC01g03120D在基因组注释上仅有1个转录本,但是PacBio测到了14个不同的剪接异构体。另外发现,可变剪接在An亚基因组中更为普遍。

2  BnaC01g03120D转录本可视化

4   LncRNA鉴定及验证

鉴定到20个已知lncRNA,529个新lncRNA,平均长度1.7 kb,lncRNA具有明显组织特异性。两个亚基因组中的同源基因分别产生了54和53个lncRNA,结果表明两个亚基因组的贡献是相等的。

各样品中lncRNA的表达量

5    APA分析

分析poly(A)位点的侧翼序列,发现上游富集尿嘧啶(U)和下游富集腺嘌呤(a)的核苷酸偏好明显。在polyA的上游,我们鉴定到了两个保守的加A信号,AAUAAA和UGUA。从两个亚基因组得同源基因对中分别鉴定到13812和14184个poly(A)位点,3299和3522个APA基因。An亚基因组的同源基因对polyA位点产生的贡献小于Cn亚基因组的同源基因。

4  MEME分析转录本中的poly(A)信号

6   转录本水平定量
以愈伤组织作为参考,和其他组织两两比较,探究温度、组织对AS的影响,结果显示大多数AS差异事件在HS-callus VS callus中被识别,说明环境因素对AS事件的影响大于组织分化。热处理愈伤组织后,发生特异性AS的基因主要与膜外壳、蛋白靶向、转录因子活性、定位、温度刺激响应和细胞过程的正向调控有关。

各组间差异AS事件统计

亮点总结

  • Ø  将测序数据分别与现有数据库、近源物种比较,锁定品系特有基因集,为品种优势研究奠定基础;
  • Ø  将ROI比对到不同的亚基因组上,区分不同亚基因组对AS、APA和lncRNA的贡献度;
  • Ø  针对AS、APA和lncRNA进行大量的RT-PCR验证;
  • Ø  二代定量和三代定性相结合,引入科学问题“温度、组织对AS的影响程度”,通过组间比较找到关键影响因素和相关基因。

希望组最新引进Sequel II,拥有成熟分析流程,更多方案设计和前沿资讯,欢迎垂询!

项目文章|物种形成研究揭示峨眉锥栗的杂交起源和生殖隔离位点的非均匀分布

研究同倍体杂交物种形成的难点在于,检验杂交直接影响生殖隔离的形成。如果我们能观测到生殖隔离位点呢?

西双版纳植物园孙永帅团队在Nature Communications发表了题为Genomic basis of homoploid hybrid speciation within chestnut trees的研究论文,该研究以中国特有的峨眉锥栗研究系统为材料,应用进化生态基因组学研究方法,发现了一个树木杂交物种以及生殖隔离位点的分布式样。

 

物种形成模型可分为二歧分支式物种形成和杂交物种形成。二歧分支模型中,每个物种只对应一个祖先群体。杂交物种则源自于两个或多个类群。进一步地,杂交成种分为多倍体杂交成种和同倍体杂交物种形成。多倍体物种形成较常见于植物界。而同倍体杂交物种形成类群颇为少见。迄今,有5个认可度较高的同倍体杂交物种形成类群,均分布在美洲。

 

现存物种及类群间的生殖隔离强度往往高于其祖先群体间的隔离强度。孙永帅团队将这一原理引入到进化生态学与基因组学交叉研究中。即,在与生殖隔离关联的基因组区域上,现存类群间的基因流应低于其祖先群体间的基因流。在生殖隔离位点上,亲本物种的等位基因往往因环境、遗传限制而不能共存。基于这些原理,该团队应用群体基因组学方法鉴定了中华板栗(也称板栗)和锥栗的生殖隔离位点,进而用之检验峨眉锥栗是否起源于板栗和锥栗间杂交。与此前研究报道的5个同倍体杂交成种的实验设计不同,在峨眉锥栗杂交系统中,板栗和茅栗的姐妹种对关系为鉴定板栗和锥栗的生殖隔离位点提供了天然对照和便利(图1)。

 

该研究首先用多个方法分析峨眉锥栗与板栗、锥栗的遗传差异,为峨眉锥栗的分类地位提供了基因组学证据。然后,采用hhs方法、溯祖模型比较分析等对峨眉锥栗的杂交起源过程进行解析,并估算亲本物种对峨眉锥栗基因组的相对贡献。随后,该研究鉴定了与生殖隔离关联的候选基因组位点。在峨眉锥栗基因组中,仅6个生殖隔离位点来自于板栗。基因功能注释分析发现两个花期关联基因位于本研究鉴定的生殖隔离关联位点上。这些结果表明,亲本物种间生殖隔离位点的重新组合可为新物种形成的重要机制。深入分析发现,候选生殖隔离位点偏集中分布于基因组的低重组区域。研究认为,自然选择和遗传重组间互作塑造了峨眉锥栗基因组的进化过程。

 

西双版纳植物园植物进化生态学研究组孙永帅博士为研究论文的第一作者和通讯作者。该项研究得到了国家自然科学基金委,中国科学院和云南省的经费支持。

1. 4个栗属Castanea类群的样品采集地(a)、演化关系(b)、遗传结构(c),以及板栗基因组的重组率分布以及生殖隔离位点的分布式样(d)

项目文章| 三代测序助力蝶蛹金小蜂高质量基因组发布

近日,浙江大学叶恭银教授与方琦副教授团队联合美国罗彻斯特大学和美国密苏里大学,在Molecular Ecology Resources杂志在线发表题为“A Chromosome-Level Genome Assembly of the Parasitoid Wasp Pteromalus Puparum的研究论文。该研究利用三代测序技术组装出了蝶蛹金小蜂高质量的染色体水平基因组,为寄生蜂的分子生物学、系统进化和生物防治研究提供了有价值的资源。浙江大学博士生叶昕海、严智超博士(现为南京农业大学副教授)、博士生杨义为论文共同第一作者,浙江大学叶恭银教授与方琦副教授、美国罗彻斯特大学John H. Werren教授为本文共同通讯作者。此外,浙江大学李飞教授、姚洪渭副教授,美国密苏里大学宋齐生教授等共同参与完成此项研究工作。希望组承担了本研究中二代、三代测序及Hi-C测序工作。
膜翅目寄生蜂在农田生态系统中是一类非常重要的生物防治的昆虫,蝶蛹金小蜂(Pteromalus puparum)是十字花科蔬菜害虫菜粉蝶蛹期优势内寄生蜂。它能够将一种或多种寄生因子注入寄主体内,用来抑制寄主免疫、调控寄主生长发育和营养代谢等生理活动,是研究寄生蜂与宿主相互作用的理想实验室模型。

                                                      图1蝶蛹金小蜂在其寄主菜粉蝶上的生活史

本研究结合短读长、长读长测序和Hi-C技术,生成了高质量染色体水平蝶蛹金小蜂基因组装配。组装的基因组大小为338 Mb,contig N50为38.7 kb,scaffold N50为1.16 Mb,结合Hi-C数据将scaffold组装到5条染色体上,scaffold N50提升至65.8 Mb,其中96%以上的组装碱基位于染色体上。基因组BUSCO评估达98%,表明该装配具有很高的完整性,为后续研究提供了极好的基因组资源。

                                图 2 蝶蛹金小蜂基因组景观。I 5条染色体;II 重复序列密度;III 基因密度;IV GC含量。

研究者利用蝶蛹金小蜂及其他12中代表性膜翅目昆虫的3399个单拷贝基因构建系统发育树,蝶蛹金小蜂与丽蝇蛹金小蜂进化关系最为接近,在约19 Mya年前发生分化(图3a)。GO分析发现蝶蛹金小蜂基因组中,扩张基因家族富集在核小体装配、染色质组织、蛋白质分解代谢过程、细胞凋亡过程和对氧化应激的响应等通路;几丁质分解代谢过程和脂质代谢过程中显示出显著收缩的基因家族(图3b)。

蝶蛹金小蜂及其他12中代表性膜翅目昆虫系统发育分析。
毒液是影响寄生蜂成功寄生宿主的最重要工具之一。寄生蜂毒液包含许多生物活性化合物,可以操纵宿主的代谢和基因表达,从而为幼虫创造合适的环境。本研究对蝶蛹金小蜂基因组中的毒液蛋白编码基因进行了注释,研究了70个已被鉴定的毒液基因在染色体上的位置和分布。大多数毒液基因(52)散布在基因组中,不会串联排列;但是,涉及串联重复的三个毒液基因家族出现在三个不同的染色体上,表明可能由于串联重复而扩大了基因家族。
进一步的研究发现蝶蛹金小蜂基因组中P450基因的极显著扩张(图4)。蝶蛹金小蜂P450基因的扩张可能进化为用于克服宿主体内的不同代谢产物,例如植物来源的毒素和杀虫剂;也可能与其多样的寄主范围有关。

                                                 图4蝶蛹金小蜂中细胞色素P450基因

本研究是昆虫高质量基因组组装研究的极好范例,并将为寄生蜂分子生物学、系统进化及生物防治研究提供有价值的资源。

Science Advances |昆明动物研究所等多单位的合作研究揭示 脊椎动物异源多倍体亚基因组演化的动态历史

以下内容转载自 动物进化与遗传前沿交叉卓越中心,作者 罗 静
多倍化现象在脊椎动物中极为罕见;多倍体脊椎动物在多倍化发生和其后的二倍化进程中可能经历基因组休克效应。但对于相关演化遗传机制是什么、机制是否相同等问题,存在不同假说和许多尚待澄清的问题(PNAS 2016及其他文献)。在张亚平院士领导下,云南大学省部共建云南生物资源保护与利用国家重点实验室罗静教授、中科院昆明动物研究所吕雪梅研究员、湖南师范大学刘少军院士、南京农业大学陈增建教授、中国农业科学院农业基因组研究所阮珏研究员和厦门大学徐鹏教授等带领的团队联合攻关,以鲤亚科鱼类基因组为研究对象,对脊椎动物异源多倍体基因组的亚基因组演化问题进行了深入的研究。
由于鲤亚科鱼类在演化历史上可能经历了四轮之多的全基因组加倍事件,染色体数目达到约100条之多,且其第四轮全基因组加倍事件是伴随一次远缘杂交事件发生(Ma et al.2014.CurrMol Med),而这一类群的二倍体直系祖先均已灭绝,这为鲤亚科鱼类基因组的测序、组装和亚基因组鉴别引入巨大的难度(Xu et al. 2015.NatGenet; Xu et al. 2019.Nat Commun; Yang et al. 2016. BMC Biol.; Chen et al. 2019.Sci Adv)。团队合作通过利用长读长三代测序、Bionano光学图谱和染色质构象捕获测序技术对红鲫(goldfish, Carassius auratus red var.)基因组进行从头组装,获得50条染色体的单倍型参考基因组,完整性和准确性均高于近期发表的金鱼、鲤鱼基因组。同时基于鲤亚科、鲃亚科、裂腹鱼亚科代表物种的线粒体基因组和全基因组标记的系统发育树构建和比较,首次成功对红鲫两个亚基因组的母系和父系亲本来源进行了清晰的划分。
通过重建鲤亚科鱼类的多倍化演化历史,发现鲫鱼、鲤鱼和金线鲃共同起源于13.8~15.1百万年前的一次古异源多倍化事件。比较基因组学和多组织、多胚胎发育时期转录组和DNA甲基化的比较分析结果表明,红鲫与异源多倍体植物和爪蟾基因组中非对称的演化模式呈现明显不同:1)红鲫的父系和母系来源的亚基因组均没有显著的大规模非对称性丢失和演化速率偏向性,两个亚基因组在整个二倍化进程中一直经历交替的非对称性功能丢失;2)虽然两个亚基因组的同源基因对总体呈现平衡表达,有趣的是,两个基因拷贝随胚胎发育时间的推进发生表达优势的切换;3)同源基因拷贝的表达与DNA甲基化的变化呈负相关,但甲基化并不能解释同源基因对在胚胎发育进程中的表达优势切换模式,这提示可能存在更复杂的调控机制决定同源基因对的表达。以上结果说明异源多倍体物种的演化策略具有多样性。在多倍化之后的二倍化进程中,鲤亚科鱼类具有其独特的演化策略,以平衡亚基因组的稳定和多样化。这为研究异源多倍体脊椎动物的基因组演化和功能提供了新的思路。
该工作以“From asymmetrical to balanced genomicdiversification during rediploidization: subgenomic evolution in allotetraploidfish”为题发表在期刊Science Advances(https://advances.sciencemag.org/content/6/22/eaaz7677),云南大学的罗静教授,博士后柴静,中科院北京基因组研究所的博士生文艳玲,湖南师范大学的陶敏博士,云南大学的博士生林国亮为共同第一作者,张亚平院士、吕雪梅研究员、刘少军院士、陈增建教授、阮珏研究员和徐鹏教授为共同通讯作者。希望组科技服务在本研究中提供了PacBio、Bionano测序,基因组组装服务。
该研究得到了国家自然科学基金委、云南省科学技术厅、农业部现代农业体系建设专项资金、湖南省科技重大专项课题、第二次青藏高原综合科学考察研究、中国科学院“西部之光—西部引进人才”项目、博士后创新人才支持计划、中国博士后科学基金的支持。

1 红鲫基因组组装质量比较、共线性及鲤亚科鱼类多倍化演化历史重建。(A)本研究组装的红鲫基因组与前人发表的基因组共线性分析,提示光学图谱和Hi-C数据的辅助组装提升了多倍体基因组序列的连续性和准确度;(B) 红鲫与鲤鱼的亚基因组共线性分析结果;(C) 基于系统发育关系重建鲤亚科基因组的异源多倍化演化历史;(D) 基于单拷贝直系同源基因构建的物种树。

项目文章|Nanopore测序破译栽培桑树基因组,解决桑树物种分类、染色体组倍性争议,揭示湖桑起源之谜

516日,西北农林科技大学蚕桑丝绸研究所、动物科技学院和西南大学家蚕基因组生物学国家重点实验室、蚕学与系统生物学研究所等多家单位联合在Molecular Plant在线发表题为“Chromosome-level reference genome and population genomic analysis provide insight into the evolution and improvement of domesticated mulberry (Morus alba L)”的论文,首次报道了栽培桑树的高质量参考基因组,明确了栽培桑树为二倍体,在分子水平对桑树种质进行重新分类,并提出湖桑品种起源的新见解。该研究是桑树学研究的重大突破,为桑树进化、性状改良和功能基因研究提供了理论基础,改变了桑树基础研究进展迟滞的局面,为解决生产瓶颈问题提供了理论依据。西北农林科技大学焦锋副教授,博士生罗荣松、代学雷和刘慧为共同第一作者,西北农林科技大学钱永华教授、姜雨教授和西南大学赵爱春教授为共同通讯作者。希望组科技服务为本研究提供了NanoporeHi-C测序服务。
栽培桑树白桑(Morus alba)的染色体倍性是一个存在广泛争议的问题,早在20世纪初有研究认为白桑是二倍体,具有28条染色体(2n=2x=28),而2013年野生种川桑基因组公布,川桑为包含14条染色体的二倍体,据此有学者推测栽培桑树是四倍体,染色体基数为7 

1 “荷叶白”的植物形态、核型分析和基因组组装结果。

研究者选择栽培桑树“荷叶白”(又名湖桑32号)为研究对象(图1ABC)。核型分析表明,栽培桑树“荷叶白”的体细胞有丝分裂过程和花粉母细胞减数分裂过程中,28条染色体形成规则的14对二价体(图1D)。利用Nanopore+短读长+Hi-C策略进行基因组测序和组装,最终获得了基因组大小为346.39 Mbscaffold N5022.87 Mb的栽培桑树基因组(图1E)。利用该高质量基因组进行系统发育树构建,发现野生川桑和栽培桑树分化时间已有10.1个百万年(图2A)。与葡萄和桃树基因组共线性分析发现,栽培桑树基因组除了具有双子叶植物共有的γ古六倍化事件之外,没有新的全基因组加倍(WGD)事件发生。因此,栽培桑树基因组为二倍体,并非来源于野生川桑基因组的同源或异源加倍。

2 A)白桑(Morus alba)与川桑(M. notabilis)的分化距离在~10.1个百万年左右,(B)白桑与葡萄(Vitis. vinifera)和桃(Prunus persica)基因组共线性分析。

现有栽培桑树按照形态学特征分为白桑、鲁桑、山桑、广东桑和瑞穗桑五个种,并不能真实反映桑树品种之间的系统发育关系。本研究收集了132分栽培桑树种质(除广东桑外)进行重测序,获得了14.27Mb的单核苷酸多态性(SNP)数据,利用该数据构建系统发育树,没有得到与形态分类相似的聚类结果,在分子水平将白桑、鲁桑、山桑和瑞穗桑这4种栽培桑树种鉴定为同一物种,即白桑(Morus alba L)。

3 134份桑树种质资源的群体结构、核酸多样性分析

群体结构分析将134份栽培桑树种质划分为三个大群:中国湖桑群体,中国北方和西南群体,日本群体(图3A)。系统发育和主成分分析均表明中国桑树群体与日本桑树群体遗传距离较远,湖桑与来自于北方和西南地区的桑树具有明显的分化距离(图3BCD)。遗传多样性分析显示,湖桑的遗传多样性只有其他群体的一半,有强烈的人工选择痕迹。因此,太湖流域的湖桑与其他桑树群体在更早时期就已分开,成为一个独特的品种支系。同时自唐代以来,我国桑蚕业核心区域南移,湖桑作为独立种质资源受到了江南人民持续有目的的选育。这与崧泽遗址的孢粉学研究和吴兴钱山漾考古学证据可以相互印证。

总之,本研究利用Nanopore测序和Hi-C技术首次报道了栽培桑树白桑“荷叶白”的参考基因组,并证实28条染色体的栽培桑树属于二倍体。首次用基因组数据明确了栽培桑树物种分类,认为白桑、鲁桑、山桑和瑞穗桑都属于一个物种,即白桑(Morus alba L)。同时本研究还证实,分布于江浙地区的湖桑是经过长期的强烈人工选择之后形成的一个独特品种支系,阐明了湖桑的起源进化关系。本研究为桑树进化、性状改良和功能基因研究提供了理论基础,改变了桑树基础研究进展迟滞的局面,为解决生产瓶颈问题提供了理论依据。

马尾松毛虫——首个枯叶蛾科昆虫染色体水平基因组

近日,中国林业科学研究院森林生态环境与保护研究所、首都师范大学、中国科学院植物生理生态研究所、希望组科技服务等多家单位,联合在Molecular Ecology Resources期刊发表题为”Chromosome-level genome assembly of an important pine defoliator,Dendrolimus punctatus (Lepidoptera; Lasiocampidae)”的研究论文。该研究利用三代测序技术结合Hi-C技术组装出马尾松毛虫染色体水平基因组,为这一重要林业害虫的生物学过程、功能与进化研究提供了重要遗传资源。中国林业科学研究院森林生态环境与保护研究所张苏芳副研究员为第一作者。中国林业科学研究院森林生态环境与保护研究所张真研究员,首都师范大学生命科学学院张爱兵教授,中国科学院植物生理生态研究所黄勇平研究员、詹帅研究员,以及希望组韩玲玲博士为共同通讯作者。希望组彭炯、任平平为本研究共同作者。希望组承担了该研究中三代测序、组装和部分分析工作。

松毛虫(Dendrolimus是鳞翅目、枯叶蛾科、松毛虫属的统称,是发生量大、危害严重的主要森林害虫。其中的典型代表,马尾松毛虫(Dendrolimus punctatus)幼虫取食松针,爆发期间连片松林数日内被蚕食精光,远看枯黄、焦黑,如同火烧一般,常称为“不冒烟的森林火灾”,给林业生产造成重大的经济损失。然而,从分子生物学角度对松毛虫成灾机理方面的探索比还较少,限制了我们深入理解其成灾的内部分子机理。因此,亟待从其本身的遗传和基因组角度深入探究松毛虫的成灾机制,才能形成更加有效的可持续控制体系。

马尾松毛虫生活史。(a)  (b) 幼虫 (c)  (d) 雌性成虫 (e) 雄性成虫

本研究以自然群体中马尾松毛虫雌性成虫为样本,k-mer分析显示基因组大小约为596.1Mb,杂合度1.70%,属于高杂合基因组。随后,利用PacBio测序技术结合Hi-C染色体构象捕获技术,组装出包含30条染色体的马尾松毛虫高质量基因组。最终版本基因组大小为614 Mbcontig N501.39 Mbscaffold N50 22.15 MbHi-C挂载率为 96.96%。组装基因组质量评估发现,99.7%的短读长数据会比至基因组,BUSCO完整性评估达到96.4%,表明组装出的马尾松毛虫基因组序列完整、错误率低。研究者将马尾松毛虫分别与两个鳞翅目昆虫(斜纹夜蛾、家蚕)基因组进行比较,基因共线性程度高,符合前人提出的鳞翅目昆虫基因位点或共线性排序相似的研究结论,再次证实马尾松毛虫的高质量基因组。马尾松毛虫基因组共注释到17,593个蛋白编码基因,其中15,914个基因获得了功能注释,重复序列占全基因组的56.16%

马尾松毛虫染色体水平组装。(a) 马尾松毛虫Hi-C热图。 (b) 马尾松毛虫与斜纹夜蛾基因组共线性图。 (c) 马尾松毛虫与家蚕基因组共线性图。
利用马尾松毛虫与其他11种昆虫的1,170个单拷贝直系同源基因构建系统发育树。小菜蛾(P. xylostella)位于鳞翅目昆虫进化枝的最基部,马尾松毛虫与家蚕亲缘关系最接近,并可能与美国白蛾额、斜纹夜蛾、松异舟蛾的共同祖先在108.91百万年前发生分化。发生分化后,马尾松毛虫有2,104个基因家族发生扩张,1,900个基因家族收缩。扩增的基因家族中与外源化合物降解和解毒系统相关的基因显著富集。

马尾松毛虫与其他11种昆虫的系统发育树

随后研究者在马尾松毛虫基因组中鉴定了与解毒相关的基因家族,并与其他鳞翅目昆虫的相似基因家族进行了比较。马尾松毛虫中共鉴定到132P450基因,转录组数据显示编码P450的基因表现出幼虫偏倚的表达模式。马尾松毛虫中P450基因家族的CYP3族相比家蚕有明显的扩张,既往研究表明,CYP3家族成员参与了外源化合物代谢和杀虫剂抗性,并与宿主植物的某些防御化学物质的耐受性有关。马尾松毛虫CYP3家族基因进化扩展和幼虫期表达偏倚可能与对松针抗性化合物的耐受性有关。

4 (a)P450基因在马尾松毛虫四个发育时期表达情况。(b) 马尾松毛虫(红点)与家蚕基因组中P450基因的三个族。

高质量的马尾松毛虫基因组将为在基因组水平研究这一重要林业害虫的各种生物学过程提供机会,并将为马尾松毛虫和其他枯叶蛾科昆虫的功能和进化研究提供有价值的资源。

第二弹—希望组2020三代基因组文章集锦-动物篇

动物基因组一直以来都是组学研究领域的热门,近年来越来越多的动物基因组研究极大地推动了人们对于人类起源、物种演化、医学、病虫害防治及濒危动物的保护等方面的认知及研究。今年以来希望组多平台动物基因组研究也是成果丰硕,下面就由组学君给大家分享几篇昆虫和水产方向案例文章,与您一起探讨动物基因组的奥秘!
重要农业害虫温室白粉虱
Chromosome-level genome assembly of the greenhouse whitefly (Trialeurodes vaporariorum Westwood)合作单位:中国农业科学院蔬菜花卉研究所发表期刊:Molecular Ecology Resources

影响因子:7.049

发表日期:2020.03.27

三代测序平台:PacBio Sequel

温室白粉虱(Trialeurodes vaporariorum Westwood)与烟粉虱是两类分布广泛、危害严重的农业害虫,能够危害蔬菜、花卉、果树等112个科653种植物,并且对多种杀虫剂具有抗性。目前已有多个烟粉虱基因组被测序组装,而白粉虱仍缺少高质量的参考基因组。本研究利用Illumina+PacBio策略组装出787.4 Mb的白粉虱基因组,随后利用Hi-C数据将778.0 Mb (98.8 %)的序列挂载至11条假染色体(Scaffold N50=70Mb, BUSCO 93.4%)。系统发育分析表明白粉虱与烟粉虱在87.27百万年前(Mya)发生分化,远早于烟粉虱不同生物型的分化时间。白粉虱与烟粉虱的比较基因组分析发现,4个天冬氨酸蛋白酶家族在白粉虱基因组中有显著扩张,可能与其特有的寄主偏好性有关。白粉虱与烟粉虱基因组之间有13个P450基因存在共线性,并且白粉虱基因组中细胞色素CYP6亚家族中的4个基因表现出显著的扩张,这些基因可能在白粉虱对新烟碱类化合物的代谢和抗药性中起重要作用。本研究公布的高质量白粉虱基因组,为粉虱科农业害虫的害虫抗性管理和抗药性研究提供了重要资源。

图1温室白粉虱与烟粉虱不同生物型基因组关键指标比较

中国特有鱼类黑尾近红鲌
High-quality genome assembly and transcriptome of Ancherythroculter nigrocauda,an endemic Chinese cyprinid species合作单位:九江学院药学与生命科学学院发表期刊:Molecular Ecology Resources

影响因子:7.049

发表日期:2020.03.26

三代测序平台:PacBio Sequel

黑尾近红鲌(Ancherythroculter nigrocauda)属于鲤科近红鲌属,是我国特有物种和重要的长江经济鱼类。黑尾近红鲌迄今尚未有参考基因组,限制了对其生物学特性的深入分析以及优质种苗的选育。研究者利用Illumina+PacBio策略装出1.04Gb的黑尾近红鲌基因组,contig N50为3.12Mb。结合Hi-C数据将97.2%序列挂载到24条染色体上,BUSCO数据库评估该基因组完整性为95.6%。注释结果显示,黑尾近红鲌基因组共预测到34,414个蛋白编码基因,其中27,042个基因(78.5%)得到功能注释,含有56.1%转座子序列。随后研究者利用12个脊椎动物基因组中的712个单拷贝直系同源基因构建系统发育树,发现黑尾近红鲌与武昌鱼亲缘关系最近并于8.79百万年前分化。黑尾近红鲌与普通鲤鱼、武昌鱼、草鱼、斑马鱼和日本青鳉的比较基因组分析发现,黑尾近红鲌基因组中有366个基因家族发生了扩张,有72个正向选择基因。大部分扩张基因家族和正向选择基因在黑尾近红鲌脑部高表达,表明这些基因可能在黑尾近红鲌的大脑发育中发挥重要作用。转录组数据分析发现,在黑尾近红鲌10个组织中,与环境信息处理、循环系统和生长发育等相关的10,732个基因的表达具有组织特异性。该高质量基因组为黑尾近红鲌种群保护及功能基因组学研究提供了宝贵资源。

图2 黑尾近红鲌24条染色体Hi-C热图

法医昆虫学重要物种巨尾阿丽蝇
Chromosome-level genome assembly of Aldrichina grahami, a forensically important blowfly合作单位:中南大学基础医学院发表期刊:GigaScience

影响因子:4.688

发表日期:2020.03.19

三代测序平台:PacBio Sequel

巨尾阿丽蝇(Aldrichina grahami)是重要的法医昆虫学物种,它的生长发育速度和生命周期可以为死亡时间推断提供重要信息;其肠道内容物中提取的人类DNA物质,可以为案件侦破提供新的切入点和线索。巨尾阿丽蝇基因组尚未公布,这阻碍了它在法医研究中的进一步应用。本研究利用PacBio+Hi-C策略组装出包含6条染色体的巨尾阿丽蝇基因组,contig N50 为1.93 Mb,基因组完整性评估BUSCO达到了99.2%,基因组连续性与完整性均高于其他4个双翅目有瓣蝇类。基因组注释发现,巨尾阿丽蝇基因组包含48.02%的重复序列,共预测到12,823个蛋白编码基因,其中99.8%的基因获得功能注释。利用11个物种的2,989个单拷贝基因进行系统发育分析,巨尾阿丽蝇与铜绿蝇聚在同一分支,并且在约26百万年前分化。基因家族分析表明,巨尾阿丽蝇有102个扩张的基因家族和280个收缩的基因家族,还有198个基因家族在基因组中丢失。最后研究者绘制了巨尾阿丽蝇与黑腹果蝇基因组共线性图,以及巨尾阿丽蝇染色体上的基因密度分布图。高质量的巨尾阿丽蝇基因组资源将有助于加深对其独特生物学特征的理解,从而增强昆虫学证据的可靠性,促进其在刑事司法调查中的应用。

图3 (A)巨尾阿丽蝇与黑腹果蝇基因组共线性图;(B)巨尾阿丽蝇染色体基因密度分布图

重要商品蟹三疣梭子蟹
Chromosome-level genome assembly reveals the unique genome evolution of the swimming crab (Portunus trituberculatus)合作单位:盐城师范学院、西北工业大学发表期刊:GigaScience

影响因子:4.688

发表日期:2020.03.26

三代测序平台:Nanopore

梭子蟹(Portunus trituberculatus)是我国重要的商品蟹种,广泛分布于渤海、黄海、东海、南海等沿海水域。过度捕捞导致梭子蟹自然种群大幅下降,目前已开始人工养殖。本研究利用BGISEQ+Nanopore+Hi-C策略组装出三疣梭子蟹染色体水平基因组,为梭子蟹的生殖研究提供重要资源。梭子蟹基因组初步组装大小为1.00 Gb,Contig N50为4.12 Mb,随后结合Hi-C数据组装出梭子蟹的50条染色体,Scaffold N50 高达21.79 Mb,基因组完整性评估BUSCO也达到94.7%。基因组注释发现,约54.52%的基因组被鉴定为重复序列,共16,796个蛋白编码基因获得功能注释。利用覆盖7个物种的1,018个单拷贝基因构建系统发育树,梭子蟹与中华绒螯蟹和对虾亲缘关系较近,分别在约183.5和428.5百万年前发生分化;进化速度方面以梭子蟹为参照,对虾进化速率最慢,果蝇和蝴蝶进化速率相对较快。

图4 梭子蟹的基因组特征圈图

圆点斑芫菁基因组揭示斑蟊素合成通路
Draft Genome of a Blister Beetle Mylabris aulica合作单位:陕西师范大学发表期刊:Frontiers in Genetics

影响因子:3.517

发表日期:2020.01.08

三代测序平台:Nanopore

圆点斑芫菁(Mylabris aulica)属鞘翅目芫菁科,也称为斑蝥。其受到袭扰后能产生一种具有刺激性的防御物质斑蝥素(Cantharidin),具有抗炎、抗病毒、增强免疫调节活性的作用。最新研究表明斑蝥素及其衍生物能够抑制多种类型癌症的增殖,但其人工合成因为条件苛刻一直无法规模化生产。目前对芫菁科昆虫体内斑蟊素的合成机制研究主要是用比较转录组的方法推测可能的相关基因,但代谢通路完全不清楚。研究者利用纳米孔测序技术组装出288.5Mb的圆点斑芫菁的基因组,scaffold N50为467.8kb,预测的重复序列占50.62%,BUSCO完整性评估达97.9%,相比已经报导的两种已知斑蝥基因组,该组装连续性、完整性都得到了极大提升。根据基因组数据对圆点斑芫菁的遗传背景进行分析,表明圆点斑芫青与其他芫菁科昆虫基因背景几乎完全相同,分化时间也极短。随后研究者在“萜烯类主链生物合成”途径中发现了30个基因家族,它们参与了斑蝥素的生物合成,并且对其中两个功能未知的基因BMGene00496和BMGene01890进行了功能注释。总之,本研究利用纳米孔测序技术组装出了圆点斑芫菁的基因组草图,对斑蝥素生物合成相关的可能基因和途径进行了分析,为后续圆点斑芫菁研究以及斑蝥素生物合成提供了宝贵资源。

图5 圆点斑芫菁相比两个近源斑蝥,基因组连续性和完整性均有大幅度提升。

2020希望组合作文章列表

参考文献:
1. Xie, W.,He, C., Fei, Z. & Zhang, Y. Chromosome-level genome assembly of thegreenhouse whitefly ( Trialeurodes vaporariorum Westwood). Mol Ecol Resour(2020) doi:10.1111/1755-0998.13159.
2. Zhang,H.-H. et al. High-quality genome assembly and transcriptome ofAncherythroculter nigrocauda , an endemic Chinese cyprinid species. Mol EcolResour (2020) doi:10.1111/1755-0998.13158.
3. Meng, F. etal. Chromosome-level genome assembly of Aldrichina grahami, a forensicallyimportant blowfly. GigaScience 9, giaa020 (2020).
4. Tang, B. etal. Chromosome-level genome assembly reveals the unique genome evolution of theswimming crab (Portunus trituberculatus). GigaScience 9, giz161 (2020).
5. Guan, D.-L.et al. Draft Genome of a Blister Beetle Mylabris aulica. Front. Genet. 10, 1281(2020).

硬核爆发-希望组2020三代基因组文章集锦-植物篇

2020年,希望组合作项目好文不断,截止2020年4月,希望组基于三代测序技术的基因组、转录组项目文章已发表17篇,其中不乏Nature Genetics、Nature Plants等高分文章。今天组学君就给大家盘点一下植物方向部分案例文章,为大家解锁发文经典套路!

高质量基因组揭示棉花A亚基因组起源[1]

Genome sequence of Gossypium herbaceumand genome updates of Gossypium arboreum and Gossypium hirsutumprovide insights into cotton A-genome evolution合作单位:武汉大学高等研究院发表期刊:Nature Genetics

影响因子:25.455

发表日期:2020.04.13

三代测序平台:PacBio RSII&Sequel

异源四倍体棉花A亚基因组和D亚基因组的起源一直是科学家想要回答的问题,目前学界公认D亚基因组的供体为雷德蒙氏棉D5,但是A亚基因组的起源仍存在争议,没有确切证据支持其来源于非洲棉A1或亚洲棉A2。本研究利用三代测序技术组装了首个草棉基因组(var. AfricanumA1, n=x=13),并对亚洲棉和陆地棉基因组进行了更新。通过比较基因组分析、基因组进化及群体遗传分析,理清了非洲棉A1、亚洲棉A2和A亚基因组之间的进化关系:A亚基因组与非洲棉A1、亚洲棉A2有着共同的祖先A0(已灭绝),在约1.0−1.6百万年前A0与雷德蒙氏棉D5形成异源四倍体棉花AD,约70万年前A0分化出非洲棉A1与亚洲棉A2(图1)。这一模型的提出结束了许久以来异源四倍体棉花A亚基因组起源的争议,为棉属研究提供了重要理论指导和遗传资源,加快了棉花主要农艺性状的遗传改良进程。

图1 棉花A基因组起源与进化模型(a)和重要进化事件(b)

ONT测序助力攻克首个高质量角苔参考基因组[2]

The hornwort genome and early land plant evolution合作单位:中国科学院植物研究所、福建农林大学、深圳仙湖植物园、比利时根特大学发表期刊:Nature Plants

影响因子:13.297

发表日期:2020.02.10

三代测序平台:Nanopore PromethION

苔藓类包括苔、藓和角苔三大分支,是现存最早的陆生植物,在植物演化过程中代表从水生到陆生的过渡类型。角苔类以其难解的系统位置、独特的形态特征、以及其与细菌、真菌广泛共生的特异现象而备受关注。本研究采用Nanopore+illumina策略,结合系列精细设计的去污染流程,克服细菌内源污染,获得了第一个高质量的角苔参考基因组。通过与其他苔藓植物以及陆生植物的比较基因组分析,确定了苔藓类植物的单系性,角苔是苔和藓的姊妹群,位于苔藓分支的最基部;基因组学分析表明角苔具有与简单的形态结构相适应的低冗余度基因组(图2);基因家族分析发现了其中与RNA编辑、紫外线保护以及逆境响应相关基因家族的扩张;同时角苔还受益于从土壤细菌和真菌转移而来的基因,丰富了其氧化还原、胁迫响应和代谢相关的基因组分。以上一系列研究揭示了角苔这一类群对陆地环境的适应机制。

图2 芽胞角苔与18个绿色植物的比较基因组分析。a, 基于OrthoMCL的基因家族聚类比较。b, 19个绿色植物的基因家族获得(+)/丢失(-)情况比较,红框标注苔藓类群分支。c, 芽胞角苔、小立碗藓和地钱的全基因组加倍事件分析。

高质量油桐基因组,荣登GPB期刊“封面故事”[3]

Tung Tree (Vernicia fordii) Genome Provides AResource for Understanding Genome Evolution合作单位:中南林业科技大学发表期刊:Genomics, Proteomics & Bioinformatics

影响因子:6.597

发表日期:2020.04.07

三代测序平台:PacBio RSII

油桐(Vernicia fordii)为大戟科油桐属落叶乔木,在我国有1000多年的栽培利用历史,是世界性的木本油料树种。本研究选用高纯合体“葡萄桐”为基因组测序材料,采用Illumina+PacBio RSII测序,组装出大小为1.12 Gb油桐基因组,结合Hi-C技术将95.15%的序列被挂载到11条假染色体上。研究者基于高质量油桐参考基因组,进行了一系列数据分析与挖掘。通过比较基因组学揭示了重复序列爆发所驱动的油桐基因组扩张机制;结合17个不同发育阶段的组织/器官的RNA-seq数据,构建了油桐全基因组尺度的可视化表达谱网站;构建了桐油生物合成全景图,探究油脂合成的复杂机制。油桐基因组的破译,具有重要的科学理论价值和广泛的产业应用价值,本研究以“封面故事”的形式发表在《Genomics, Proteomics &Bioinformatics》。

图3 油桐(a)及其基因组景观(b)

白木香—瑞香科第一个染色体水平基因组[4]

Genome sequence of the agarwood tree Aquilariasinensis (Lour.) Spreng: the first chromosome-level draft genome in theThymelaeceae family合作单位:中国热带农业科学院热带生物技术研究所发表期刊:GigaScience

影响因子:4.688

发表日期:2020.03.02

三代测序平台:Nanopore GridION

图4 白木香(a)及其基因组Hi-C热图(b)

白木香(Aquilaria sinensis (Lour.))是传统名贵药材和天然香料“沉香”的重要基源植物,良好的医药价值和巨大的经济效益,导致了对白木香的掠夺式采伐,其野生资源已日渐枯竭。本研究采用Illumina+Nanopore GridION X5 +Hi-C策略组装出首个染色体水平白木香基因组,基因组大小726.5 Mb,scaffold N50为88.78 Mb,BUSCO分析结果为95.2%。单拷贝同源基因的系统发育分析表明白木香与可可树及陆地棉亲缘关系较近,其共同祖先在大约53.18-84.37百万年前分化。白木香高质量基因组的发布,为野生白木香种群保护生物学、沉香结香机制和香味基因及树种的进化研究奠定良好基础。

园艺观赏植物文竹染色体水平基因组[5]

Chromosome-level genome assembly,annotation and evolutionary analysis of the ornamental plant Asparagussetaceus合作单位:河南师范大学发表期刊:Horticulture Research

影响因子:3.368

发表日期:2020.04.01

三代测序平台:Nanopore GridION

文竹(Asparagus setaceus)又名山草、云竹、云片松,有“文雅之竹”的美称,是具有极高观赏价值的园艺植物。本研究采用Illumina+Nanopore GridION X5 +10X Genomics+Hi-C策略,完成了710.15 Mb的高质量文竹基因组,contig N50 为1.36 Mb。分析表明文竹基因组包含28,410个编码基因,其中25,649个(90.28%)获得功能注释,重复序列占全基因组的65.59%,且大部分为长末端重复序列。文竹是雌雄同株植物,其近源种芦笋为雌雄异株,进化分析估算,文竹与芦笋在约9.66百万年前发生分化,并且文竹经历了两次全基因组复制事件。对二者基因组的比较研究为植物性染色体的进化研究提供新的线索。另外研究者在文竹基因组中鉴定到762个特异基因家族,96个正向选择基因和76个抗性基因。文竹高质量基因组的完成为天门冬属植物比较基因组研究提供了新的遗传资源,有利于性染色体的演化及天门冬属的演化研究。

图5 文竹高质量基因组。(a)文竹。(b)基于1002个单拷贝直系同源基因的系统发生树。(c)文竹基因组景观。(d)文竹与芦笋基因组线性比较

铁核桃染色体水平基因组[6]
Chromosomal-levelassembly of Juglans sigillata genome using Nanopore, BioNano, and Hi-Canalysis合作单位:南京林业大学、云南省林业和草原研究院经济林研究所发表期刊:GigaScience

影响因子:4.688

发表日期:2020.02.26

三代测序平台:Nanopore GridION

铁核桃(Juglans sigillata)属于壳斗目胡桃科胡桃属,是我国云南省的重要经济树种。铁核桃与栽培种核桃(Juglansregia)亲缘关系密切,在中国西南部核桃与铁核桃表现出显著的同域分布模式,但是针对铁核桃的分子生物学研究较少。研究人员利用Illumina+Nanopore GridION X5组装出 536.50 Mb的铁核桃基因组草图,利用Bionano光学图谱数据将Scaffold N50提升至16.43 Mb,最后结合Hi-C数据将93%的序列挂载到16条假染色体,组装质量远优于大部分近源种参考基因组。基因组注释共预测30,387个编码蛋白基因,整个基因组的50.06%为重复序列。系统发育分析表明,栽培核桃与铁核桃在约49百万年前发生分化。本研究为胡桃科相关物种的基因组研究以及分子育种提供了宝贵的资源。

图6 铁核桃与其近源种基因组比较

2020希望组合作文章列表
相关阅读希望组项目文章|Nature Genetics高质量基因组揭示棉花A亚基因组起源希望组项目文章|Nature Plants ONT测序助力攻克首个高质量角苔参考基因组

希望组项目文章|Nature Plants 芡实与金鱼藻三代基因组揭示早期被子植物演化

希望组项目文章|中国特有物种黑尾近红鲌高质量基因组

希望组项目文章两连发|三代测序助力药用动物圆点斑芫菁、菲牛蛭基因组草图组装

参考文献:

1.     Huang, G. et al. Genome sequence of Gossypium herbaceum andgenome updates of Gossypium arboreum and Gossypium hirsutumprovide insights into cotton A-genome evolution. Nat Genet (2020)doi:10.1038/s41588-020-0607-4.

2.     Zhang, J., Fu, X., Li, R. et al. The hornwort genome and early landplant evolution. Nat. Plants 6, 107–118 (2020).https://xs.scihub.ltd/https://doi.org/10.1038/s41477-019-0588-4

3.     Zhang, L. et al. Tung Tree (Vernicia fordii) Genome ProvidesA Resource for Understanding Genome Evolution and Improved Oil Production.Genomics, Proteomics & Bioinformatics S167202291830216X (2020)doi:10.1016/j.gpb.2019.03.006.

4.     Ding, X. et al. Genome sequence of the agarwood tree Aquilariasinensis (Lour.) Spreng: the first chromosome-level draft genome in theThymelaeceae family. GigaScience 9, giaa013 (2020).

5.     Li, S.-F. et al. Chromosome-level genome assembly, annotation andevolutionary analysis of the ornamental plant Asparagus setaceus. HorticRes 7, 48 (2020).

6.     Ning, D.-L. et al. Chromosomal-level assembly of Juglanssigillata genome using Nanopore, BioNano, and Hi-C analysis. GigaScience 9,giaa006 (2020).