Oxford Nanopore + Hi-C:高质量墨兰参考基因组(4.25G,杂合度~1.5%,重复序列高达89%)

3月23日上午,在第28届中国(翁源)兰花博览会开幕式上,“墨兰基因组与国兰形态的进化”科研成果向公众隆重发布。中国兰花协会副秘书长张引潮,翁源县县长陈来安,广东省农业科学院环境园艺研究所所长朱根发,深圳市兰科植物保护研究中心主任刘仲健,台湾成功大学蔡文杰博士出席了发布会。

IMG_256

Cymbidium sinense

墨兰(Cymbidium sinense)染色体数目为2N=2X=40,基因组大小为4.25G,杂合度约1.5%,属于高杂合复杂基因组。墨兰基因组重复序列高达89%,使得墨兰比目前所有已测序的兰科植物基因组都大[1],如此庞大和复杂的基因组,让绘制墨兰基因组图谱困难重重。

2017年1月,广东省农科院环境园艺研究所、深圳市兰科植物保护研究中心、华南师范大学等单位联合组成攻关团队,启动了广东省自然科学基金研究团队项目“墨兰花分化与发育的分子调控机理研究”,开展了“墨兰基因组项目”。终于在2018年初,共同完成墨兰基因组测序项目武汉未来组凭借自有的Oxford Nanopore技术平台和丰富的三代基因组组装经验,为该项目提供了技术支持,最终组装结果:Oxford Nanopore+Hi-C:Contig N50=200K,Scaffold N50=159M。预测的蛋白编码基因数量29895个。其组装结果明显优于2017年在《Nature》杂志上发表的深圳拟兰基因组(Apostasia shenzhenica,Genome Size=349 Mb,Contig N50=80.1kb,Scaffold N50=3.029M)[2]。

IMG_257

墨兰(Cymbidium sinense)

IMG_258

深圳拟兰(Apostasia shenzhenica)

兰科(Orchidaceae)是植物界种类最丰富的家族之一,约有3万种,占全世界有花植物种类的10%。兰科植物进化程度高,是生物多样性研究和进化研究的理想植物,具有极高的科研、生态、观赏、文化和药用价值。兰科约有700属20000种,多产于全球热带地区和亚热带地区,少数种类也见于温带地区。兰花是中国十大名花之一,中国有171属1247种以及许多亚种、变种和变型。其中,墨兰又称“报岁兰”,是中国兰花中一个较为庞大的家族,是国兰中最具观赏价值的物种,同时也是最具广东特色的花卉种类之一。

IMG_259

IMG_260

本月23日在中国(翁源)兰花博览会上公布了墨兰基因组图谱,通过应用多种技术手段,包括Oxford Nanopore测序技术和染色体构象捕获技术(Hi-C),将基因组组装达到染色体水平。研究还发现,墨兰与所有其它兰花仅共享了一次全基因组复制(WGD)事件,于3600万年前分化而来。墨兰基因组重复序列含量为89%,这正是造成墨兰基因组比目前所有已测序的兰科植物都大的主要原因。

IMG_261

部分兰科植物进化树,Ntaure 2017 [2]

高质量的参考基因组为进一步的深入挖掘提供基础,结合最前沿的RNA测序技术、蛋白组测序技术、miRNA检测以及基因功能验证,蛋白相互作用分析等分子生物学手段,可以找出国兰进化中经历的关键事件,从而解析国兰形态的进化历程,解码国兰形态多变的奥秘。通过对数据分析挖掘,进一步研究植株建成基因(如叶形态相关基因CPC、花形态相关基因MADS-box等),花形态建成相关分子机制、花色调控相关代谢通路等。

科研人员将充分利用广东特色墨兰的资源优势,开展以全基因组测序为基础的兰花重要性状的功能基因研究,开展以FT基因为核心的成花诱导调控和以MADS-box基因为核心的花器官分化与发育分子机制、兰花分子标记辅助育种、分子设计育种、开花调控以及花型发育模型等前瞻性研究,并利用大数据组学分析手段整合生物学功能研究,突破一批关键技术难点,从基因组到形态对墨兰的“国兰艺术”全部要素(含线艺、叶艺、花色、花香、花型等)进行分子解码,建立了墨兰重要性状的分子调控网络模型,揭示了国兰观赏性状的分子调控机制,为国兰的园艺性状改良、分子育种和基因编辑提供切实可行的理论指导。

墨兰基因组的高水平组装得益于多种高效技术手段的结合——Nanopore 长读长测序技术理论上DNA序列有多长就能测多长,在高杂合的含大量重复序列的墨兰基因组组装中发挥极大的作用;同时,染色体构象捕获技术(Hi-C)的加入实现了对墨兰基因组的染色体级别组装。兰花全基因组序列将为兰花遗传工程育种研究提供重要资源和基础,对于促进兰科植物保护、药用资源开发和品种创新等具有重大意义。

多重技术手段的结合为复杂基因组的组装开辟了新的路径,使得更高水平、更高精度的基因组学研究得以实现。武汉未来组是国内获得Oxford Nanopore官方认证的测序服务供应商,拥有PacBio Sequel和Bionano平台,并提供Hi-C辅助基因组组装,同时配备经验丰富的实验团队和生信分析团队,竭诚为您打造优质的基因组学研究服务。

参考链接和文献

[1] https://view.inews.qq.com/a/20180323A1G70P00

[2]Zhang, G.-Q. et al. The Apostasiagenome and the evolution of orchids. Nature 549, 379 (2017)

论染色体级别参考基因组哪家强?三代长读长测序来帮忙!

橙色小丑鱼(Amphiprion percula)是海葵鱼科的一种,隶属于绒头鱼科(大鳞鱼),与海葵有着共生的关系,是研究珊瑚礁鱼类生态和进化的最重要的物种之一,也被用作研究社会组织模式和过程的模型物种。2018年3月在bioRxiv预印了一篇借助PacBio+Hi-C对橙色小丑鱼进行染色体级别参考基因组装的文章[1],研究结果显示,橙色小丑鱼是目前最连续、最完整的鱼类参考基因组之一,优于2018年已发表2个的二三代混合组装的小丑鱼基因组[2-3],也是第一篇利用Falcon_Unzip获得的单体型水平的鱼类基因组。

Table1.三个已发表的的小丑鱼基因组测序策略和组装指标比较

这三篇论文应用了不同的组装策略,通过比较得知:

  • 三代长读长数据(PacBio/Nanopore)的引入有助于提高基因组组装的连续性
  • >100×纯三代组装能将Contig N50提升到Mb级别,与二代或者二三代混合组装相比,提升效果>10倍。
  • 如果同时辅以Hi-C技术,更能将Contigs聚类到染色体群,并可以对Scaffolds进行定向。

橙色小丑鱼文章亮点

1.chromosome-scale和haplotype level的组装

研究人员对橙色小丑鱼进行了121×的PacBio测序,对过滤后的数据进行多版本组装,挑选其中质量最佳的版本A7进行后续分析(基于组装基因组大小、contig N50、BUSCO评估等多指标综合考虑选择)。随后使用FALCON_Unzip解决单体型级别的组装和phasing;使用Quiver提高组装准确度;结合来自于大脑组织的Hi-C数据,将contigs聚类到染色体;使用PBJelly尽可能地填补gaps;最终得到chromosome-scale、haplotypelevel、phased的橙色小丑鱼参考基因组(Nemo v1)。

2.目前最连续、最完整的鱼类参考基因组之一

比较橙色小丑鱼和已有的26个染色体级别鱼类参考基因组的组装连续性(Contig N50比较,Fig.1)和完整度(BUSCO评估,Fig.2),本研究中的橙色小丑鱼是目前最连续、最完整的鱼类参考基因组之一。

染色体级别鱼类参考基因组文献汇总及下载方法请见文末。

Fig.1 27个染色体级别鱼类参考基因组的组装连续性比较

从研究结果中可知,三个contig N50>1Mb的参考基因组,都是基于三代长读长测序获得:

Nile tilapia (3.09 Mb,Canu),

orange clownfish (1.86 Mb,Falcon)

Asianseabass (1.19 Mb, HGAP)

Fig. 2 27个染色体级别鱼类参考基因组的组装完整度比较

3.橙色小丑鱼特有基因鉴定

通过比较橙色小丑鱼、剑尾鱼、罗非鱼、斑马鱼和尖吻鲈五种鱼类的直系同源基因家族,查找橙色小丑鱼所特有的基因。研究发现,这五个鱼类物种的蛋白质序列间具有很高的相似度,绝大多数(89%)的序列能被归集到19,838个直系同源群中,其中14,783个直系同源群(75%)是五个鱼类物种所共有的,推测这些共有基因对应的蛋白质基本上都属于硬骨鱼类的核心基因集群。通过单拷贝直系同源基因构建的进化关系(Fig.3B)与以往的研究一致。

鉴定了橙色小丑鱼特有4,429个序列,其中49%具有功能注释(Fig.3A),未来进一步研究将以这些特有unique基因对橙色小丑鱼的表型性状的影响为关注点。

Fig. 3 (A)五个鱼类直系同源基因家族的overlap关系

(B)五个鱼类系统发生关系

nOG:直系同源基因群数量   nSOG:特有的直系同源基因群数量

4.小丑鱼基因组data base

研究人员还搭建了Nemo小丑鱼基因组data base,提供全球化的小丑鱼组学数据开放共享平台,数据库链接:http://nemogenome.org

该论文使用PacBio +Hi-C 的方法获得染色体级别的参考基因组,通过与已发表的染色体级别鱼类参考基因组做比较,证明自身组装的连续性和完整度都名列前茅,鉴定目标物种所特有的基因以为后续研究提供候选,为进一步研究基因和表型之前的关系打下基础。

未来组在三代测序基因组学领域项目经验丰富,竭诚为合作伙伴打造高质量的参考基因组。

附:论文中提到的27种染色体级别的鱼类参考基因组  组装策略及指标汇总表

参考文献

[1] Lehmann, Robert, et al.”Finding Nemo’s Genes: A chromosome-scale reference assembly of the genomeof the orange clownfish Amphiprion percula.” bioRxiv (2018): 278267.

[2] Tan, Mun Hua, et al.”Finding Nemo: Hybrid assembly with Oxford Nanopore and Illumina readsgreatly improves the Clownfish (Amphiprion ocellaris) genome assembly.”GigaScience (2018).

[3] Marcionetti, Anna, et al.”First draft genome of an iconic clownfish species (Amphiprionfrenatus).” Molecular ecology resources (2018).

图片来源于网络|侵删

Iso-Seq辅助揭秘紅葡萄之王 ——卡本內苏维浓的独特之处

卡本内苏维浓又名赤霞珠,是最为人熟知、原生于法国的酿酒葡萄品种,世界范围内分布广泛。早前的DNA分析认为卡本内苏维浓是黑葡萄卡本内弗朗(Cabernet Franc)和白葡萄品种白苏维浓(Sauvignon Blanc)二者的后代,果粒小、果皮厚、出汁量少,含有极高浓度的酚类物质和单宁,使得卡本内苏维浓葡萄酒拥有深邃神秘的酒色和涩感。
阅读更多

PacBio 终于•也•升级了!软件、试剂双双升级,更高通量、更长读长!

PacBio公司在3月7日正式公开发布升级版PacBio Sequel软件(V5.1版本)和Polymerase试剂,Sequel平台测序通量和读长均得到极大提升。这一可喜的进步使得PacBio SMRT测序在de novo组装、结构变异检测、靶向测序以及RNA Iso-Seq测序等方面的应用更具优势。

阅读更多

三篇全长转录组Iso-seq应用案例解析:动物、植物、微生物全覆盖

转录组学研究可以在整体水平上研究细胞中所有基因的表达调控规律,在分子水平上反映个体的生理生化过程。二代测序技术的应用使得人们得以初探转录组,但由于其短读长的技术限制,始终无法准确获得完整转录本。而三代长读长测序技术PacBio SMRT以其平均15~20kb的长读长优势,可以轻松覆盖转录本全长,使得人们终于可以窥得转录本全貌,为人们获取个体全长转录本并进行差异化分析、了解生命内在规律提供了新的解决方案。以下组学君为您带来三篇全长转录组Iso-seq应用案例解析,看看能不能为您带来新思路。

案例一

构建空心莲子草叶甲全长转录本集合[1]

TitleSMRT sequencing of full-length transcriptome of flea beetle Agasicles hygrophila

JournalScience Reports(February 2018)

IF:4.259

空心莲子草是原产于南美的苋科植物,在十九世纪30年代进入中国并迅速成为入侵物种,对当地的生态系统造成了破坏。空心莲子草叶甲是空心莲子草的专性天敌,作为生物防治手段而被引入。研究者对其进行了全长转录组研究,获得较完整的转录本集合,为了进一步揭示空心莲子草叶甲与宿主植物和生态系统之间的互作关系打下基础

材料与方法

物种:空心莲子草叶甲(Agasicles hygrophila)

取样:分别提取四个生长阶段(卵、幼虫、蛹、成虫)的RNA后混合测序

测序策略:PacBio SMRT

结果分析

文章应用部分篇幅阐述了PacBio SMRT Iso-Seq与RNA-Seq相比的长读长优势(Table 1):通过Illumina测序获得的reads读长有70%分布在200-300bp,而PacBio SMRT则有超过69%的reads读长超过1kb。Iso-Seq共产生9.4Gb clean数据,158,085条FLNC reads。完整地读取转录本的全长,有助于更精准地进行转录本重构和基因注释。

Table 1 PacBio SMRT与Illumina测序结果比较

文章基于PacBio SMRT数据,做了进一步的全长转录组标准分析,重构了28,982 条转录本,预测了145个可变剪接事件;27,318条简单重复序列;经TransDecoder鉴定获得24,040个ORF,其中有16,205个完整的ORF;预测得到4,198个lncRNA。同时,研究者还用多个数据库对空心莲子草叶甲基因进行了注释。

该研究利用长读长测序手段首次完成对空心莲子草叶甲的转录本研究,4分SCI妥妥到手,同时也为后续进一步研究昆虫与宿主植物和生态系统之间的互作关系提供了很有价值的参考信息。

案例二

比较转录组学:自然选择的摩擦草属VS人工选择的玉米[2]

TitleParallels between artificial selection in temperate maize and natural selection in the cold-adapted crop-wild relativeTripsacum

JournalbioRxiv(September2017)

摩擦草属、玉米和墨西哥类蜀黍的亲缘关系很近,但摩擦草属对寒冷气候适应性更强。研究者利用三代Iso-seq获得摩擦草全长转录组,结合已发表的玉米参考基因组和蜀黍植物基因组数据,进行个性化比较分析,以期在不断变化的气候条件下,为人工培育农作物提供思路。

材料与方法

物种:摩擦草(Tripsacum)

取样:提取野生摩擦禾种子发芽生长的单一植株的根、叶和茎RNA后混样测序

测序策略:PacBio RSII

结果分析

选取摩擦草属和玉蜀黎属为目标物种,高粱属、狗尾草属、复活草属为背景物种,稻属、短柄草属为外参物种,构建系统进化树。发现摩擦草属和玉蜀黎属中的6,950个直系同源基因在七种草类物种共有,包括4,162个一对一,1,436个一对二和1,352个二对二直系同源基因集,说明玉米和摩擦禾可能拥有相同的全基因组复制情况,二者的亲缘关系很近。

Fig.1 系统进化树

利用PacBio Iso-seq测序技术获得摩擦草的全长转录组与玉米参考基因组(RefGen v3)进行比较分析,发现玉米转录组中包含更多的可变剪切事件,且在玉米和摩擦禾的直系同源基因中发现有超过2/3(656, 61.6%)的保守基因发生可变剪切,而409个基因是玉蜀黍属-摩擦草属所特有的;在摩擦草中发现249个lncRNA,平均长度1.45kb,比玉米用PacBio Iso-seq技术测得的lncRNA的平均长度(0.67kb)长,且仅有17个lncRNA与玉米表现为高度一致性。

Fig.2 (a)摩擦草和玉米之间Ka / Ks比值的分布散点图; (b)摩擦草中磷脂代谢基因与其他功能基因的Ka / Ks比值分布图

脂质具有防止细胞膜在低温条件下损伤的作用,因此膜脂质组成的变化可能是与摩擦草的耐冷性相关。研究者比较玉米和摩擦禾中相同基因之间的Ka / Ks值,发现磷脂生物合成途径中的基因显示比背景基因更高的Ka / Ks比值,说明参与磷脂代谢的基因加速了物种的进化过程(Fig.2)。研究指出摩擦草中参与磷脂代谢的相关基因中的蛋白质序列的加速进化可能是造成摩擦草属相对于玉米更耐寒的原因。

案例三

动态转录组监控裂殖酵母减数分裂过程中Isoform水平的多样性[3]

Title:The dynamic landscape of fission yeast meiosis alternative-splice isoforms

Journal:GenomeResearch(January 2017)

IF11.922

可变剪接增加了后生动物转录组和蛋白质组多样性,但人们对于单细胞生物的可变剪接事件还知之甚少。研究者以裂殖酵母为模型,利用三代长读长测序技术的同时开发了SpliceHunter软件用以对其进行转录组的可变剪接事件进行动态分析。

材料与方法

物种:裂殖酵母(Schizosaccharomyces pombe)

取样:在0-10h内间隔2h取样,分别提取RNA测序

测序策略:PacBio RSII

结果分析

从PacBio测序获得的Iso-seq reads 平均长度为1178 bp,共发现了S. pombe中~90%(6,199个)的基因。研究者发现在裂殖酵母的减数分裂时期,发现17,669个异构体,发生了14,353个可变剪切事件,其中,内含子保留是最主要的可变剪接形式(Fig. 3)。研究反映了裂殖酵母S. pombe转录本的复杂性:~1300个基因发生了一次可变剪接,1432个基因发生了两次可变剪接,而发生了2次以上的可变剪接事件的基因超过3000个。

Fig.3 S. pombe中的可变剪接事件

Fig. 4 减数分裂期间不同可变剪接形式的变化趋势

研究发现在裂殖酵母减数分裂期间,大部分的可变剪接类型都有所增加,仅有外显子跳跃类型的可变剪接在减数分裂初期处于低水平而在减数分裂末期有所增加(Fig.4)。这种变化反映了S. pombe在有丝分裂和减数分裂期间的一种条件驱动的可变剪接机制。研究结果反映了裂殖酵母性发育过程中Isoform水平的多样性和动态变化。

由此可见,基于三代长读长测序的Iso-seq技术跨越了传统测序技术无法克服的鸿沟,极大地丰富了对转录本结构的研究,可准确辨别二代测序无法识别的异构体(Isoform)、融合基因、lncRNA等,获得更加全面的注释信息。

未来组的全长转录组学研究,不仅包含PacBio SMRT技术,也已推出基于Nanopore的direct RNA测序技术,开启转录组学研究新纪元,我们有丰富的全长转录组项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1]Jia D, Wang Y, Liu Y, et al. SMRT sequencing of full-length transcriptome of flea beetle Agasicles hygrophila (Selman and Vogt)[J]. Scientific reports, 2018, 8(1): 2197.

[2] Yan L, Lai X, Rodriguez O, et al. Parallels between artificial selection in temperate maize and natural selection in the cold-adapted crop-wild relativeTripsacum[J].bioRxiv, 2017: 187575.

[3]Kuang Z, Boeke J D, Canzar S. The dynamic landscape of fission yeast meiosis alternative-splice isoforms[J]. Genome research, 2017, 27(1): 145-156.

延伸阅读

研究全长转录组?建议先看看这几篇文献

Nature methods丨基于Nanoporedirect RNA测序方法测评

异源四倍体棉花全长转录组文献精读

从已发表paper中找找全长转录组研究套路

近期两篇Nanopore组装果蝇基因组文章预印,低于$1,000 价格又搞定一个模式生物

2018年2月18日,bioRxiv同时预印两篇使用Oxford Nanopore测序组装果蝇基因组的论文,两个不同机构的研究人员不约而同选择了时下最热门的纳米孔测序手段来获得果蝇的基因组,侧面反映出大家对这个技术的关注是so hot~。如果您也有意尝鲜组学新技术,当然请联系未来组。

以下是两篇文献的简单介绍

论文一 一种黑腹果蝇基因组组装

研究中使用黑腹果蝇D. melanogaster (ISO1)基因组DNA在Oxford Nanopore MinION掌上测序仪上测序1个 flowcell,以其中长度在1kb以上的reads(约30×的测序深度)与二代数据结合进行混合组装,加上Bionano光学图谱数据辅助scaffolding,获得高准确度、高连续度和高完整度的基因组组装结果:Contig N50:18.9Mb,BUSCO评估97.1%。

通过与参考基因组进行比较,揭示了大量结构变异,包括与发育、行为、代谢基因相关的novel LTR转座元件的插入和复制等,这些结构变异有助于研究后生动物基因组进化。

文中提到完成该基因组的费用不超过$1,000。

参考文献

SOLARES,Edwin A., et al. Rapid low-cost assembly of the Drosophila melanogasterreference genome using low-coverage, long-read sequencing. bioRxiv,2018, 267401.

论文二 15种不同的果蝇基因组组装

研究对果蝇属的15种果蝇进行了平均深度29×的Nanopore测序,使用minimap2 和miniasm快速组装,平均Contig N50: 4.4Mb。经过自身校正和二代校正后,BUSCO评估数值平均为97.7%。

通过与这些果蝇以往参考基因组对比,结果表明,平均填补了参考基因组中约60%的gap(Table 2)说明长读长测序数据的引入,有助于提高基因组组装的连续度和完整度。Fig.1 以D. erecta参考基因组中Scaffold_4845和本研究中对应的Contig(utg0000101)对比为例,展示了以Nanopore数据组装获得的一个17.4Mb的contig(utg0000101)填补了参考基因组中由38个contigs组成的Scaffold 4845中的gaps,解析了3.7 Mb参考基因组中的未知序列。

Fig.1参考基因组中的gaps能被长读长测序数据填补 

文中也提到,每个基因组的费用都未超过$1,000。

参考文献:

MILLER,Danny E., et al. High-quality genome assemblies of 15 Drosophila speciesgenerated using Nanopore sequencing. bioRxiv,2018, 267393.

长读长Nanopore测序数据的引入能明显增强基因组组装的连续性和完整度,为进一步深入研究种群结构遗传变异的进化和功能打开了一扇门。Nanopore 更高通量的新款测序仪PromethION已经上市,每个Run理论产出6.2TB,未来单GB数据价格会进一步下降,敬请持续关注。

未来组于2017年引进Oxford Nanopore平台,在2018年初率先获得Oxford Nanopore测序认证服务供应商资质认证。未来组将持续扩大Oxford Nanopore测序平台,打造包含三代单分子测序、光学图谱、三维基因组学等多方位的组学研究中心,还将在RNA直接测序、表观转录组学等领域进行深度的探索。

组学新技术尝鲜当然要找未来组

延伸阅读

Nanopore组装动植物基因组盘点及文献下载

里程碑丨Nanopore测序组装人类基因组终见刊NBT,牛津纳米孔公司携手未来组推“1000个中国人基因组结构变异检测计划”

未来组–中国首家通过Nanopore官方测序服务认证

Naturemethods丨基于Nanopore的direct RNA测序方法测评,你要不要来试试?

比较基因组学研究揭示萤火虫荧光素酶基因的起源与进化

为了揭示萤火虫荧光素酶基因的遗传基础及其起源、进化过程,Timothy R. Fallon等人用PacBio+Illumina+Hi-C多技术结合的策略组装出了高质量的北斗七星萤火虫(Photinus

pyralis,Lampyrinae亚科)基因组,解决了其中与荧光素酶基因相关的串联重复序列。同时,研究者还对日本萤火虫(Aquatica lateralis,Luciolinae亚科)和发光磕头虫(Ignelater luminosus,叩甲科)进行Illlmina基因组测序并完成组装。通过对这三个荧光甲虫进行比较基因组学和转录组分析,对发光甲虫的发光和化学防御机制在近1亿年来的进化历程提出了新的见解。

基因组组装结果

研究者对三种物种分别运用了不同的策略进行基因组组装,结果见Table 1。北斗七星萤火虫因引入三代长读长测序数据及Hi-C辅助组装,ScaffoldN50高达50Mb,还组装出了富

含~1kb串联重复序列(TRU)的线粒体基因组(Fig.1a)。

BUSCO评估显示这三个基因组的组装完整度均超过了93%,高质量的基因组为后续的生物发光研究提供了有价值的参考信息。

Table 1北斗七星萤火虫、日本萤火虫和发光磕头虫的基因组组装结果比较

Fig.1 北斗七星萤火虫线粒体基因组示意图(a);北斗七星萤火虫、日本萤火虫、发光磕头虫和黑腹果蝇基因维恩图(b)

经注释,发现北斗七星萤火虫、日本萤火虫和发光磕头虫中的编码基因分别有15,770, 14,285和27,552个,经Orthofinder pipeline分析发现北斗七星萤火虫和日本萤火虫的基因具有很大的相似性,而发光磕头虫则大不相同(Fig.1b)。

荧光素酶基因的进化历程

萤火虫的荧光来自于其体内的一系列化学反应:小分子基质荧光素在有O2、Mg2+和ATP存在的条件下,被荧光素酶催化形成脱羧产物氧化荧光素,从而发光。研究者推测萤火虫的荧光素酶基因是由一个祖先基因——过氧化物脂肪酰基辅酶A合成酶基因(PACS)进化而来,

因为它和与它密切相关的非生物发光的旁系同源基因都具有脂肪酰基辅酶A的合成活性(Fig.2)。叩甲科和萤科的荧光素酶属于同一蛋白超家族,且它们的发光机制及荧光素的化学性质都相同,说明这两科的荧光素酶基因应该是同一起源,与以往系统发育学研究中关于这两个家族的的荧光素酶基因是独立起源的假说不同。

Fig.2荧光素酶的催化机制与脂肪酰基辅酶A合成酶的催化机制相关

通过对基因结构进行比较,研究者发现北斗七星萤火虫和日本萤火虫中都存在Luc1和Luc2这两个荧光素酶基因,其中Luc1是萤火虫的一个直系同源基因,位于一簇过氧化物脂肪酰基辅酶A合成酶(PACS)和非过氧化物脂肪酰基辅酶A合成酶(ACS)基因当中,广泛存在于多种萤火虫基因组;以往研究认为旁系同源基因Luc2仅存在于少数包括日本萤火虫在内的亚洲类群当中,而本研究的基因组组装分析结果显示:在北斗七星萤火虫和日本萤火虫这两类萤火虫基因组中,Luc1和Luc2这两个荧光素酶基因都存在且位于不同的染色体上。

萤火虫的荧光素酶基因及与其密切相关的旁系同源基因的基因结构普遍含有串联重复序列。荧光素酶基因Luc1和Luc2在基因结构上都比较保守,由七个保守的外显子构成。萤光素酶、

PACS和ACS的系统发育分析表明,Luc1和Luc2代表两个密切相关的直系同源基因,并且与Luc1邻近的PACS和ACS是共直系同源的,虽然共线性关系不太清楚,这可能是由后来的基因重排造成的(Fig.3)。

Fig.3荧光素酶基因共线性分析

数据说明串联基因的复制产生了PACS的几个旁系同源基因,其中一个新功能化成为萤光素酶祖先基因(AncLuc)。AncLuc原位产生了Luc1,而Luc2则可能是在1亿年前AncLuc发生了远程基因复制事件形成的;随后发生基因重排从而产生了萤火虫的两个亚科——Lampyrinae亚科和Luciolinae亚科。基于以上推测,研究人员绘制了萤火虫荧光素酶基因进化模型(Fig.4)。

Fig.4 萤火虫荧光素酶基因进化模型

此外,研究者还利用RNA-Seq技术对三种发光甲虫不同性别、不同组织部位、不同发育时期的基因表达进行了解析,分析了在荧光素酶代谢过程中起关键作用的基因。

DNA测序技术及生物信息技术的发展为物种的起源和进化研究提供了有力的科学依据。本研究提供了一个适用于大多数物种的基因组测序组装策略,利用二代短读长测序数据结合三代PacBio长读长测序数据,并使用其他大片段技术(如Hi-C等)辅助,可以组装出跨越串联重复序列、端粒、着丝粒等特殊区域的高质量基因组。获得高质量的参考基因组将会极大的延展研究者对研究对象的遗传多样性上的认识,进一步揭示物种之间的进化关系。

参考文献:

Fallon T R, Lower SE, Chang C H, et al. Firefly genomes illuminate the origin and evolution of bioluminescence[J]. bioRxiv, 2017: 237586.

图片来源于网络|侵删

2017农历年前,Nanopore组装动植物基因组盘点

Oxford Nanopore Technology(ONT)的概念从上个世纪80年代就提出来,但从理论到商业化应用,走了二十多年。2014年,ONT对外提供MinION试用项目计划(MAP),随后几年不断对早期版本仪器的高错误率和低通量问题进行改善。从2016年开始,Nanopore平台通量得到较大提升,错误率也显著降低,在基因组中的应用已从小基因组逐渐延伸到复杂动植物基因组中的应用,而更高通量平台GridION X5 和PromethION的发布将对Nanopore在复杂物种中的应用更为简单和便捷。

高质量的参考基因组是深入进行物种起源进化和基因功能研究的前提,利用Nanopore长读长测序技术,读长最高可达>1Mb,克服高杂合、高重复、多倍体等组装难题,有助于获得更完整、更连续的参考基因组。近两年已有数篇基于Nanopore数据的基因组文章发表,请听组学君娓娓道来。

NBT~30×普通reads+5×ultra long reads组装人类基因组,NG50: ~6.4 Mb[1]

文章在2017年4月预印,2018年1月29日正式发表于Nature Biotechnology。研究结果显示:低覆盖深度测序(~30×普通nanopore reads+ ~5× ultra-long reads)即能将基因组Contig N50组装到6.4Mb,填补了参考基因组(GRCh38)中12个gap,是来自单一测序手段得到的迄今最连续的人类的基因组。

NC丨单个Nanopore flowcell数据组装拟南芥基因组,N50高达12Mb[2]

文章在2017年6月预印,2018年2月正式发表于Nature Communications。文中使用便携式U盘大小Nanopore MinIon对拟南芥(KBS-Mac-74 accession)测序1 flow cell,使用家用电脑水平的硬件(4核,16Gb RAM),耗时4d完成组装。

随着测序仪价格平民化,旧时王谢堂前燕,已飞入寻常百姓家。日后随着测序成本进一步下降,即使仅为了解基因组单个区域的复杂结构变异,组装完整的基因组也将成为实现这一目标的最简单的方法。

PC丨第一个正式发表的Nanopore大型植物基因组,野生番茄[3]

2017年10月,野生番茄(Solanum pennellii)基因组文章发表于The Plant Cell。31个MinION flowcell测序,通过Canu-SMARTdenovo组装,得到了高质量的番茄基因组。Contig N50 达2.45 Mb,经Nanopolish及pilon迭代校正后,碱基错误率<0.02%,基因组完整性评估96.53%。

研究者最后粗略估算了下成本,对于这种中等大小的植物基因组(<2Gb)的Nanopore测序,在当时当地情况下,项目预算低于$25000,其他开销主要是计算资源,人力成本和耗损等。另一方面,Nanopore测序下机数据含有CpG甲基化数据信息,在不需要增加成本的情况下,可利用甲基化信息对物种进行深层次的表观关联研究。

Genome Research丨秀丽隐线虫基因组[4]

文章于2017年1月预印,2018年2月正式发表于Genome Research。文中借助Oxford Nanopore测序技术对秀丽隐杆线虫的两个品型(野生型;带有两个复杂染色体重排区域的突变型)进行了全基因组测序,通过~60×Nanopore数据,组装出野生型秀丽隐杆线虫基因组(仅由48个contig组成,N50达3.99Mb,覆盖了参考基因组>99%的区域),完善了秀丽隐杆线虫参考基因组,并基于高质量的参考基因组研究突变型中复杂的重排机制。

BMC Biology丨巴西日圆线虫基因组[5]

文章2018年1月发表于BMC Biology,研究者以巴西日圆线虫(Nippostrongylus brasiliensis)为材料,采用目前读长最长的Oxford Nanopore测序技术,对其基因组进行de novo组装,并加入二代参考基因组进行比较,结果显示:基于长读长的基因组组装,能更好地覆盖串联重复等复杂区域。

目前正式发表的纯Nanopore de novo组装动植物基因组就是这5篇文章[1-5],另外还有Nanopore+Illumina混合组装案例,墨瑞鳕鱼、欧洲鳗、耐盐水稻、小丑鱼,请见如下汇总表[6-9]。文献下载请见文末。

随着高分文章的发表,Nanopore技术的应用日渐成熟,并被广泛认可。Oxford Nanopore公司也在改进其价格、准确度、读长、产量、便携性等方面持续发力,比如即将推出的更高通量的PromethION测序仪,拥有3000个通道和单个flow cell 120G的产量,48h内产量可达6.2T,为更大规模更复杂物种的基因组快速测序提供了可能。而产量的提高必然会带来价格的下降,也将会促进各个方面应用,除了动植物基因组de novo测序,2018年Nanopore还将会在重测序、结构变异检测、目标区域捕获测序、全长16s测序、宏基因组测序、甲基化测序等领域升级应用,尤其是转录组研究领域,direct RNA sequencing将会有一波新的应用场景。另外直接蛋白质测序,也是非常值得期待的亮点之一。在提高测序读长和碱基准确度方面也在持续改善,1D2文库搭载R9.5芯片,可使单碱基原始准确率提高到95%左右;ultra long 建库方式,可获得N50接近100k,最长超过1M的Reads。这使得动植物基因组完成图,多倍体物种单倍体分型等不再遥远。

参考文献

[1] Jain M,Koren S, Miga KH, etal. Nanopore sequencing and assembly of a human genome with ultra-long reads.Nature Biotechnology, 2018

[2] MICHAEL,Todd P., et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell. Nature Communications, 2018, 9.1: 541.

[3] SCHMIDT,Maximilian H.-W., et al. De novo assembly of a new Solanum pennellii accession using nanopore sequencing. The Plant Cell, 2017, 29.10: 2336-2348.

[4] TYSON, JohnR., et al. MinION-based long-read sequencing and assembly extends the Caenorhabditis elegans reference genome. Genome research, 2018, 28.2: 266-274.

[5] ECCLES,David, et al. De novo assembly of the complex genome of Nippostrongylus brasiliensis using MinION long reads. BMC biology, 2018, 16.1: 6.

[6] AUSTIN,Christopher M., et al. De novo genome assembly and annotation of Australia’s largest freshwater fish, the Murray cod (Maccullochella peelii), from Illumina and Nanopore sequencing read. GigaScience, 2017, 6.8: 1-6.

[7] JANSEN,Hans J., et al. Rapid de novo assembly of the European eel genome from nanopore sequencing reads. Scientific Reports, 2017, 7.1: 7213.

[8] MONDAL,Tapan Kumar, et al. First de novo draft genome sequence of Oryza coarctata, theonly halophytic species in the genus Oryza. F1000 Research, 2017, 6.

[9] TAN, MunHua, et al. Finding Nemo: Hybrid assembly with Oxford Nanopore and Illumina reads greatly improves the Clownfish (Amphiprion ocellaris) genome assembly.GigaScience, 2018.

图片来源于网络|侵删

Nanopore测序揭露线虫基因组中复杂串联重复序列

真核生物的基因组组装一直是个难题,而线虫基因组更是含有大量的卫星DNA等重复序列,短读长的测序手段往往对此束手无策。而三代长读长测序技术的发展为复杂基因组研究带来了希望。

研究者以巴西日圆线虫(Nippostrongylus brasiliensis)为例,采用目前读长最长的Oxford Nanopore测序技术,对其基因组进行de novo组装,并加入二代参考基因组进行比较,结果显示:基于长读长的基因组组装,能更好地覆盖串联重复等复杂区域。

材料和方法

材料:巴西日圆线虫(Nippostrongylus brasiliensis)

测序平台:Oxford Nanopore MinION
(未来组配备Nanopore升级平台GridION X5,实时base calling,通量更大,效率更高)

比较结果

1.基因组组装

与以往WTSI的二代参考基因组比较,组装指标大幅度提升(Contig N50: 33.5Kb→209.2Kb)。

Table 1组装结果比较

2.组装评估

经不同方法校正后的BUSCO值比较,表明经三代Nanopolish自我校正后,MinION reads的组装质量优于WTSI参考基因组。

Table 2 不同方法校正后的BUSCO值比较

3.对串联重复序列的识别

由于Nanopore长读长测序能有更好的overlap关系,有助于识别复杂的重复单元。例如,本研究组装出的线虫基因组中,检测到一个由171bp的重复单元构成的21kb的串联重复序列的存在,但在二代参考基因组中未能识别出来(Fig.1)。

Fig.1一个74kb的MinION read与WTSI参考序列的比对(a);MinION read鉴定出WTSI参考序列中存在一个复杂串联重复序列(b)

与二代参考序列相比,Nanopore组装能更好地反映N. brasiliensis基因组中重复序列的多样性(Fig.2)。

Fig.2 WTSI二代参考序列中的重复序列分析(a);
Nanopore组装中的重复序列分析(b)

二代短读长测序技术在富含大量重复片段的基因组测序中存在不足,而三代长读长测序是解决含复杂重复串联序列基因组的一大利器。在本研究中,研究者通过应用单纯的MinION data,辅以改良的Base-calling算法Albacore和升级的Canu v1.5组装手段得到了不逊色于Illumina的线虫基因组。

参考文献

David Eccles, Jodie Chandler, Mali Camberis, etal. De novo assembly of the complex genome of Nippostrongylus brasiliensis using MinION long reads[J]. BMC Biology, 2018, 16(1):6.

里程碑丨Nanopore测序组装人类基因组终见刊NBT,牛津纳米孔公司携手未来组推“1000个中国人基因组结构变异检测计划”

1月29日,Nature Biotechnology在线发表基于Nanopore超长读长组装人类基因组的研究论文[1]。研究结果显示:低覆盖深度测序(~30×普通nanopore reads+ ~5× ultra-long reads)即能将基因组Contig N50组装到6.4Mb,填补了参考基因组(GRCh38)中12个gap,是来自单一测序手段得到的迄今最连续的人类的基因组。

研究人员通过Nanopore MinION测序平台获得的ultra-long reads,最长读长达到了882kb。基于最先进的测序方法分析人类基因组中先前难以攻克的复杂区域,例如评估人类染色体端粒长度;完整地组装出6号染色体上的MHC区域(位于单个contig上)等,这是MHC首次在二倍体人类基因组中被准确地定向。

此次Nanopore测序组装人类基因组研究论文的发表,对新测序技术的推广应用和更连续的人类参考基因组在临床医学研究中的应用意义深远。

预印版的解读请见Nanopore测序组装人类基因组

未来组作为牛津纳米孔公司(Oxford Nanopore Technology)官方认证的中国测序服务公司,率先于2017年9月将Nanopore测序技术引进回国,目前已配备有20台GridION X5和2台MinION测序仪,约4个月的时间内已完成牛津纳米孔测序数据产出>2Tb,所有数据达到官方标准,符合交付指标。

未来组后续会陆续购入通量更高的PromethION测序仪,并与牛津纳米孔公司携手,推出“中国人基因组结构变异检测计划”[2]将在2年内对~1000个个体基因组中倒位、易位、重排、拷贝数变异等1 kb~3 Mb亚显微水平的基因组结构变异进行精准定位和分析,突破二代测序短读长瓶颈,造福人类健康。

参考文献

[1] Jain M, Koren S, Miga KH, etal. Nanopore sequencing andassembly of a human genome with ultra-longreads.Nature Biotechnology, 2018

编译参考链接:

[2]https://nanoporetech.com/about-us/news/most-complete-human-genome-assembly-date-using-single-tech-nature-biotech-paper

延伸阅读

基于Nanopore测序的结构变异分析【染色体碎裂病例解析】
欢迎来到Oxford Nanopore测序技术新世界
Oxford Nanopore丨人转录组direct RNA测序数据首发