【未来组项目文章】绘制杜仲基因组精细图,探究杜仲的异戊二烯生物合成及环境适应机制

关于杜仲(Eucommia ulmoides)

杜仲是我国特有的、除三叶橡胶外世界上具有巨大开发前景的优质天然橡胶树种和名贵药用树种,国家二级保护野生植物。杜仲能耐严寒,成株在-30℃的条件下可正常生存,张家界、神龙架都有分布。获得高质量的参考基因组,解析杜仲环境适应及杜仲胶生物合成机制,对研究杜仲的起源和进化,遗传改良具有里程碑意义。

2017年11月,中国林业科学研究院经济林研究开发中心乌云塔娜团队、杜红岩团队,联合中国热带农业科学院橡胶研究所李德军团队及山东贝隆杜仲生物工程有限公司高瑞文团队合作完成耐寒橡胶树-杜仲基因测序和转录组研究,相关成果在线发布于《Molecular Plant》。

未来组在本项目中负责完成基因组测序、Bionano辅助拼接,基因组组装、基因注释和转录组测序分析等部分的工作。

材料与方法

基因组

神农架野生杜仲叶

二三代混合测序并BioNano辅助组装,转录组辅助基因组注释

转录组

同一棵杜仲不同生长发育时期的叶和果实进行RNA-Seq

结论

基因组组装和注释

预估基因组大小1.1Gb,组装基因组大小1.18Gb,重复序列~61%,杂合度0.8%,

Scaffold N50:1.88 Mb,注释了26,723个蛋白编码基因。

通过转录组数据、ESTs数据比对,以及CEGMA和BUSCO分析评估组装基因组的完整度和准确度,结果表明基因组组装效果good。

基因组起源和进化分析

通过分析单拷贝基因,构建杜仲与14种植物的系统发生关系(Fig.1),研究表明杜仲与真菊I类和II类的分化时间可追溯到约在一亿两千九百万年前。

Fig.1杜仲遗传起源

通过同义替代突变分析(Fig.2左),以及与3个已知物种(葡萄发生过1次基因组倍增,番茄发生过2次倍增,猕猴桃发生过3次倍增)进行共线性关系比较(Fig.2右)得知,杜仲仅经历了一次古老的基因组三倍化事件,无近期基因组复制发生。

Fig.2杜仲基因组倍增事件分析

影响环境适应性的基因

杜仲是从历经了白垩纪存活下来的活化石,有着极高的抗逆性,文章对杜仲的环境适应性相关基因进行了分析,筛选了与环境耐受性和次生代谢相关的扩张基因。

杜仲的生物胶合成

通过RNA-seq分析同一棵杜仲不同生长发育时期的叶和果实中杜仲胶合成相关基因的表达水平,并结合这些样本中生物胶的含量检测,得出结论:杜仲中生物胶的前体物质异戊二烯焦磷酸(IPP)可能主要来自甲瓦龙酸途径(MVA途径)(Fig.3)。

Fig.3与杜仲胶相关的基因、代谢通路和表达谱分析

杜仲胶由反式聚异戊二烯(TPI)形成,橡胶树橡胶由顺式聚异戊二烯(CPI)形成。小橡胶颗粒蛋白(SRPP)和橡胶延长因子(REF)被推测与生物胶合成相关,在杜仲和橡胶树中,REF/SRPP基因家族都存在显著扩张,而与橡胶树SRPP和REF基因同时参与CPI合成不同,在杜仲中只有SRPP基因参与TPI合成,REF基因皆为低表达甚至无表达(Fig.3)。

法尼基焦磷酸合酶(FPS)是生物胶合成途径中的一种关键酶,杜仲FPS基因家族存在扩张并出现功能分化,产生了具有反式长链橡胶合成功能的II类FPS基因(Fig.4 a)。进化分析显示,杜仲和橡胶树的REF/SRPP基因家族成员属不同分支(Fig.4 b)。

Fig.4 FPS/REF/SRPP基因家族系统发育分析

研究人员综合分析结果,绘制了橡胶树橡胶(顺式聚异戊二烯,CPI)和杜仲胶(反式聚异戊二烯,TPI)合成途径及关键酶(Fig.5),推测双子叶植物中橡胶生物合成为多起源。

Fig.5杜仲和橡胶树的产胶生物途径比较

中国林业科学研究院经济林研究开发中心等研究团队首次获得了杜仲高质量基因组序列并解析了杜仲环境适应及胶生物合成机制,对杜仲生物学研究、良种培育、种植及产业链形成具有重要意义。

PacBio长读长测序和BioNano光学图谱技术的引入,对杜仲基因组的组装连续性有了很大的帮助。未来组拥有Sequel、Nanopore、BioNano及Hi-C等平台,同时搭载天河二号和阿里云服务器,在承诺高标准交付指标的同时,将进一步大幅压缩项目服务周期,为合作伙伴提供专业优质的服务。

参考文献

Wuyun T,Wang L,Liu H,et al.The hardy rubber tree genome provides insights into the evolution of polyisoprene biosynthesis[J].Molecular Plant,2017.

Oxford Nanopore丨人转录组direct RNA测序数据首发

继基于Oxford Nanopore测序技术的人全基因组数据发布后,人转录组RNA直接测序数据也已于2017年11月30日在github上发布[1]。此前已为大家分享过全基因组数据分析结果(Nanopore测序组装人类基因组初探),今天组学君为大家呈上Nanopore除了ultra-long reads之外另一个amazing的创新点–direct RNA测序应用于人转录组的研究。

材料:GM12878人细胞系RNA
方法:1. direct RNA 测序30 flowcells(建库测序方式见如下示意图)

2. 反转成cDNA测序12 flowcell

测序平台:Oxford Nanopore MinION

结论

01

direct RNA测序能够评估poly-A的长度

poly-A的长度属于可变聚腺苷酸化(APA)的一种,可能与mRNA的稳定性和3’UTR区参与基因表达调控机制相关[2],Nanopore direct RNA测序能够评估poly-A长度,为研究3’UTR区的重要生物学意义提供一种新方法。

通过在Nanopore direct RNA测序时添加已知参照物SIRV,并对其进行polyA长度分析,中值在20-30nt之间,与预期相符,说明使用Nanopore direct RNA测序评估polyA长度的方法有着很高的准确度。

02

direct RNA测序能完整重构isoform,为研究可变剪接、融合基因提供基础

发布数据的链接中[1],展示了利用Nanopore技术测序对人转录组中Dystonin gene和p53gene进行外显子连接和isoform重构。

03

direct RNA测序能直接检测RNA表观修饰

RNA的表观修饰研究的兴起,可能也就是近5年的事情,gold rush才刚刚开始[3]。与以往其它技术不同,direct RNA测序能够直接将RNA表观修饰的信息以电流变化信号记录下来,通过相关算法来识别。发布数据的链接中[1],展示了在E. coli 16s rRNA中检测到m7G 和假尿苷修饰的证据。

研究人员期望通过direct RNA测序将RNA所有的表观修饰准确地检测出来,包括tRNA。

参考文献和链接

[1]https://github.com/nanopore-wgs-consortium/NA12878/blob/master/RNA.md

[2]Subtelny, Alexander O., et al. “Poly (A)-tailprofiling reveals an embryonic switch in translational control.” Nature508.7494 (2014): 66-71.

[3]Willyard, Cassandra.”An epigenetics gold rush: new controls for gene expression.” Nature542.7642 (2017): 406-408.

[未来组项目文章] 三代萤火虫基因组文章发表

萤火虫可以通过发光细胞中的荧光素和ATP,在荧光素酶的催化作用下,与氧发生化学反应,形成氧化荧光素并且发出荧光。萤火虫发出的荧光是一种冷光,其发光效率可高达98%左右。

萤火虫可以利用荧光的闪烁节奏形成特定的闪光信号,主要用来吸引异性交尾,偶尔也起一定的警戒作用。这种行为与蟋蟀鸣叫,蝴蝶起舞等类似,都可归为求偶行为,因为场面过于浪漫,被人们赋予更多诗意。

夏夜、繁星,微风吹拂,蒲扇轻摇,流萤如一盏盏悬空点燃的小灯笼,舞动出独属夜的宁静和美妙。然而,这些可爱的小精灵如今却难觅踪迹。萤火虫家族急速缩减,有几个主要原因:一是过度砍伐森林或过度景观开发导致萤火虫栖息地被直接破坏;二是光污染;三是农药的使用;四是水污染。

2016年4月,未来组联合中国最权威的萤火虫自然保护研究中心——守望萤火,共同启动对萤火虫的基因组测序研究。依托守望萤火研究中心多年的物种保护和研究经验,对萤火虫基因组进行深度测序,将有助于我们理解这种萤火虫独特的闪光求偶行为,保护萤火虫生物多样性,进而守望萤火,守护美丽和惊奇。

胸窗萤(Pyrocoelia pectoralis)

胸窗萤基因组大小预估为785Mb,杂合度在2%-3%,有约>40%属于重复序列,这些特性都是构建参考基因组过程中需要面临的困难。

Fig.1 基因组survey k-mer分析图

未来组通过高深度的PacBio测序,加上二代数据校正,以及去除组装基因组冗余,最终构建高质量的参考基因组(760.4Mb),覆盖预估基因组大小的96.9%,contig N50=3.04Mb,是迄今为止除了模式动物果蝇之外,基因组组装连续性最高的昆虫基因组,经过BUSCO评估基因完整性很好(Table 1)。

通过转录组reads和注释的unigenes评估基因组注释情况,有98%的unigenes可以比对到基因组上(Table 2)

未来组为构建高杂合高重复序列的复杂昆虫基因组,搭建个性化work flow(见后图),据此获得的高质量的萤火虫基因组,为进一步研究荧光的产生,特殊的求偶行为提供基础。

work flow

基于Nanopore测序的结构变异分析【染色体碎裂病例解析】

基因组结构变异(structural variation),包括倒位、易位、重排、拷贝数变异等,影响基因组的稳定性、相关基因的表达调控,进而决定物种表型。研究基因组结构变异对分析动植物的进化起源,遗传育种和人类的健康及优生优育有着重要的意义。

在二代测序时代,1 kb~3 Mb亚显微水平的基因组结构变异一直受限于测序技术的短读长,无法得到准确地解析。进入到三代测序时代后,测序读长由几百bp上升到数十Kb以上,终于为基因组结构变异检测分析提供了更好的选择。

目前新兴的Nanopore测序技术,更是将最长读长提升到1Mb,研究人员遂将其应用到结构变异检测分析领域,以期更优质的表现。以下为大家解读这篇11月初发表在Nature Communications,基于Nanopore测序数据分析病人染色体碎裂重排病例的论文。

文中的两个病例(以下简称P1,P2)属于先天性发育不良,在2,7,8,9号染色体上发生了染色体碎裂重排(chromothripsis rearrangements),从核型分析(P1)可以看到9号染色体上的一段序列插入到了2号染色体中。

Fig.1 P1的核型分析

研究人员对P1和P2进行了低深度的Nanopore全基因组测序(11-16×),建立起基于Nanopore测序数据进行结构变异分析的pipline:NanoSV(Fig.2),同时以Illumina数据进行对比,构建基因组SV图谱(Fig. 3),对比了Illumina和Nanopore多种SV检测算法,并对P1的双亲进行了Illumina测序,用以后续进一步phasing。

2SV检测

基于Illumina测序数据,从P1中能检测到40个de nove染色体碎裂重排,并得到了PCR和Miseq验证(Fig.3),而基于Nanopore测序数据进行NanoSV分析,也检测到同样的SV,优于其它算法,如Lumpy, Sniffles(Fig.4)。

Fig.3基因组SV图谱

Fig.4 Illumina及Nanopore多种SV检测算法比较

在P2中,Illumina检测到29个de nove染色体碎裂重排,而NanoSV检测到24个,为了找到NanoSV为什么会 “miss” 掉5个SV的原因,研究人员进行了一代验证,原因可能是因为染色体发生了非常复杂的多位点断裂重排(Fig.5),而Illumina数据并未能准确地还原整个过程。

Fig.5 复杂的多位点断裂重连位点图例

对比Nanopore和Illumina的覆盖度受基因组GC含量的影响,发现Illumina存在很明显的GC bias,而Nanopore的测序覆盖度受GC含量的影响较小。

Fig.6 Nanopore与Illlumina测序的GC偏好性比较

总得来说,基于Nanopore数据的NanoSV分析复杂的基因组结构变异,准确度高,与二代相比GC 偏好性低,属于更优质的选择。以下为基于NanoSV分析P1 染色体碎裂重排的详细图解,在确定重排序列的顺序和方向方面,比Illumina更胜一筹(Fig.7)。

Fig.7 基于NanoSV分析P1染色体碎裂重排的详细图解

1Phasing

在二代测序时代,无法准确地区分等位基因,对SV变异也无法得知来自哪个亲本。而现在,借助于Nanopore测序的超长读长,通过更好的overlap关系,能更好地进行phasing。本文中,研究人员建立了一个pipline,通过结合分析Illumina数据的杂合SNPs和Nanopore reads,比对回亲本参考序列,准确地证实P1中的染色体碎裂起源于父亲(Fig.8)。

Fig.8  染色体碎裂中断裂重连的phasing

最近流行的Nanopore测序技术,最长读长高达1Mb,长读长在结构变异检测分析领域优势明显,不仅能灵敏地检测到结构变异,更能准确分析出重排的顺序、方向,还有助于探寻变异来源。

参考文献

MJ van Roosmalen, MC Stancu, I Renkens, et al. MappingAnd Phasing Of Structural Variation In Patient Genomes Using NanoporeSequencing[J]. Nature Communications, 2017

Nanopore测序组装人类基因组初探

Nanopore自2013年初次开放试用以来,一直犹抱琵琶半遮面,到了今年9月才得以进入中国市场。

在中间这约4年的时间里,官方宣传的侧重点主要是便携式MinION测序仪的建库时间短,测序仪体积小,样本起始量小等,能够进入到比较极端的环境进行菌种鉴定和环境微生物多样性研究等,例如深入到埃博拉病毒和寨卡病毒蔓延的疫区,南下至南极泰勒谷,也曾搭乘SpaceX 9太空飞船进入国际空间站。

随着测序仪机型的升级和试剂版本的更新,单flowcell的通量不断上升,读长分布也不断提升,Nanopore继而将服务目标瞄准了更具挑战性的动植物基因组,期望借助超长读长的优势,解决大型动植物基因组的组装难题。

目前唯二发表的纯Nanopore组装的GB级别基因组,除了之前未来组解读过的野生番茄(正式发表于The Plant Cell[1]),就是今年4月预印的人类基因组了[2],以下为大家介绍其组装情况。

利用Nanopore技术测序和组装人类基因组

测序数据量:在Oxford Nanopore MinION平台上测序39 flowcells产出91.2 Gb (~30×),试剂版本R9.4,再加入~5×ultra-long reads,最长读长882 kb。

测序数据评估

通过与参考基因组GRCh38比较,每个位点的覆盖度与预期相符合,呈泊松分布(λ=27.4) (Fig.1 A),并且reads的长度并不影响比对一致性 (Fig.1B)。

Fig.1 reads与参考基因组比对

组装效果评估

未经polishing的组装结果与参考基因组比对,一致性达95.74%。经过2遍Pilon校正后,一致性达99.88%(Fig.2)。或者单独经过Nanopolish也能达到99%以上,如果Nanopolish联合2遍Pilon校正,更能达到99.9%以上(Table 1)。

最终~30×的普通reads+~5×ultra-long reads,组装contig N50达6.4 Mb。6号染色体上的MHC区域被完整地组装出(包含在一个15Mb的contig内)。

Fig.3 染色体级别的组装

黑色和灰色区域表示能mapping到参考基因组
白色区域表示unmapped 序列,可能由参考基因组中的N碱基造成

本论文成型于Nanopore MinION开始试用的初期,5家单位联合产出了这些测序数据,下机reads的准确度约在80%-90%之间,在约35×的数据量情况下,contig N50>6M,初始组装准确度95.74%,经Nanopolish(and/or)2次Pilon校正后可达99 %以上。

整个项目测序37个flowcell,项目预算低于$30,000,组装指标优越,当属性价比超高。应用Nanopore组装复杂动植物基因组,将成为近几年的主流策略。

参考文献

Jain M, Koren S, Quick J, et al. Nanopore sequencing andassembly of a human genome with ultra-long reads[J]. bioRxiv, 2017: 128835.

我有四倍体咖啡,你有科学故事吗?(全长转录组文献解读-Gigascience)

多倍体化事件增加了基因组的复杂性,帮助克服极端环境,是推动植物进化的主要动力,在物种的演化过程中起了举足轻重的作用。然而多倍体物种的转录组分析,长久以来受限于二代测序读长偏短,不仅无法准确重构转录本,更无力探究各亚基因组间的isoform结构差异及基因如何选择性保留。

自PacBio全长转录组测序不断普及,以及高粱和玉米两篇全长转录组文献高调亮相Nature Communications引起广泛关注,研究人员开始尝试将这种新技术应用到多倍体物种的转录组研究中,以下是几篇多倍体物种PacBio SMRT 全长转录组文献统计,供大家参考。

本次为大家解读四倍体阿拉比卡种小粒咖啡(2n=4x=44)全长转录组文献[3],感受“全长转录组测序让多倍体物种isoform重构和亚基因组phasing不再是难题”。

阿拉比卡种小粒咖啡(Coffea arabica)为世界上最为广泛种植的咖啡品种,是由C.canephora和C.eugenioides杂交并基因组加倍形成的异源四倍体,其两个祖先种在味道、咖啡因含量、生存环境等方面有着显著的差别。C. arabica虽风味口感优质但对种植环境要求高、抗病虫害能力较弱,因此研究亚基因组基因表达调控,利于培育不仅美味而且更易种植的品种。

1材料与方法

随机选取Coffea arabica var. K7品系的不同植株,不同部位,不同发育阶段共计450 个果实。经样本前处理、RNA提取,反转成cDNA后,根据PacBio Iso-Seq protocol,分片段构建Pacbio RSⅡ文库并测序。(目前新一代PacBio Sequel测序仪可构建不筛分片段的转录组文库,更接近真实地还原物种转录本片段分布情况)

通过转录组注释、同源基因比对、候选基因筛选等一系列生物信息分析,筛选出与咖啡因、蔗糖合成相关的基因的isoforms,并与相关数据库比对。

2研究结果

咖啡因合成途径中isoform多样性

咖啡因的合成途径前期已有广泛的研究,已有比较完善的数据库提供候选基因和编码序列信息(转录组和基因组数据都有),在这篇四倍体小粒咖啡的论文中,研究人员找到了10个可能与咖啡因合成相关基因的高质量isoforms,并且发现这些isoforms都发生了5’非翻译区延伸。

Table1 咖啡因合成途径相关候选基因注释,isoforms及5’非翻译区延伸情况

这10个isoforms中,有9个比基因组DNA序列长,而有一个isoform可能因为发生了可变聚腺苷酸化(APA)而短于基因组DNA序列(Fig.2 c),在3‘UTR检测到2个潜在的APA信号(Fig.2 d)。

Fig.2 一个isoform(c25904/f2p0/977)可能因APA事件而短于基因组DNA序列

这些咖啡因合成相关的基因也存在可变剪切现象(AS),以下为DXMT2基因内含子保留AS示例(Fig.3)。

Fig.3DXMT2基因内含子保留AS示例

异源四倍体小粒咖啡转录组的isoforms表现出较明显不同的亚基因组来源,通过与已发表的祖先种之一C. canephora的转录组数据进行比对,XMT1、MXMT1、DXMT2基因的isoforms与C. canephora的isoforms有较好的一致关系,表示这些isoforms可能来源于C. canephora亚基因组;相反,XMT2、MXMT2、DXMT1与C. canephora的isoforms比对率不高,表明他们可能来源于另一个C.eugenioides亚基因组。

通过重构isoform初探复杂多倍体亚基因组的基因表达

通过PacBio 全长转录组测序,可准确地重构小粒咖啡的转录本信息,以蔗糖合成途径中非常重要的基因SS1为例,研究人员发现了9个转录本异构体,包括替换、缺失、内含子保留等多种可变剪接形式。

Fig.4 蔗糖合成相关基因SS1多种可变剪接形式

随后,同样通过与祖先种之一C. canephora的转录组数据进行比对,分析比对率和相同的核苷酸变异(Fig.5),以此推断单个isoform来源于哪个亚基因组。例如Fig.5中第1行(标黄)为祖先种之一C. canephora SS1基因序列,将小粒咖啡的多个isoforms的一致性序列与其进行比对,第2-5行的isoforms与C. canephora表现出高度的一致性,并共同在3,726 bp处有一个A-G的碱基替换,与第6-10行相比,在3,707bp、3,733bp处有着同样的inset、在3,713bp、3,715bp处有着同样的碱基替换,以此将isoforms的来源区分开。

Fig.5 SS1基因多个isoforms一致性序列中的碱基变异比较

第二个有力的证据是,第6-10行的isoforms与C. canephora相比较,在内含子10区域,有着更高的变异。

另外还可以通过等位基因加以佐证。

可变剪接、可变聚腺苷酸化、5’UTR延伸、亚基因组拷贝数这些因素的综合作用,形成了转录本的多样性,本文以咖啡和蔗糖合成途径相关基因为例,以PacBio SMRT长读长测序为技术手段,完成四倍体小粒咖啡 isoforms重构和亚基因组复杂、多样的基因表达研究,为其它多倍体物种基因表达调控研究提供参考。

未来组凭借率先引进PacBio Sequel平台的优势,已完成十余个多倍体动植物转录组测序分析,在多倍体物种isoforms重构和亚基因组phasing方面经验丰富。

引用文献

[1]Clavijo B J, Venturini L, Schudoma C, et al. An improved assembly and annotation of the allohexaploid wheat genome identifies complete families of agronomic genes and provides genomic evidence for chromosomal translocations[J]. Genome research, 2017, 27(5): 885-896.

[2]Wang M, Wang P, Liang F, et al. A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulation[J]. New Phytologist, 2017.

[3]Cheng B, Furtado A, Henry R J. Long-read sequencing of the coffee bean transcriptome reveals the diversity of full-length transcripts[J]. GigaScience, 2017.

百个Nanopore基因组计划

随着Nanopore平台不断升级,通量和准确率得到极大提升,不断有研究者开始通过Nanopore数据进行更大基因组组装,以及应用direct RNA测序直接读取RNA碱基修饰信息,未来Nanopore技术应用潜力无限,Oxford Nanopore技术将成为测序技术的主流,引领行业发展。

武汉未来组(NextOmics)作为国内三代测序技术应用的开拓者,自2011年起一直致力于将领先的技术提供给关注前沿科学的合作伙伴。我们是中国首家PacBio测序服务供应商,是亚太区首批PacBio Sequel测序中心,2017年9月未来组率先引进6台Oxford NanoporeGridION X5,成为Oxford Nanopore测序中心。

Nanopore测序组装人类基因组初探

人转录组direct RNA测序数据首发

人转录组direct RNA测序数据首发

基于Nanopore测序的结构变异分析【染色体碎裂病例解析】

Nanopore测序可得1Mb的超长读长?!

看Nanopore超长读长如何为高质量基因组组装添砖加瓦

未来已来,Oxford Nanopore全球最大测序中心落户中国

Nanopore测序技术已进军Gb级别的番茄基因组领域,你还在等什么?

欢迎来到Oxford Nanopore测序技术新世界

中国市场喜迎牛津纳米孔技术

参考文献

[1] Tyson J R, O’Neil N J, Jain M, et al. Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device[J]. bioRxiv, 2017: 099143.

[2] Michael T P, Jupe F, Bemm F, et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell[J]. bioRxiv, 2017: 149997.

[3] Jain M, Koren S, Quick J, et al. Nanopore sequencing andassembly of a human genome with ultra-long reads[J]. bioRxiv, 2017: 128835.

[4] Schmidt M H W, Vogel A, Denton A K, et al. De novo Assembly of a New Solanum pennellii Accession Using Nanopore Sequencing[J]. The Plant Cell, 2017, 29(10): 2336-2348.

[5] Jansen H J, Liem M, Jong-Raadsen S A, et al. Rapid de novo assembly of the European eel genome from nanopore sequencing reads[J]. Scientific Reports, 2017, 7(1): 7213.

Nanopore测序可得1Mb的超长读长?!

依据当前高通量测序技术发展,虽说现在仅花费几小时就可以组装出细菌基因组的完成图,但是你是否打开脑洞的想过,我们是否可以不组装,只需要1条read就可得到细菌基因组的全部信息?现在,Nanopore纳米孔测序的超长读长给了脑洞成为现实的可能。

当然,目前一条read就可测得一株细菌基因组信息的脑洞还没法立刻成为现实,但已有研究者通过优化样本提取、建库和上机条件后,可通过nanopore测序数据中的一条read覆盖全基因组序列的1/6。

优化流程

对过夜培养的E. coli K-12 MG1655 经Sambrook protocol提取,得到高分子量DNA(>60Kb),OD260/OD280 =2.0

通过前期测试经验,将建库起始量调整至20ug

最后,文库加载到1个标准的FLO-MIN106 flowcell (R9.4) 上机测序。

下机数据

最后下机总数据量为5,014,576,373bp,共150,604 条read,read N50为63,747bp,平均read长度为33,296bp。其中,前面最长的10条read分别为1,113,805bp, 916,705bp, 790,987bp, 778,219bp, 771,232bp, 671,130bp, 646,480bp, 629,747bp, 614,903bp, 603,565bp。

Figure 1E. coli K-12 MG1655下机数据读长分布

数据比对

经GraphMap工具将数据集比对到参考基因组,其中95.46%的序列可比对到参考基因组上,平均比对读长高达34.7Kb。

前面最长的10条比对读长分别为778,217bp, 771,227bp,671,129bp,646,399bp,603,564 bp,559,415bp,553,029bp,494,330bp,487,836bp,470,664bp,从理论上来说,7条最长的reads就可对4.6Mb大肠杆菌基因组进行覆盖。

Figure 2E. coli K-12 MG1655数据比对后读长分布

Nanopore测序技术中无PCR,无DNA合成,最终得到read长度很大一部分取决于文库模板DNA长度和质量,因此对DNA总量、纯度、完整性要求严格。

参考文献

Loman, N. J. Thar she blows! Ultra long read method for nanoporesequencing accessed 2017-05-08.

Nanopore测序技术已进军Gb级别的番茄基因组领域

近日,研究者经Oxford Nanopore长读长测序技术完成了对预估基因组大小约为1G的野生番茄(Solanum pennellii)测序组装工作,文章发表于 The Plant Cell。经Nanopore测序技术组装的野生番茄LYC1722基因组,组装指标Contig N50高达2.5Mb,其基因组连续性、基因完整度及其他技术指标高于Illumina组装的番茄LA716基因组结果。结果表明Nanopore长读长测序技术以轻量级的预算已可完成Gb级别基因组的测序组装工作。

利用Nanopore测序技术的番茄基因组文章刚正式发表了,ONT 在Gb级别的动植物基因组组装情况如何?请看下文。

研 究 方 法

  1. 研究材料:选择自交亲和的Solanum pennelliiLYC1722品种
  2. Nanopore测序:共上机31个flowcells。

(1)长片段(12-80 kb,15-80 kb)筛选建库,(1D) ONT sequencing library (SQK-LSK108),20 μg DNA/library,29 个ONT MinION flowcell (R9.4)

(2)未经片段筛选建库,24 μg DNA/2 library,2 个ONT MinION flowcell (R9.4)

研 究 结 果

数据下机情况

31个flowcell总产出为134.8G,flowcell产量在1.1-7.3G范围,大部分数据都是测序运行的24h内产生的(Figure 1),其中“Passed filter”为110.96G(基本上是预估基因组1-1.1G的100X测序量),过滤后的平均Q-score为7.44,在文库优化后的产出读长,过滤的平均读长在6,625-15,869bp间,最长read可达153,099bp。

Figure1 番茄Solanumpennelli 31个MinION flowcell测序产量情况

何种基因组组装策略最优?

为评估哪种组装策略对Nanopore在植物基因组组装效果更好,研究者经Canu、SMRTdenovo、miniasm及Canu-SMARTdenovo(经Canu校正过程和SMRTdenovo组装)几种组装策略对番茄基因组进行组装,发现Canu-SMARTdenovo组装效果最优:Contig N50 达2.45 Mb,Contig总数量为899,最大的Contig为12.32Mb,另外,每种组装策略对运算条件要求都各异(Table 1)。

Table1 番茄基因组Nanopore不同组装策略结果及纠错后组装结果

研究者提取了番茄基因组Nanopore数据量的40%,60%,80%数据,经miniasm,Canu,SMARTdenovo及Canu-SMARTdenovo进行组装测试,并经二代数据polish,发现Canu-SMARTdenovo组装效果始终最优(Figure 2)。另外,经片段筛分后构建的文库每个flowcell产出20Kb以上的读长占15%,而未筛分片段的文库产出20Kb以上的读长占3%,说明protocol的优化利于后续读长产出。

Figure2 番茄Solanum pennellii不同组装策略结果对比

番茄基因组组装质量如何?

经Nanopore原始数据组装的结果表现出明显的高错误率和高误差率,而经Nanopore-based polisher Racon或Nanopolish对错误率和基因覆盖改善效果不佳,而经Illumina数据对组装结果进一步Pilon polish,发现经Pilon迭代polish能有效降低组装结果的错误率和误差率,基因覆盖完整性提高到85%-96%(Table1, Pilon polished 5X)。同时结合其他番茄品种基因组及拟南芥基因组进行基因间比较发现,相对番茄Solanum pennellii LA716,番茄Solanum pennellii LYC1772基因组组装的完整性更完善。

此次番茄基因组Nanopore测序工作得到了高质量的番茄基因组,研究者最后粗略估算了下成本,对于这种中等大小的植物基因组(<2Gb)的Nanopore测序,在当时当地情况下,项目预算低于$25000,其他开销主要是计算资源,人力成本和耗损等。另一方面,Nanopore测序下机数据含有CpG甲基化数据信息,在不需要增加成本的情况下,可利用甲基化信息对物种进行深层次的表观关联研究。

参考文献

Schmidt M H W, Vogel A, Denton A K, et al. De novo Assembly of a New Solanum pennellii Accession Using Nanopore Sequencing[J]. The Plant Cell, 2017: tpc. 00521.2017.

欢迎来到Oxford Nanopore测序技术新世界

测序技术新时代

自454开启了第二代高通量测序的一扇新世界大门,测序技术飞速发展,高通测序技术呈现出百花齐放的姿态,最后Illumina赢得了第二代高通测序最后的战役,但风云变幻,出现了新的改变者——第三代测序技术PacBio SMRT和Oxford Nanopore Technologies。

ONT的概念从上个世纪80年代就提出来,但从理论到商业化应用,走了二十多年,2014年,ONT对外提供MinION试用项目计划(MAP),随后几年不断对早期版本仪器的高错误率和低通量问题进行改善,从2016年开始,Nanopore平台通量得到较大提升,错误率也显著降低,在基因组中的应用已从小基因组逐渐延伸到复杂动植物基因组中的应用,而更高通量平台GridION X5 和PromethION的发布将对Nanopore在复杂物种中的应用更为简单和便捷。

1 纳米孔测序技术原理

在牛津纳米孔测序技术中,将纳米孔蛋白(Nanopore)插入由合成聚合物形成的膜(Membrane)中,该膜具有非常高的电阻,通过对膜上施加电势,在纳米孔产生离子电流。当DNA分子通过纳米孔时,会形成特征性离子电流变化信号,该纳米反应信号可用于确定DNA分子上碱基的序列。其中,DNA分子上接的马达蛋白(Motor Protein)会附着在纳米孔蛋白上,控制DNA分子以一定速度通过纳米孔,一个纳米孔处理完一个序列后,可重新开始另外一条新的序列。

小提示

  1. Membrane:该膜具有非常高的电阻,通过对膜上施加电势,在纳米孔产生离子电流。
  2. Motor Protein:为解旋酶,在构建文库时,马达蛋白会随引导接头一同加在DNA分子上,在测序过程中,马达蛋白会对双链DNA解压和解链,使得单链DNA以一定速度经过纳米孔。

Nanopore平台升级

Nanopore平台自2014年进行MinION MAP项目开始,不断从flowcell、纳米孔、测序试剂和信号捕获及碱基识别软件等方面进行升级改进,其中,测序纳米孔最开始为R6,后面不断升级,出现了R7,R8,R9版本,到现在已经升级为R9.4,随之而来的是准确率和通量的提升。

Figure 2 Nanopore平台改进后的数据产量和准确率比较

除从MinION的硬件和软件全方位升级外,ONT还发布了MinION延展性平台GridION X5和 PromethION,在延续了MinION的核心测序技术及操作简单和文库制备快外,弥补了MinION测序仪通量低,及不适用于大批量样本或大基因组测序的不足(Table 1)。

Table 1 Nanopore平台参数对比

建库方式

  1. 在1D 建库中,仅有引导接头(Leading Adaptor),在测序过程中,首先,马达蛋白对双链DNA解压和解链,引导接头通过纳米孔,随后模板链通过。
  2. 在2D建库中,既有引导接头,还有连接双链DNA分子的发夹接头(Hairpin Adaptor),在测序过程中,首先,马达蛋白对双链DNA解压和解链,引导接头通过纳米孔,随后模板链通过,然后发卡接头和互补链通过。
  3. 在1D2建库中,DNA双链分别通过纳米孔,但并未如2D测序中通过发卡接头连接。当模板链完成测序后,之后纳米孔会捕获互补链的马达蛋白进行互补链测序。

Figure 3 Nanopore测序中3种建库模式

1D测序优势在于文库构建更便捷,可低至10min,可得到更长read,相对1D测序,2D测序中模板链和互补链序列可以得到高质量的一致性序列。

4 下机数据

Nanopore平台下机数据格式为FAST5格式,每条read都有各自的FAST5文件,除碱基信息,还含有信号数据及其他宏数据,所以read文件大小远大于read碱基大小,FAST5文件需要转化为FASTA和FASTQ格式再进行后续分析。在1D reads中通过判断是否通过平均质量值来确定下机read为“Pass”或者“fail”,在2D reads中,还需要兼顾模板链和互补链的质量。

Figure 4 每条read的FAST5文件示意

5 在基因组组装中应用

ONT和PacBio技术间的读长和错误率有相似性,因此,在ONT基因组组装中会采用PacBio的一些方法,如overlap, layout, consensus等组装原理,这些原理都来源于早期Sanger数据组装应用,目前Nanopore数据分析可适用的分析工具参考下面表格建议(Table 2)。

目前Nanopore数据组装中应用最为广泛的是Canu,有数据校正步骤,不过最后需要用Nanopolish进行polish;Miniasm是PacBio和Nanopore数据组装的一款工具,典型特征就是快,比如线虫基因组组装在16核运算条件下,仅需9分钟完成组装,因为追求速度,也牺牲了组装准确性。

Table 2 常用适用于Nanopore数据的分析工具

随着Nanopore平台不断升级,通量和准确率得到极大提升,不断有研究者开始通过Nanopore数据进行更大基因组组装,如100Mb线虫基因组,再到G级别的番茄基因组,未来Nanopore技术平台在复杂基因组中应用潜力无限。

参考来源

1.Leggett R M, Clark M D. A world of opportunities with nanopore sequencing[J]. Journal of Experimental Botany, 2017: erx289.

2.de Lannoy C V, de Ridder D, Risse J. A Sequencer Coming Of Age: De Novo Genome Assembly Using MinION Reads[J]. bioRxiv, 2017: 142711.

3.https://nanoporetech.com/