Nanopore测序组装人类基因组初探

Nanopore自2013年初次开放试用以来,一直犹抱琵琶半遮面,到了今年9月才得以进入中国市场。

在中间这约4年的时间里,官方宣传的侧重点主要是便携式MinION测序仪的建库时间短,测序仪体积小,样本起始量小等,能够进入到比较极端的环境进行菌种鉴定和环境微生物多样性研究等,例如深入到埃博拉病毒和寨卡病毒蔓延的疫区,南下至南极泰勒谷,也曾搭乘SpaceX 9太空飞船进入国际空间站。

随着测序仪机型的升级和试剂版本的更新,单flowcell的通量不断上升,读长分布也不断提升,Nanopore继而将服务目标瞄准了更具挑战性的动植物基因组,期望借助超长读长的优势,解决大型动植物基因组的组装难题。

目前唯二发表的纯Nanopore组装的GB级别基因组,除了之前未来组解读过的野生番茄(正式发表于The Plant Cell[1]),就是今年4月预印的人类基因组了[2],以下为大家介绍其组装情况。

利用Nanopore技术测序和组装人类基因组

测序数据量:在Oxford Nanopore MinION平台上测序39 flowcells产出91.2 Gb (~30×),试剂版本R9.4,再加入~5×ultra-long reads,最长读长882 kb。

测序数据评估

通过与参考基因组GRCh38比较,每个位点的覆盖度与预期相符合,呈泊松分布(λ=27.4) (Fig.1 A),并且reads的长度并不影响比对一致性 (Fig.1B)。

Fig.1 reads与参考基因组比对

组装效果评估

未经polishing的组装结果与参考基因组比对,一致性达95.74%。经过2遍Pilon校正后,一致性达99.88%(Fig.2)。或者单独经过Nanopolish也能达到99%以上,如果Nanopolish联合2遍Pilon校正,更能达到99.9%以上(Table 1)。

最终~30×的普通reads+~5×ultra-long reads,组装contig N50达6.4 Mb。6号染色体上的MHC区域被完整地组装出(包含在一个15Mb的contig内)。

Fig.3 染色体级别的组装

黑色和灰色区域表示能mapping到参考基因组
白色区域表示unmapped 序列,可能由参考基因组中的N碱基造成

本论文成型于Nanopore MinION开始试用的初期,5家单位联合产出了这些测序数据,下机reads的准确度约在80%-90%之间,在约35×的数据量情况下,contig N50>6M,初始组装准确度95.74%,经Nanopolish(and/or)2次Pilon校正后可达99 %以上。

整个项目测序37个flowcell,项目预算低于$30,000,组装指标优越,当属性价比超高。应用Nanopore组装复杂动植物基因组,将成为近几年的主流策略。

参考文献

Jain M, Koren S, Quick J, et al. Nanopore sequencing andassembly of a human genome with ultra-long reads[J]. bioRxiv, 2017: 128835.

我有四倍体咖啡,你有科学故事吗?(全长转录组文献解读-Gigascience)

多倍体化事件增加了基因组的复杂性,帮助克服极端环境,是推动植物进化的主要动力,在物种的演化过程中起了举足轻重的作用。然而多倍体物种的转录组分析,长久以来受限于二代测序读长偏短,不仅无法准确重构转录本,更无力探究各亚基因组间的isoform结构差异及基因如何选择性保留。

自PacBio全长转录组测序不断普及,以及高粱和玉米两篇全长转录组文献高调亮相Nature Communications引起广泛关注,研究人员开始尝试将这种新技术应用到多倍体物种的转录组研究中,以下是几篇多倍体物种PacBio SMRT 全长转录组文献统计,供大家参考。

本次为大家解读四倍体阿拉比卡种小粒咖啡(2n=4x=44)全长转录组文献[3],感受“全长转录组测序让多倍体物种isoform重构和亚基因组phasing不再是难题”。

阿拉比卡种小粒咖啡(Coffea arabica)为世界上最为广泛种植的咖啡品种,是由C.canephora和C.eugenioides杂交并基因组加倍形成的异源四倍体,其两个祖先种在味道、咖啡因含量、生存环境等方面有着显著的差别。C. arabica虽风味口感优质但对种植环境要求高、抗病虫害能力较弱,因此研究亚基因组基因表达调控,利于培育不仅美味而且更易种植的品种。

1材料与方法

随机选取Coffea arabica var. K7品系的不同植株,不同部位,不同发育阶段共计450 个果实。经样本前处理、RNA提取,反转成cDNA后,根据PacBio Iso-Seq protocol,分片段构建Pacbio RSⅡ文库并测序。(目前新一代PacBio Sequel测序仪可构建不筛分片段的转录组文库,更接近真实地还原物种转录本片段分布情况)

通过转录组注释、同源基因比对、候选基因筛选等一系列生物信息分析,筛选出与咖啡因、蔗糖合成相关的基因的isoforms,并与相关数据库比对。

2研究结果

咖啡因合成途径中isoform多样性

咖啡因的合成途径前期已有广泛的研究,已有比较完善的数据库提供候选基因和编码序列信息(转录组和基因组数据都有),在这篇四倍体小粒咖啡的论文中,研究人员找到了10个可能与咖啡因合成相关基因的高质量isoforms,并且发现这些isoforms都发生了5’非翻译区延伸。

Table1 咖啡因合成途径相关候选基因注释,isoforms及5’非翻译区延伸情况

这10个isoforms中,有9个比基因组DNA序列长,而有一个isoform可能因为发生了可变聚腺苷酸化(APA)而短于基因组DNA序列(Fig.2 c),在3‘UTR检测到2个潜在的APA信号(Fig.2 d)。

Fig.2 一个isoform(c25904/f2p0/977)可能因APA事件而短于基因组DNA序列

这些咖啡因合成相关的基因也存在可变剪切现象(AS),以下为DXMT2基因内含子保留AS示例(Fig.3)。

Fig.3DXMT2基因内含子保留AS示例

异源四倍体小粒咖啡转录组的isoforms表现出较明显不同的亚基因组来源,通过与已发表的祖先种之一C. canephora的转录组数据进行比对,XMT1、MXMT1、DXMT2基因的isoforms与C. canephora的isoforms有较好的一致关系,表示这些isoforms可能来源于C. canephora亚基因组;相反,XMT2、MXMT2、DXMT1与C. canephora的isoforms比对率不高,表明他们可能来源于另一个C.eugenioides亚基因组。

通过重构isoform初探复杂多倍体亚基因组的基因表达

通过PacBio 全长转录组测序,可准确地重构小粒咖啡的转录本信息,以蔗糖合成途径中非常重要的基因SS1为例,研究人员发现了9个转录本异构体,包括替换、缺失、内含子保留等多种可变剪接形式。

Fig.4 蔗糖合成相关基因SS1多种可变剪接形式

随后,同样通过与祖先种之一C. canephora的转录组数据进行比对,分析比对率和相同的核苷酸变异(Fig.5),以此推断单个isoform来源于哪个亚基因组。例如Fig.5中第1行(标黄)为祖先种之一C. canephora SS1基因序列,将小粒咖啡的多个isoforms的一致性序列与其进行比对,第2-5行的isoforms与C. canephora表现出高度的一致性,并共同在3,726 bp处有一个A-G的碱基替换,与第6-10行相比,在3,707bp、3,733bp处有着同样的inset、在3,713bp、3,715bp处有着同样的碱基替换,以此将isoforms的来源区分开。

Fig.5 SS1基因多个isoforms一致性序列中的碱基变异比较

第二个有力的证据是,第6-10行的isoforms与C. canephora相比较,在内含子10区域,有着更高的变异。

另外还可以通过等位基因加以佐证。

可变剪接、可变聚腺苷酸化、5’UTR延伸、亚基因组拷贝数这些因素的综合作用,形成了转录本的多样性,本文以咖啡和蔗糖合成途径相关基因为例,以PacBio SMRT长读长测序为技术手段,完成四倍体小粒咖啡 isoforms重构和亚基因组复杂、多样的基因表达研究,为其它多倍体物种基因表达调控研究提供参考。

未来组凭借率先引进PacBio Sequel平台的优势,已完成十余个多倍体动植物转录组测序分析,在多倍体物种isoforms重构和亚基因组phasing方面经验丰富。

引用文献

[1]Clavijo B J, Venturini L, Schudoma C, et al. An improved assembly and annotation of the allohexaploid wheat genome identifies complete families of agronomic genes and provides genomic evidence for chromosomal translocations[J]. Genome research, 2017, 27(5): 885-896.

[2]Wang M, Wang P, Liang F, et al. A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulation[J]. New Phytologist, 2017.

[3]Cheng B, Furtado A, Henry R J. Long-read sequencing of the coffee bean transcriptome reveals the diversity of full-length transcripts[J]. GigaScience, 2017.

百个Nanopore基因组计划

随着Nanopore平台不断升级,通量和准确率得到极大提升,不断有研究者开始通过Nanopore数据进行更大基因组组装,以及应用direct RNA测序直接读取RNA碱基修饰信息,未来Nanopore技术应用潜力无限,Oxford Nanopore技术将成为测序技术的主流,引领行业发展。

武汉未来组(NextOmics)作为国内三代测序技术应用的开拓者,自2011年起一直致力于将领先的技术提供给关注前沿科学的合作伙伴。我们是中国首家PacBio测序服务供应商,是亚太区首批PacBio Sequel测序中心,2017年9月未来组率先引进6台Oxford NanoporeGridION X5,成为Oxford Nanopore测序中心。

Nanopore测序组装人类基因组初探

人转录组direct RNA测序数据首发

人转录组direct RNA测序数据首发

基于Nanopore测序的结构变异分析【染色体碎裂病例解析】

Nanopore测序可得1Mb的超长读长?!

看Nanopore超长读长如何为高质量基因组组装添砖加瓦

未来已来,Oxford Nanopore全球最大测序中心落户中国

Nanopore测序技术已进军Gb级别的番茄基因组领域,你还在等什么?

欢迎来到Oxford Nanopore测序技术新世界

中国市场喜迎牛津纳米孔技术

参考文献

[1] Tyson J R, O’Neil N J, Jain M, et al. Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device[J]. bioRxiv, 2017: 099143.

[2] Michael T P, Jupe F, Bemm F, et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell[J]. bioRxiv, 2017: 149997.

[3] Jain M, Koren S, Quick J, et al. Nanopore sequencing andassembly of a human genome with ultra-long reads[J]. bioRxiv, 2017: 128835.

[4] Schmidt M H W, Vogel A, Denton A K, et al. De novo Assembly of a New Solanum pennellii Accession Using Nanopore Sequencing[J]. The Plant Cell, 2017, 29(10): 2336-2348.

[5] Jansen H J, Liem M, Jong-Raadsen S A, et al. Rapid de novo assembly of the European eel genome from nanopore sequencing reads[J]. Scientific Reports, 2017, 7(1): 7213.

Nanopore测序可得1Mb的超长读长?!

依据当前高通量测序技术发展,虽说现在仅花费几小时就可以组装出细菌基因组的完成图,但是你是否打开脑洞的想过,我们是否可以不组装,只需要1条read就可得到细菌基因组的全部信息?现在,Nanopore纳米孔测序的超长读长给了脑洞成为现实的可能。

当然,目前一条read就可测得一株细菌基因组信息的脑洞还没法立刻成为现实,但已有研究者通过优化样本提取、建库和上机条件后,可通过nanopore测序数据中的一条read覆盖全基因组序列的1/6。

优化流程

对过夜培养的E. coli K-12 MG1655 经Sambrook protocol提取,得到高分子量DNA(>60Kb),OD260/OD280 =2.0

通过前期测试经验,将建库起始量调整至20ug

最后,文库加载到1个标准的FLO-MIN106 flowcell (R9.4) 上机测序。

下机数据

最后下机总数据量为5,014,576,373bp,共150,604 条read,read N50为63,747bp,平均read长度为33,296bp。其中,前面最长的10条read分别为1,113,805bp, 916,705bp, 790,987bp, 778,219bp, 771,232bp, 671,130bp, 646,480bp, 629,747bp, 614,903bp, 603,565bp。

Figure 1E. coli K-12 MG1655下机数据读长分布

数据比对

经GraphMap工具将数据集比对到参考基因组,其中95.46%的序列可比对到参考基因组上,平均比对读长高达34.7Kb。

前面最长的10条比对读长分别为778,217bp, 771,227bp,671,129bp,646,399bp,603,564 bp,559,415bp,553,029bp,494,330bp,487,836bp,470,664bp,从理论上来说,7条最长的reads就可对4.6Mb大肠杆菌基因组进行覆盖。

Figure 2E. coli K-12 MG1655数据比对后读长分布

Nanopore测序技术中无PCR,无DNA合成,最终得到read长度很大一部分取决于文库模板DNA长度和质量,因此对DNA总量、纯度、完整性要求严格。

参考文献

Loman, N. J. Thar she blows! Ultra long read method for nanoporesequencing accessed 2017-05-08.

Nanopore测序技术已进军Gb级别的番茄基因组领域

近日,研究者经Oxford Nanopore长读长测序技术完成了对预估基因组大小约为1G的野生番茄(Solanum pennellii)测序组装工作,文章发表于 The Plant Cell。经Nanopore测序技术组装的野生番茄LYC1722基因组,组装指标Contig N50高达2.5Mb,其基因组连续性、基因完整度及其他技术指标高于Illumina组装的番茄LA716基因组结果。结果表明Nanopore长读长测序技术以轻量级的预算已可完成Gb级别基因组的测序组装工作。

利用Nanopore测序技术的番茄基因组文章刚正式发表了,ONT 在Gb级别的动植物基因组组装情况如何?请看下文。

研 究 方 法

  1. 研究材料:选择自交亲和的Solanum pennelliiLYC1722品种
  2. Nanopore测序:共上机31个flowcells。

(1)长片段(12-80 kb,15-80 kb)筛选建库,(1D) ONT sequencing library (SQK-LSK108),20 μg DNA/library,29 个ONT MinION flowcell (R9.4)

(2)未经片段筛选建库,24 μg DNA/2 library,2 个ONT MinION flowcell (R9.4)

研 究 结 果

数据下机情况

31个flowcell总产出为134.8G,flowcell产量在1.1-7.3G范围,大部分数据都是测序运行的24h内产生的(Figure 1),其中“Passed filter”为110.96G(基本上是预估基因组1-1.1G的100X测序量),过滤后的平均Q-score为7.44,在文库优化后的产出读长,过滤的平均读长在6,625-15,869bp间,最长read可达153,099bp。

Figure1 番茄Solanumpennelli 31个MinION flowcell测序产量情况

何种基因组组装策略最优?

为评估哪种组装策略对Nanopore在植物基因组组装效果更好,研究者经Canu、SMRTdenovo、miniasm及Canu-SMARTdenovo(经Canu校正过程和SMRTdenovo组装)几种组装策略对番茄基因组进行组装,发现Canu-SMARTdenovo组装效果最优:Contig N50 达2.45 Mb,Contig总数量为899,最大的Contig为12.32Mb,另外,每种组装策略对运算条件要求都各异(Table 1)。

Table1 番茄基因组Nanopore不同组装策略结果及纠错后组装结果

研究者提取了番茄基因组Nanopore数据量的40%,60%,80%数据,经miniasm,Canu,SMARTdenovo及Canu-SMARTdenovo进行组装测试,并经二代数据polish,发现Canu-SMARTdenovo组装效果始终最优(Figure 2)。另外,经片段筛分后构建的文库每个flowcell产出20Kb以上的读长占15%,而未筛分片段的文库产出20Kb以上的读长占3%,说明protocol的优化利于后续读长产出。

Figure2 番茄Solanum pennellii不同组装策略结果对比

番茄基因组组装质量如何?

经Nanopore原始数据组装的结果表现出明显的高错误率和高误差率,而经Nanopore-based polisher Racon或Nanopolish对错误率和基因覆盖改善效果不佳,而经Illumina数据对组装结果进一步Pilon polish,发现经Pilon迭代polish能有效降低组装结果的错误率和误差率,基因覆盖完整性提高到85%-96%(Table1, Pilon polished 5X)。同时结合其他番茄品种基因组及拟南芥基因组进行基因间比较发现,相对番茄Solanum pennellii LA716,番茄Solanum pennellii LYC1772基因组组装的完整性更完善。

此次番茄基因组Nanopore测序工作得到了高质量的番茄基因组,研究者最后粗略估算了下成本,对于这种中等大小的植物基因组(<2Gb)的Nanopore测序,在当时当地情况下,项目预算低于$25000,其他开销主要是计算资源,人力成本和耗损等。另一方面,Nanopore测序下机数据含有CpG甲基化数据信息,在不需要增加成本的情况下,可利用甲基化信息对物种进行深层次的表观关联研究。

参考文献

Schmidt M H W, Vogel A, Denton A K, et al. De novo Assembly of a New Solanum pennellii Accession Using Nanopore Sequencing[J]. The Plant Cell, 2017: tpc. 00521.2017.

欢迎来到Oxford Nanopore测序技术新世界

测序技术新时代

自454开启了第二代高通量测序的一扇新世界大门,测序技术飞速发展,高通测序技术呈现出百花齐放的姿态,最后Illumina赢得了第二代高通测序最后的战役,但风云变幻,出现了新的改变者——第三代测序技术PacBio SMRT和Oxford Nanopore Technologies。

ONT的概念从上个世纪80年代就提出来,但从理论到商业化应用,走了二十多年,2014年,ONT对外提供MinION试用项目计划(MAP),随后几年不断对早期版本仪器的高错误率和低通量问题进行改善,从2016年开始,Nanopore平台通量得到较大提升,错误率也显著降低,在基因组中的应用已从小基因组逐渐延伸到复杂动植物基因组中的应用,而更高通量平台GridION X5 和PromethION的发布将对Nanopore在复杂物种中的应用更为简单和便捷。

1 纳米孔测序技术原理

在牛津纳米孔测序技术中,将纳米孔蛋白(Nanopore)插入由合成聚合物形成的膜(Membrane)中,该膜具有非常高的电阻,通过对膜上施加电势,在纳米孔产生离子电流。当DNA分子通过纳米孔时,会形成特征性离子电流变化信号,该纳米反应信号可用于确定DNA分子上碱基的序列。其中,DNA分子上接的马达蛋白(Motor Protein)会附着在纳米孔蛋白上,控制DNA分子以一定速度通过纳米孔,一个纳米孔处理完一个序列后,可重新开始另外一条新的序列。

小提示

  1. Membrane:该膜具有非常高的电阻,通过对膜上施加电势,在纳米孔产生离子电流。
  2. Motor Protein:为解旋酶,在构建文库时,马达蛋白会随引导接头一同加在DNA分子上,在测序过程中,马达蛋白会对双链DNA解压和解链,使得单链DNA以一定速度经过纳米孔。

Nanopore平台升级

Nanopore平台自2014年进行MinION MAP项目开始,不断从flowcell、纳米孔、测序试剂和信号捕获及碱基识别软件等方面进行升级改进,其中,测序纳米孔最开始为R6,后面不断升级,出现了R7,R8,R9版本,到现在已经升级为R9.4,随之而来的是准确率和通量的提升。

Figure 2 Nanopore平台改进后的数据产量和准确率比较

除从MinION的硬件和软件全方位升级外,ONT还发布了MinION延展性平台GridION X5和 PromethION,在延续了MinION的核心测序技术及操作简单和文库制备快外,弥补了MinION测序仪通量低,及不适用于大批量样本或大基因组测序的不足(Table 1)。

Table 1 Nanopore平台参数对比

建库方式

  1. 在1D 建库中,仅有引导接头(Leading Adaptor),在测序过程中,首先,马达蛋白对双链DNA解压和解链,引导接头通过纳米孔,随后模板链通过。
  2. 在2D建库中,既有引导接头,还有连接双链DNA分子的发夹接头(Hairpin Adaptor),在测序过程中,首先,马达蛋白对双链DNA解压和解链,引导接头通过纳米孔,随后模板链通过,然后发卡接头和互补链通过。
  3. 在1D2建库中,DNA双链分别通过纳米孔,但并未如2D测序中通过发卡接头连接。当模板链完成测序后,之后纳米孔会捕获互补链的马达蛋白进行互补链测序。

Figure 3 Nanopore测序中3种建库模式

1D测序优势在于文库构建更便捷,可低至10min,可得到更长read,相对1D测序,2D测序中模板链和互补链序列可以得到高质量的一致性序列。

4 下机数据

Nanopore平台下机数据格式为FAST5格式,每条read都有各自的FAST5文件,除碱基信息,还含有信号数据及其他宏数据,所以read文件大小远大于read碱基大小,FAST5文件需要转化为FASTA和FASTQ格式再进行后续分析。在1D reads中通过判断是否通过平均质量值来确定下机read为“Pass”或者“fail”,在2D reads中,还需要兼顾模板链和互补链的质量。

Figure 4 每条read的FAST5文件示意

5 在基因组组装中应用

ONT和PacBio技术间的读长和错误率有相似性,因此,在ONT基因组组装中会采用PacBio的一些方法,如overlap, layout, consensus等组装原理,这些原理都来源于早期Sanger数据组装应用,目前Nanopore数据分析可适用的分析工具参考下面表格建议(Table 2)。

目前Nanopore数据组装中应用最为广泛的是Canu,有数据校正步骤,不过最后需要用Nanopolish进行polish;Miniasm是PacBio和Nanopore数据组装的一款工具,典型特征就是快,比如线虫基因组组装在16核运算条件下,仅需9分钟完成组装,因为追求速度,也牺牲了组装准确性。

Table 2 常用适用于Nanopore数据的分析工具

随着Nanopore平台不断升级,通量和准确率得到极大提升,不断有研究者开始通过Nanopore数据进行更大基因组组装,如100Mb线虫基因组,再到G级别的番茄基因组,未来Nanopore技术平台在复杂基因组中应用潜力无限。

参考来源

1.Leggett R M, Clark M D. A world of opportunities with nanopore sequencing[J]. Journal of Experimental Botany, 2017: erx289.

2.de Lannoy C V, de Ridder D, Risse J. A Sequencer Coming Of Age: De Novo Genome Assembly Using MinION Reads[J]. bioRxiv, 2017: 142711.

3.https://nanoporetech.com/

Nanopore 测序组装基因组浅析[多物种]

听说最近大家的朋友圈被组学君家的Nanopore 两大利器——MinIONGridION刷屏了,组学君家的座机也被咨询Nanopore的电话打爆了,大家热情这么高,组学君也不能辜负,于是从未来组最专注的基因组组装方向,为大家整理了几篇已公布的基于Nanopore测序基因组文章,先让大家一睹为快,当然,Nanopore测序到底如何?你不来未来组试试如何知道,组学君等你。

万事开头难,先从模式物种

线虫基因组组装及复杂区域重排检测

Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device

建库信息

(2D) ONT sequencing library(SQK-LSK108),上机4 MinION flowcells(R9.0)48hrs

(1D) ONT sequencing library(SQK-RAD001),上机2 MinION flowcells(R9.3)48hrs(Figure 1)

Figure1 MinION 测序

下机数据

共下机1.1M reads,read长度最长123,159 bp (平均长度 4,801 bp),其中5.33Gb 1D碱基,其互补链的2D 序列有1Gb,1D 序列比对率为~93%,2D比对率90-95%,其中,3号染色体上有~3M的 duplication(chrIII:10,062,096-11,973,739)(Figure 2)。

Figure2 MinION read 比对到参考基因组

组装结果

经Nanopore数据组装可到145 Contigs,Contig N50 = 1.22 Mb,覆盖了参考基因组的99%序列。研究者并用短读长数据做了比较,经Illumina平台的~8.04 G数据,组装得到38,645 Contigs,Contig N50 = ~26 kb。通过MinION 的基因组组装结果,同时还确定了重排和插入的复杂区域结构。

高质量拟南芥基因组

High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell typical consumer computing hardware (4 Cores, 16Gb RAM)

建库信息

1 μg gDNA ,(1D) ONT sequencing library (SQK-LSK108)(~3h),a single ONT MinION flowcell (R9.4) 48hrs

下机数据

平均读长11.4K(N50 7.5 kb),3.4G base-called sequence,平均质量值Q7.3,其中200k以上reads有4条,最长有269K,超过100kb有14条reads,50k以上有2317条reads。

组装结果

文中经多种组装软件测试,其中,minimap/miniasm组装少于1hr,racon (3x)consensus  12 hrs,pilon 进行polish 24 hrs。

ONT minimap/miniasm (ONTmin) 组装得到62 Contigs,ContigN50=12.3 Mb,覆盖了100% (119 Mb) 的非重复序列(Table 1),经BioNano光学图谱数据验证了其高连续性,并经PacBio RSII数据验证其高碱基质量。

最后研究者不忘计算此次Nanopore测序组装项目成本,总共花费了4天时间,以及包括仪器折旧和测序耗材在内1000美金。

Table 1 OxfordNanopore (ONT) 和Pacific Biosciences (PB)组装比较

模式物种搞定,再来点非模式物种

Gb级别番茄基因组组装

Reconstructing the Gigabase Plant Genome of Solanum pennellii using Nanopore sequencing

建库信息

通过2种片段方式建库:

  1. 富集长片段(12-80 kb,12-50 kb)建库,(1D) ONT sequencing library (SQK-LSK108),20 μg DNA/library,29 ONT MinION flowcell (R9.4)
  2. 未经片段筛选建库,24 μg DNA/2 library,2 ONT MinION flowcell (R9.4)

下机数据

共下机数据131.6G,平均一个Cell 4G产量,passed filter(Metrichor 1.121 base caller) 数据有110.96G(基本上是预估基因组1-1.1G的100X测序量),过滤后的平均Q-score为7.44,在文库优化后,平均读长在6,625-15,869bp间,最长read达153,099bp。

组装结果

提取40%,60%,80%数据量,经miniasm,Canu和 SMART de novo 进行组装测试,并经二代数据polish,其中Canu-SMARTdenovo效果最优:Contig N50 达2.5 Mb(Figure 3)。

Figure3 不同组装策略对比

欧洲鳗基因组快速组装

Rapid de novo assembly of the European eel genome from nanopore sequencing reads

建库信息

在血液和肝脏组织中提取High MW DNA,片段化到20 kb,构建不同文库:

ONT sequencing library (2D:SQK- MAP006),于ONT MinION flowcell(R7.3)上机;

ONT sequencing library (2D:SQK-NSK007和1D:SQK-RAD001),上机MinION flowcells(R9.0);

ONT sequencing library (SQK-LSK108和SQK-RAD002),ONT MinION flowcell(R9.4)。

下机数据

下机数据共15.6G(Table 2),k-mer分析预估基因组~860 Mb,下机数据基本上是基因组18X测序深度。

Table 2 Nanopore测序

 

组装结果

研究者开发组装新工具TULIP(The Uncorrected Long-read Integration Process),在二代数据基础上组装得到基因组891.7 Mb,Contig N50为1.2M,相对已有短读长组装的基因组草图提升显著。

现未来组Nanopore平台已稳定运行,测序服务也已正式起售,欢迎各位有意向了解的科研人员咨询您身边的科技顾问。

参考文献

1.Tyson J R, O’Neil N J, Jain M, et al. Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device[J]. bioRxiv, 2017: 099143.

2.Michael T P, Jupe F, Bemm F, et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell[J]. bioRxiv, 2017: 149997.

3.Schmidt M H W, Vogel A, Denton A, et al. Reconstructing The Gigabase Plant Genome Of Solanum pennellii Using Nanopore Sequencing[J]. bioRxiv, 2017: 129148.

4.Jansen H J, Liem M, Jong-Raadsen S A, et al. Rapid de novo assembly of the European eel genome from nanopore sequencing reads[J]. Scientific Reports, 2017, 7.

三代数据分析新工具MECAT:集超快比对、校正、组装于一体

导读

近日,中山大学研究团队开发的适用于长读长数据分析的新工具MECAT于Nature Method在线发布。与目前PacBio SMRT测序组装中常用工具相比,MECAT运算性能更优,运算结果结果相当或有提升,其中值得指出的是,运用MECAT分析工具,分析人员在个人计算机上即可对大基因组进行参考序列比对或基因组de novo组装。

来自Pacific Bioscience和Oxford Nanopore三代单分子测序技术的超长读长自面世就不断给基因组学领域的研究者惊喜,解决了很多基因组组学难题,助力多篇文章登上高分杂志。不过就像“你看见学霸轻松得高分,却没有看到学霸半夜挑灯夜战”一样,三代数据常用组装软件,如Falcon 、Canu和HGAP等都是基于两两比对确定overlap和纠错,这个过程非常耗时,基本上会花去整个组装过程中的大部分时间,对计算机资源消耗异常,对分析人员而言,真的会“挑灯夜战”。

未来组参与的“华夏一号”亚洲人基因组项目,当时国内外均缺乏纯三代测序数据进行大基因(>1Gb)组装的现成经验,已有生物信息分析学软件也不完善,而分析过程中面临着海量数据产出和大型基因组组装分析系列挑战,于是未来组同项目研究人员对FALCON进行改写和优化,顺利完成了这个项目。

针对以上问题,很多专注于长读长数据分析的团队,都在进行三代测序分析软件的优化工作,或开发更为高效的分析方法。中山大学研究团队开发的新工具MECAT(https://github.com/xiaochuanle/MECAT),可提高三代测序数据序列比对,校正和组装的运算速度,降低计算资源的消耗。

MECAT中算法原理

MECAT比对中采用全局种子打分算法,将长序列分成多个Blocks,序列间Blocks的k-mer进行比对(Figure 1a),以其中Block2为例,通过DDF(距离差异因子)对k-mer pair间打分(Figure 1b),以分数最高的为K-mer pair种子(Figure 1c),再以K-mer pair种子对其他block打分(Figure 1d),最后确定了2条序列间关系(Figure 1e),最终减少了局部序列比对的候选区域,进而减少比对所耗费时间。比较分析发现,通过DDF可以过滤掉50%-70%的候选区域比对(Figure 1g)。

Figure 1 MECAT算法原理图示

MECAT序列比对评估

总体来说,不论是PacBio数据还是Nanopore数据, MECAT都比其他比对工具快很多(Table 1)。

在5组PacBio数据集(E. coli,Yeast,A. Thaliana,D. melanogaster,Human)序列比对中, MECAT比对速度更快,其中在Human大型基因组数据的比对中,MECAT alignment的比对速度是MHAP-fast的5倍,是DALIGNER的17倍。

在3组Nanopore数据集(E. coli,B. anthracis,Y. pestis)序列比对结果中,由于其错误率高,MECAT运算中降低了比对参数,因此相比PacBio数据,MECAT在Nanopore中数据比对较慢。

Table 1不同比对方法在序列和参考基因组中比对结果

在对MECAT的比对敏感性和准确性评估中,基于3组模拟的PacBio数据集(E.coli,Yeast,Humanchr1)来进行了测试,相对MHAP和DALIGNER,MECAT aligner在敏感性和准确性都较高,且不论是小基因组还是大基因组,在敏感性和准确性上都表现出平衡。

MECAT基因组比对评估

MECAT在基因组比对中速度、敏感性、准确性和覆盖度都优于其他软件。

在4组PacBio数据集(E. coli,Yeast,A. Thaliana,D. melanogaster,Human)基因组比对分析中,MECAT在小基因组对比速度是BLASER的35-65倍,是BWA-mem的19-70倍,在人基因组中,比对速度也有BLASER和BWA-mem的几倍到十几倍(Table 1)。

在3组Nanopore数据集(E. coli,B. anthracis,Y. pestis)基因组对比分析中,MECAT是BLASER的2-5倍,是BWA-mem的4-6倍(Table 1)。

同时,三种比对算法的比对重叠率高达95-99%,这也表明MECAT的高可信度(Figure 2)。

Figure 2 MECAT,BLASER和BWA基因组比对重叠图示

*为Nanopore数据

同样的,MECAT在基因组比对中,不仅速度快,而且也兼顾了高敏感性、准确性及覆盖度(Table2)。

Table 2不同方法在基因组比对中的敏感性和准确性评估对比

MECAT数据纠错评估

MECAT能降低进入局部序列比对的候选序列数量,这也降低了后续校正时间,MECAT的序列校正优于其他常用校正软件。

在对4组PacBio数据集(E. coli,Yeast,A. Thaliana,D. melanogaster,Human)校正分析中,MECAT的速度是FC_Consensus的4–10倍,是FalconSense的5–21倍。

在对3组Nanopore数据集(E. coli,B. anthracis,Y. pestis)校正中,MECAT速度是FC_Consensus 的1.06~7倍,是FalconSense的1.6~11倍。

Table 3不同方法在长读长read校正中的速度和准确性对比

从以上测试评估中可以看到,与其他三代分析工具相比,MECAT在序列比对、校正方面做到了速度快,敏感性和准确性高,在组装上如何?于是研究者运用MECAT对CHM1基因组重构,结果发现也比PBcR-MHAP-fast(24.9x), PBcR-MHAP-sensitive(56.3×),Canu(5.1×) 快上几十倍,后面又利用102×PacBio数据(华夏一号-HX1)在单个32核计算机上完成了中国人基因组的组装工作。

测序技术的发展不仅局限于测序平台的不断创新,其上下游工作,如DNA/RNA提取、文库构建、数据分析等也同样重要,也需要如中山大学这样的研究团队一同努力,兼顾行业上下游工作的研发,从整体上推动行业发展和应用。

参考文献

XiaoC L, Chen Y, Xie S Q, et al. MECAT: an ultra-fast mapping, error correction andde novo assembly tool for single-molecule sequencing reads[J]. Nature Method, 2017. doi:10.1038/nmeth.4432

Oxford Nanopore测序数据惊艳首发!

武汉未来组(NextOmics)作为国内三代测序技术应用的开拓者,自2011年起一直致力于将领先的技术提供给关注前沿科学的合作伙伴。我们是中国PacBio测序服务供应商,是亚太区首批PacBio Sequel测序中心,凭借5年多的技术积累,成为了世界领先的三代测序中心。

今天,我们又将提供Oxford Nanopore (ONT) 数据首发,为大家引荐突破测序界“摩尔定律”的Oxford Nanopore测序技术。

【未来组采用人血源DNA,构建>10kb文库,于Nanopore MinION测1个flowcell,对下机reads进行质控统计,并与参考序列进行比对。】

高产出 高质量

单个flowcell产出约2.5G,与文献中使用Nanopore MinION测序组装人类参考基因组时的平均产出相当:~2.3Gb[1](39个flowcell共产出91.2Gb),并且其中高质量reads比例>80%。

超长读长

随后评估reads读长分布,平均读长~13.5kb,long reads最长达137kb,高于文献中的测序数据[1](Mean read length ~8.6kb)。

与参考基因组比对mapping率高

之后再评估测序数据的准确度,将reads与参考基因组GRCh37比对,mapping率高,符合预期。

简评 

记得今年早期,向稳(基云惠康创始人)在一篇微信文章中就提出,中国哪家测序公司会首先推出Oxford Nanopore的测序服务?我们今天算是给出了一个正式的答复。

三代测序是武汉未来组从2012年开始,就确定的差异化发展的战略。在2013年3月11日,正式推出三代测序(PacBio平台)服务以后,武汉未来组就一直不遗余力的推动三代测序在各个领域的应用,从一开始是在线粒体、叶绿体、细菌的基因组组装、表观修饰分析,逐步过渡动植物基因组的组装、人类基因组的组装、全长转录组等领域,武汉未来组一直走在了探索的前沿。今天,我们推出三代测序的又一个新平台,Oxford Nanopore,这对于我们来说,是一个新的里程碑。坦率的说,是否中国首家推出Oxford Nanopore测序服务,对于武汉未来组来讲,已经没有实质性的意义,但是,对于一个追求技术极限的团队来说,不走在技术的最前沿,就是一种耻辱,是我们不能接受的。

今天,我们公开的数据结果,仍然是很初步的数据,Oxford Nanopore平台仍然是一个早期应用的平台,还有很多不完美的地方。但是,我们相信,这条道路通向的,一定是一个崭新的世界!

Hello,未来!

Hello,Next-generation Omics !

参考文献

[1] MJain, S Koren, J Quick, et al. Nanopore sequencing and assembly of a human genome with ultra-long reads. bioRxiv.2017

未来组项目文章 |异源四倍体棉花全长转录组测序分析

未来组参与的异源四倍体棉花全长转录组项目文章于9月11号见刊New Phytologist,华中农业大学研究团队基于PacBio测序,并整合Iso-Seq流程开发适用于区分2套亚基因组转录本的分析方法,克服了短读长测序在解析多倍体isoforms的技术瓶颈,揭示了纤维特异性的可变剪接事件,2套亚基因组中部分同源基因的isoforms差异,并在isoforms水平上揭示了miRNA对可变剪接事件的调控,为研究多倍体物种可变剪接提供了新的研究角度。本次研究采用PacBio SMRT测序技术,对异源四倍体棉花进行全长转录组测序分析,直接得到更为完善的全长isoforms,完善棉花转录组注释,解析了异源四倍体棉花组织和2套亚基因中AS复杂性,并整合多组学数据,揭示AS的调控机制。
已有大量研究基于高通量测序技术揭示了真核生物转录组中的可变剪接(AS)的广泛性和复杂性,以及在植物发育阶段或应激反应中对AS进行全基因组范围内研究。基于短读长的RNA-seq在准确拼接重构全长isoforms时充满挑战,无法避免假阳性AS事件,尤其是在面对多倍体物种时,情况更加复杂。

研究方法

1.采集异源四倍体棉花Gossypium barbadense L. cv 3-79的根、下胚轴、叶、花瓣、花粉和花柱6个组织样本,提取RNA,等量混合,反转录为全长cDNA,构建1-2kb,2-3kb,3-6kb文库,上机PacBio RSII,P6C4,共测15Cells。

  1. 采集Gossypium barbadenseL. cv 3-79 6个发育时期(开花后0天即0 DPA、7 DPA、10 DPA、12DPA、20 DPA和30 DPA)的棉花纤维样本,提取RNA,等量混合,反转录为全长cDNA,构建1-2kb,2-3kb,3-6kb文库,上机PacBio RSII,P6C4,共测15Cells。

研究结果

1 全长转录组分析流程优化

在异源四倍体棉花全长转录组分析中,针对四倍体物种开发了整合性Iso-Seq数据分析流程(https://github.com/Nextomics/pipeline-for-isoseq),其中包含了数据质控、转录本分类、isoforms聚类及转录组后续分析(Figure 1),使用Samtools phase对来源于2套序列相似性极高的亚基因组的转录本进行区分(Figure 2)。

Figure 1 异源四倍体棉花的Iso-Seq数据分析流程

Figure 2 At和Dt 亚基因组上的转录本比对

2 Iso-Seq解析了多倍体棉花广泛的可变剪接、可变多聚腺苷酸、融合基因、新LncRNA等形式

(1)下机数据分析,共得到全长转录本1,096,932(ca. 43.2%)(Figure 3A),经mapping、phasing、clustering、consensus后总共得到44,968个基因的176,849个isoforms,其中全长isoforms平均2,175bp,比参考序列转录本平均1,462bp的长度长(Figure 3C),并且Iso-Seq可得到更多的多外显子isoforms(Figure 3D)。

(2)通过与参考序列比对,更新了18,008个基因,确定了222个融合基因,在新的转录本中确定了2,447个LncRNA,与LncRNA_V1比较,确定了365个新的LncRNA(Figure 3E)。在Iso-Seq中检测的44,968个基因中,基因上平均polyA位点数目为2.82(Figure 3F),同时分析了polyA位点侧翼核苷酸序列,其表现出核苷酸偏向性特征,在3’UTR的polyA剪切点的上游富含U碱基,在下游富含A碱基(Figure 3G),同时在polyA剪切点上游确定了2个保守的motifs(AAUAAA和UGUA)。

Figure 3 经Iso-Seq得到的棉花转录组图示

  1. 转录本分类 B.全长isoforms在文库中mapping汇总 C. 参考数据和Iso-Seq数据中转录本长度分布 D. 在参考数据和Iso-Seq数据中isoforms中外显子数目 E. Iso-Seq数据及中检测的全长LncRNA与LncRNA_v1的Venn图 F. 基因上polyA位点数目分布 G. polyA剪切点(-50 ~ +50)的核苷酸相对频率

(3)经Iso-Seq检测133,229个AS事件,发现63.8%基因的AS事件为内含子保留(IR)(Figure 4A),平均每个基因对应3.93个isoforms,大概是参考注释中的2.9倍(Figure 4B),另外,随机挑选了5个基因,根据其预测转录本设计引物,经RT-PCR来验证Iso-Seq中AS事件的检测,发现扩增片段与预测片段相符,同时,也发现了isoforms的表达量具组织特异性(Figure 4C)。

Figure 4 AS事件特征图示及全长isoforms的RT-PCR验证

A. AS事件分类及相对应的基因和AS事件数目

B. 参考数据和Iso-Seq数据中基因对应isoforms数据

C. 5个基因的AS事件的RT-PCR验证

3 组织特异性isoforms的结构和表达量差异分析

结合来自纤维样本和非纤维样本的Iso-Seq数据对比,检测到来自15,871个基因的66,652个两者共有AS事件(Figure 5A),经RNA-Seq数据对isoforms的表达量进行分析,发现组织特异性isoforms与isoforms组织特异性表达表现出一致(Figure 5B),挑选PB.1316进行验证,PB.1316可以转录为T1和T2两个isoforms,实验发现T1有些在非纤维组织中表达,如根和叶,在纤维发育过程中,T1表达量不断降低,而T2出现高表达(Figure 5C)。

Figure 5组织特异性AS事件和isoforms图示

A.组织特异性AS事件和相应基因的Venn图

B. 组织特异性AS事件类型图示

C. 最大组织特异性数值分布

D.PB.1316的2个isoforms(T1和T2)的转录模式 E. 对7个样本中PB.1316进行RT-PCR验证

4亚基因组的同源基因表现出isoforms结构差异

(1)结合已研究的16,077同源基因对和Iso-Seq数据,得到6,202对同源基因,可以分为3大类,其中group I中1,605对基因中At基因组isoforms数目呈收缩,group II中3,017对基因两者没有差异,而group III中1,580对基因中Dt基因组isoforms数目呈收缩,并对三个group进行GO分析(Figure 6A)。

(2)挑选来自不同group的三个基因对,group I的PAP10在At亚基因组中只转录1个isoforms,而在Dt亚基因组中转录6个不同isoforms;group II的ERD3在At和Dt亚基因组中都转录6个不同isoforms;group III的CPN60A在At基因组中可转录16个不同isoforms,而在Dt基因组中仅转录1个isoforms(Figure 6C-D)。

Figure 6  At和Dt亚基因组中同源基因isoforms数目

A. At和Dt亚基因组中同源基因isoforms log2比值及GO注释

B. At和Dt亚基因组同源基因PAP10的isoforms

C. At和Dt亚基因组同源基因ERD3的isoforms

D. At和Dt亚基因组同源基因CPN60A的isoforms

5 isforms多层面的调控——miRNAs和表观修饰

(1)对6个组织进行小RNA测序并整合已有的研究中测序的miRNAs,发现miRNAs结合AS在isoforms水平调控基因表达量。如PB.42410有5个isoforms,其中2个是miR399的靶序列; PB.18525可转录2个isoforms,其中1个isoform是miR397的靶序列,因为ES等事件PB.42410或PB.18525转录的其他isoforms而缺失了miRNA靶位点;PB.44799和PB.44311因为IR事件而获得miR7484和miR8634的靶位点;PB.27256和PB.2778转录的isoforms在 3’UTR和5’UTR分别获得miR396和miR827的靶位点(Figure 7A-F)。

Figure 7 miRNAs对全长isoforms靶向确定

(2)结合已有棉花纤维发育阶段的表观修饰分析数据与此次研究中的纤维样本的AS数据,在分析不同AS中核小体占位密度和DNA甲基化水平中,发现其可能都在定义外显子中起重要作用(Figure 8A和B);基于全长isoforms的UTRs注释,将其与CDSs的DNA甲基化水平对比,发现CG,CHG,CHH甲基化水平差异较小(Figure 8C,D,E,F,G和H),另外,经RdDM通路参与DNA甲基化的24-ntsiRNA在UTRs区域明显增加,可能与3’UTRs区域的CHG和CHH甲基化水平增加相关,这些都给AS和基因表达的甲基化调控提供了新思路。

Figure 8 isoforms中核小体占位和DNA甲基化分析图示

本次研究中经Iso-Seq测序,拓展了多倍体棉花的转录组研究,并从组织特异性和亚基因组角度确定了其中可变剪接的复杂性,结合多组学数据,分析了可变剪接事件的调控机制,而这些研究的基础关键在于需先获得全长isoforms。同时,文章也给予我们在转录组研究一些启发,在表型差异的转录组研究中,不仅需关注与其相关基因的表达量相关,也要考虑到可变剪接中的不同isoforms作用。

参考文献:

Wang,M., Wang, P., Liang, F., Ye, Z., Li, J., Shen, C., Pei, L., Wang, F., Hu, J.,Tu, L., Lindsey, K., He, D. and Zhang, X. (2017),A global survey ofalternative splicing in allopolyploid cotton: landscape, complexity andregulation. New Phytol. doi:10.1111/nph.14762