Nanopore 测序组装基因组浅析[多物种]

听说最近大家的朋友圈被组学君家的Nanopore 两大利器——MinIONGridION刷屏了,组学君家的座机也被咨询Nanopore的电话打爆了,大家热情这么高,组学君也不能辜负,于是从未来组最专注的基因组组装方向,为大家整理了几篇已公布的基于Nanopore测序基因组文章,先让大家一睹为快,当然,Nanopore测序到底如何?你不来未来组试试如何知道,组学君等你。

万事开头难,先从模式物种

线虫基因组组装及复杂区域重排检测

Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device

建库信息

(2D) ONT sequencing library(SQK-LSK108),上机4 MinION flowcells(R9.0)48hrs

(1D) ONT sequencing library(SQK-RAD001),上机2 MinION flowcells(R9.3)48hrs(Figure 1)

Figure1 MinION 测序

下机数据

共下机1.1M reads,read长度最长123,159 bp (平均长度 4,801 bp),其中5.33Gb 1D碱基,其互补链的2D 序列有1Gb,1D 序列比对率为~93%,2D比对率90-95%,其中,3号染色体上有~3M的 duplication(chrIII:10,062,096-11,973,739)(Figure 2)。

Figure2 MinION read 比对到参考基因组

组装结果

经Nanopore数据组装可到145 Contigs,Contig N50 = 1.22 Mb,覆盖了参考基因组的99%序列。研究者并用短读长数据做了比较,经Illumina平台的~8.04 G数据,组装得到38,645 Contigs,Contig N50 = ~26 kb。通过MinION 的基因组组装结果,同时还确定了重排和插入的复杂区域结构。

高质量拟南芥基因组

High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell typical consumer computing hardware (4 Cores, 16Gb RAM)

建库信息

1 μg gDNA ,(1D) ONT sequencing library (SQK-LSK108)(~3h),a single ONT MinION flowcell (R9.4) 48hrs

下机数据

平均读长11.4K(N50 7.5 kb),3.4G base-called sequence,平均质量值Q7.3,其中200k以上reads有4条,最长有269K,超过100kb有14条reads,50k以上有2317条reads。

组装结果

文中经多种组装软件测试,其中,minimap/miniasm组装少于1hr,racon (3x)consensus  12 hrs,pilon 进行polish 24 hrs。

ONT minimap/miniasm (ONTmin) 组装得到62 Contigs,ContigN50=12.3 Mb,覆盖了100% (119 Mb) 的非重复序列(Table 1),经BioNano光学图谱数据验证了其高连续性,并经PacBio RSII数据验证其高碱基质量。

最后研究者不忘计算此次Nanopore测序组装项目成本,总共花费了4天时间,以及包括仪器折旧和测序耗材在内1000美金。

Table 1 OxfordNanopore (ONT) 和Pacific Biosciences (PB)组装比较

模式物种搞定,再来点非模式物种

Gb级别番茄基因组组装

Reconstructing the Gigabase Plant Genome of Solanum pennellii using Nanopore sequencing

建库信息

通过2种片段方式建库:

  1. 富集长片段(12-80 kb,12-50 kb)建库,(1D) ONT sequencing library (SQK-LSK108),20 μg DNA/library,29 ONT MinION flowcell (R9.4)
  2. 未经片段筛选建库,24 μg DNA/2 library,2 ONT MinION flowcell (R9.4)

下机数据

共下机数据131.6G,平均一个Cell 4G产量,passed filter(Metrichor 1.121 base caller) 数据有110.96G(基本上是预估基因组1-1.1G的100X测序量),过滤后的平均Q-score为7.44,在文库优化后,平均读长在6,625-15,869bp间,最长read达153,099bp。

组装结果

提取40%,60%,80%数据量,经miniasm,Canu和 SMART de novo 进行组装测试,并经二代数据polish,其中Canu-SMARTdenovo效果最优:Contig N50 达2.5 Mb(Figure 3)。

Figure3 不同组装策略对比

欧洲鳗基因组快速组装

Rapid de novo assembly of the European eel genome from nanopore sequencing reads

建库信息

在血液和肝脏组织中提取High MW DNA,片段化到20 kb,构建不同文库:

ONT sequencing library (2D:SQK- MAP006),于ONT MinION flowcell(R7.3)上机;

ONT sequencing library (2D:SQK-NSK007和1D:SQK-RAD001),上机MinION flowcells(R9.0);

ONT sequencing library (SQK-LSK108和SQK-RAD002),ONT MinION flowcell(R9.4)。

下机数据

下机数据共15.6G(Table 2),k-mer分析预估基因组~860 Mb,下机数据基本上是基因组18X测序深度。

Table 2 Nanopore测序

 

组装结果

研究者开发组装新工具TULIP(The Uncorrected Long-read Integration Process),在二代数据基础上组装得到基因组891.7 Mb,Contig N50为1.2M,相对已有短读长组装的基因组草图提升显著。

现未来组Nanopore平台已稳定运行,测序服务也已正式起售,欢迎各位有意向了解的科研人员咨询您身边的科技顾问。

参考文献

1.Tyson J R, O’Neil N J, Jain M, et al. Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device[J]. bioRxiv, 2017: 099143.

2.Michael T P, Jupe F, Bemm F, et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell[J]. bioRxiv, 2017: 149997.

3.Schmidt M H W, Vogel A, Denton A, et al. Reconstructing The Gigabase Plant Genome Of Solanum pennellii Using Nanopore Sequencing[J]. bioRxiv, 2017: 129148.

4.Jansen H J, Liem M, Jong-Raadsen S A, et al. Rapid de novo assembly of the European eel genome from nanopore sequencing reads[J]. Scientific Reports, 2017, 7.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注