逆境中求生存的MinION君(三代测序那些事儿 第十期)

原创文章  作者 贺少方

三代测序那些事儿开贴以来一直是在讲三代测序君PacBio的发家史,其实三代测序这个行当里还有另外一位仁兄Oxford Nanopore,一直被大家忽略却也是蛮拼的一个家伙。小编今天就换个口味,给大家聊聊Nanopore MinION君是怎么逆境中求生存的。

Oxford Nanopore 2014年推出其掌上测序仪MinION试用计划,同样具有单分子测序与超长读取能力,摒弃了边合成边测序的设计思想,采用单条核酸链中不同碱基通过蛋白纳米孔是产生的电流变化来标定碱基顺序,这一独具匠心的设计造就了其U盘大小的体积、多种大分子(蛋白质、RNA、DNA)通吃、单分子超长读取等诸多特殊能力[1]

之后其30%的原始错误率饱受诟病,这其中就包括其首批试用用户伯明翰大学的Nick Loman,他首次试用后发现λ噬菌体的MinION数据因为较高的原始错误率仅有25%可以mapping回参考基因组,表示不好用。

但是短短一年时间里,MinION似乎找到了突破这一窘境的办法,测了埃博拉、分了HLA、装了基因组(酿酒酵母、不动杆菌、大肠杆菌),显示了自己在测序领域中的三代地位[2-5]

小编分析了上述提到的那几个MinION基因组的案例,发现MinION君确实是从PacBio君身上学到了不少东西,虽然两位在测序原理上是天差地别,但所产数据类型很相似的,读取很长(平均读长数Kb级别),原始错误率略高,而学到的主要的东西还是对原始reads的比对、校正思路、算法等,这些帮助了MinION慢慢脱贫致富,以下搜集的两组案例说明了这个问题。

E.coli K12 的纯MinION数据组装

最近(2015年2月)放在冷泉港预印本网站bioRxiv上的一篇单独使用MinION数据组装大肠杆菌E.coli K12基因组到完成图级别的文章便是一个很好的例子,比较巧的是这篇文章的作者便是文章第三段提到的那个嫌弃MinION不准的那个伯明翰大学的Nick Loman教授。

Nick Loman使用了21X的MinION 2D  reads(4 MinION Runs,平均读长~8kb)对E.coli K12的基因组装。DNA链的先导链和滞后链均被测到所产生的reads称为2D (two-Direction)reads,约占总数据的25%。 相较于普通的reads具有更高的准确率,结合新型试剂测序R7.3以及新型的base caller可以使2D reads准确率达到78%-85%,略低于PacBio的85%。

E.coli K12的组装过程也采取了类似于PacBIO组装过程中的先校正后组装的思路。校正过程中采用的DALIGNER比对算法、pbdagcon一致性算法均是之前针对PacBio数据所开发的,最后使用OLC算法的Celera Assembler对校正后的数据(准确度97.7%)进行了组装。

组装得到1条4.6M的contig,基本达到了完成图级别,与E.coli K12参考基因组相比,单碱基准确率为98.4%,有两处组装错误。

这一组装结果已经确实已经显示出了MinION在细菌完成图组装中的优秀性能,准确率方面的问题相信通过后期试剂、算法的更新会有较大的改善。

基于MinION数据的混合组装(不动杆菌 & 酿酒酵母)

除过大肠杆菌E.coli K12的纯MinION三代数据组装,MinION君之前也通过二三代数据混合组装的方式在不动杆菌A. baylyi 与 酿酒酵母S.cerevisiae中进行过尝试。

不动杆菌A. baylyi的二三代混合组装过程使用了23X的MinION数据与50X的illumina数据,利用针对MinION的新型组装算法NaS最终组装得到3条Contig,最后利用MinION数据使用SSPACE做Scaffolding,最终得到1条Scaffold。

酿酒酵母的二三代数据组装过程使用了121X的MinION数据,若干Miseq数据, 采用针对PacBio的PBcR思路进行组装,不过数据校正过程中使用到的比对算法为针对MinION开发的新型比对算法Nanocorr,一致性算法为HGAP中的pbdagcon,最后组装得到的ContigN50 为479kb,单碱基准确率99%以上。

最后,对于 MinION君的前途,不管你看不看好,反正我很看好。

Paper:

[1] Bayley H et al. Nanopore sequencing : from imagination to reality. Clin Chem.  2015

[2] Nicholas J. L et al. A complete bacterial genome assemble de novo using only nanopore sequencing data. bioRxiv . 2015

[3] Madoui MA et al. Genome assembly using Nanopore-guided long and error-free DNA reads. BMC Genomics. 2015 .

[4] Oxford Nanopore Sequencing and de novo Assembly of a Eukaryotic Genome. bioRxiv. 2015

[5] Ron Ammar et al. Long read nanopore sequencing for detection of HLA and CYP2D6 variants and haplotypes. F1000Res . 2015

声明:本文原创,转载请注明来源 。

一项基于PacBio的目标区域测序技术:PacBio-LITS(三代测序那些事儿 第九期)

最近有很多老师询问我们是否可以用PacBio SMRT 长读取技术只对他们感兴趣的基因组区域进行测序,也就是我们常说的目标区域测序,这样一方面节约了研究成本,另一方面也是更重要的一点,解决了基于NGS(传统二代测序)的目标区域测序所遇到的基因组复杂区域的组装及结构变异检出的问题。

该技术确实是可行的,Bayler医学院已经开发了基于NimbleGen 靶向捕获富集技术的PacBio目标区域测序技PacBio-LITS, 其中NimbleGen获技术是由Roche公司开发,可以几天内捕获连续或分散的 5Mb或30Mb基因组区域。该研究成果发表在今年3月份的 BMC Genomics。

对于该技术,我们(Nextomics)还处于研发阶段,参考了贝勒医学院的PacBio-LITS技术思路,成熟产品推出可能还需要些时间,但研发期间我们欢迎合作伙伴的加入。

PacBio-LITS 解读

相关文献:

PacBio-LITS: alarge-insert targeted sequencing method for characterization of humandiseaseassociated chromosomal structural variations .

PacBio– LITS技术路线

gDNA随机打断(g-TUBE)→BluePippin分选→NimbleGen捕获→LM-PCR→PacBio建库测序。见图1

                                                                图1:PacBio – LITS workflow

PacBio-LIST技术论证

研究人员总共制备了5个NimbleGen捕获文库,来自3个个体(HS1011、BAB1123、NA12878)。

捕获过程中使用了两种类型的探针:SMS/PTLS与MHC。其中SMS/PTLS是针对 Potocki-Lupski综合征(PTLS)、Smith-Mangenis综合征(SMS)相关区域设计,捕获区域为17号染色体短臂上的一段7Mb区域。MHC为针对人类HLA基因区域设计,区域大小为4.97 Mb。

HS1011构建了一个~4kb的MHC捕获文库。

NA12878分别构建了一个~6kb的SMS/PTLS捕获文库和一个~4kb的MHC捕获文库。

PTLS个体BAB1123构建了~1kb与~4kb两个SMS/PTLS捕获文库。

使用PacBio RSII对捕获文库进行了测序,各得到~800Mb数据,使用试剂为P5C3。

对测序结果统计显示,~6kb的捕获文库(NA12878,SMS/PTLS)的捕获率最高,~73%(目标区域的reads比对率),平均subreads长度为2.4kb。其次为BAB1123 的~1kb与~4kb SMS/PTLS捕获文库,捕获率分别为69%、65%,平均subreads长度分别为2.2kb与770bp。两个MHC捕获文库捕获率较差,均为~50%。

该结果表明较大的捕获文库较长的reads长度有着更高的捕获率。

PacBio-LITS检测PTLS个体致病区域 17p 11.2 结构变异情况

研究者分别为3个PTLS个体BAB2714、BAB2695、BAB3793构建了~4kb捕获文库,使用了针对17p11.2区域的SMS/PTLS系列探针(NimbleGen),捕获区域大小为7Mb。

将测序数据比对回人类参考基因组GRCh37,利用针对PacBio数据开发的结构变异检测工具PHhoney发现了存在于BAB2714、BAB2695、BAB3793的17p11.2区域的染色体重排现象(也得到了Sanger测序结果的验证)。

其中在BAB2714与BAB3793中发生了LCR(low copy repeat)介导的倒置重排,BAB2695中发生了Alu介导的染色体重排。

声明:本文原创,转载请注明来源。

PacBio SMRT & Structure Variation(三代测序那些事儿 第八期)

这期的三代测序那些事儿,小编要为那些研究人类疾病的小伙伴们献上一款刚刚在BMC Genomics发表(2015-04-22)的结构变异检测神器Parlianment。

文献链接:

http://www.biomedcentral.com/1471-2164/16/286/abstract

Parlianment是由Baylor医学院人类基因组测序中心生物信息学家Adam English领导开发的一个针对人类基因组的结构变异检出流程。小编看着这名字眼熟,百度一下发现原来PBjelly也是出自这位仁兄之手,PBjelly是一款利用PacBio长读取数据对现有基因组进行升级的软件。所以在Parlianment中引入PacBio三代测序数据进行SV检测也就不奇怪了。

这款软件的最大特点便是它能够同时输入多种类型数据进行SV位点的检测,比如Mate Pair / Pair End (Illmina)配对数据、PacBio长读取数据、BioNano光学图谱数据、aCGH芯片数据等,最大限度的检出存在于个人基因组中的结构变异信息,该软件的测试版目前是搭建在DNA云计算公司DNAnexus提供的云端服务器上。Parlianment工作流程见图1。

                                           图1 Parlianment work flow

        该流程首先整合了多款SV检测软件,包括针对Mate Pair数据的SVachra,针对Pair End数据发现小型变异的Breaddancer、Delly、CNVnator、Pindel、Crest、SV-STAT、Tiresias、Spiral,针对PacBio数据的PBHoney等,从而实现了利用多种类型数据检出待选变异位点,之后根据二三代数据的局部混合组装结果(PHRAP软件)、PacBio长读取Reads等进一步筛选出可信度较高的SV位点用于后续的科学研究。

关于该软件的性能,Adam等人使用了2X Illumina Nextera(6.5kb MatePair)、10X PacBio、51X的BioNano、CGH芯片数据(4,200,000个探针)的个人基因组HS1011数据对Parlianment进行了评估。

总共检出了31,007个结构变异位点,大小分布在100bp-1Mb之间。其中7,708个位点有local assembly结果支持(10X PacBio 与 48X illuminePE 利用PHRAP软件混合组装),1103个无组装结果支持的位点有多个类型的数据支持,966个无组装结果支持的位点有PacBio数据与另外一种其他数据支持。

利用Parlianment在个人基因组HS1011上找出了9,777个高可信度的结构变异位点。其中4352个位点比对到了基因组结构变异数据库(Database of Genomic variants, DGV)中,造成这一结果的原因可能是新型变异位点存在或者DGV数据库的不完善。

研究者使用long-PCR手段对这一结果进行了进一步评估。用来验证42个缺失突变(平均长度为10.6kb的)扩增子Sanger测序结果与Parlianment预测结果相差的平均碱基数仅为2个,显示出了预测结果的高度可靠性。

最后研究单独使用Illumina数据或者PacBio数据,检出的可信SV位点分别为3082、4,268,远远少于上述整合多种类型数据得到的9,777个。

到下班点了,小编就不多说了,这款软件的性能到底怎么样,还得小伙伴自己装起来run一下才知道嘛。

声明:本文原创,转载请注明来源。

国内首篇全长转录组新鲜出炉(三代测序那些事儿 第七期)

2015年4月21日Wiley旗下知名植物学期刊The plant journal 接收了中科院药植所的一篇丹参(Salvia miltiorrhiza的文章,国内首篇全长转录组文章也就此诞生(国际上首篇全长转录组文章2013年10月份发表在Nature Biotechnology上[1])。

趁着文章刚出来的那股新鲜劲儿还没过,小编今天就趁热打铁,从专业的角度麻利儿的为大家解读一下这篇号称国内首篇全长转录组的文章。

首先文章做的东西不多,但发了The plant journal,不要眼红,谁让人家用了最新的测序技术抢了国内首篇的头衔。

研究思路

文章的大体思路是从mRNA水平关注丹参中丹参酮(tanshinone)合成途径:

1)借助NGS测序平台Hiseq 2500 检测丹参中与丹参酮合成途径(MEP & MVA)相关的mRNA转录水平,并进行差异表达、共表达等分析;

2)利用三代测序平台 PacBio RSII (P4C2试剂)测序得到的 Isoform (准确的单条转录本信息)进行可变剪接(Alternatively splicing)分析,尤其关注参与丹参酮合成途径相关基因(CYPs、SmCPS1等)。

研究方案

 取样:丹参酮一般认为产生于丹参根部周皮部(因此根部表现为棕红色),研究分别取了根部的周皮(periderm)、韧皮(phloem)、木质部(xylem)部3种类型的根部组织进行了mRNA测序。

 测序:

Hiseq2500部分:3种类型根部样本各设置3个生物学重复,总共9个样本,每个样本产生~5G rawdata 。

PacBioRSII部分:3个样本混合测序,建<1kb、1-2kb、2-3kb、>3kb 四个 SMRTbell 文库,总共产生~4.8G raw data ,~79万 subreads(96%mapping 到了丹参参考基因组上), 根据 ployA 、5 端引物、3端引物信号,筛选得到~22万条全长转录本(full-length reads)。

分析:

1)PacBio数据原始错误率较高 (~15%) ,因此研究者使用了~50G的 Hiseq 2500 数据对 PacBioRSII 平台所产生的 subreads 进行了校正,校正算法为 2012 年 AU 等人发表的 LSC 算法。得到校正后的 subreads 后,再使用 Isoform 识别预测软件 IPD 预测得到了16,241个高质量非冗余 isoform。

2)基于Hiseq2500产生的mRNA数据的差异表达分析中研究者发现了在根部周皮部(periderm)特异表达与者高表达(相较于韧皮、木质部)的丹参酮合成相关基因 SmCPS1、SmKSL1、 GGPS、 IPI、 CYP 等;共表达分析还发现了丹参酮合成相关基因ODDs与SDRs的共表达模式。

3)最后研究者使用得到的16,241个高质量的Isoform进行了可变剪接分析(SpliceMap软件),结果显示,21%的基因发生了内含子保留 (intron retention),4%发生了外显子跳跃 (exon skipping),18%发生了5,剪切 (alternative 5 splice),39%发生了3,剪切(alternative 3 splice),其中包含一些丹参酮合成相关基因,比如 SmAACT3 、SmMK、SmPMK等。

目前,国内外已发表的全长转录组文章还不多,7篇左右,国内也就上述一篇,所以各位小伙伴想发这类文章,可得抓紧。

Paper:

[1] Sharon, Donald, et al. A single-molecule long-read survey of thehuman transcriptome. Nature biotechnology . 2013

[2] Au, K.F et al.Improving PacBio long read accuracy by short read alignment. PLosOne. 2012

[3]Tilgner, Hagen, et al. “Defining apersonal, allele-specific, and single-molecule long-read transcriptome.” PNAS. 2014

[4] Kin et al. “Characterization of the humanESC transcriptome by hybrid sequencing”. PNAS .2013

[5]Zhang, Wei, Paul Ciclitira, and JoachimMessing. PacBio sequencing of genefamilies-a case study with wheat gluten genes. Gene .2013.

[6] Treutlein, Barbara, et al.”Cartography of neurexin alternative splicing mapped by single-moleculelong-read mRNA sequencing.” Proceedings of the National Academy ofSciences . 2014

[7] Ganz, Holly H., et al. “NovelGiant Siphovirus from Bacillus anthracis Features Unusual GenomeCharacteristics.” PloS one . 2014

声明:本文原创,转载请注明来源。

Nextomics产品速递—-基因组denovo 3.0 (三代测序那些事儿 第六期)

在这期的三代测序那些事儿里,小编为大家介绍一个基于PacBio SMRT三代测序技术的新型基因组解决方案“基因组denovo 3.0 ”。该方案是由我们未来组(Nextomics)信息分析部的同事经过两年多时间的研发,各项参数在三四个大型动植物基因组、数百个小基因组的组装过程中反复优化,最终将这一国内目前最给力的基因组解决方案呈现给大家。

在推出我们的基因组denovo3.0之前,先上一个我们最近的一个超高杂合度的植物基因组的纯三代数据组装实例让各位小伙伴感受下:

该植物基因组的杂合度高达耸人听闻的3%,一般情况下杂合度大于0.8%的基因组便被划入了复杂基因组的范畴,3%的杂合度对于玩基因组组装的人来说绝对算的上一个噩梦。

杂合度问题一直是困扰传统的短读长 NGS 测序平台的固疾,因此面对这种超高杂合度的植物基因组,我们直接摒弃了NGS测序平台,转而使用了一种超长读取(平均读长约15kb)的新型测序技术PacBio SMRT,该技术小编已经在前面几期的文章里详细阐述,这里不作过多介绍。

我们使用了70X的纯PacBio数据,利用针对PacBio数据开发的、专门解决二倍体多倍体组装的最新组装算法FALCON对该基因组进行了组装,各项参数经过多个版本的调试,最终得到了ContigN50 值406kb的傲人战绩。与之前国内某巨头公司使用NGS数据组装得到的 18.5 kb 相比,完全高出一个数量级。

当然基因组组装的记过不能只看 ContigN50 指标,毕竟部分组装软件在这个问题上采用了选取最长路径的粗暴做法。因此,我们使用之前得到的该植物的根、茎、叶、穗四个部位的mRNA数据对基因组组装的准确度进行了一个评估,并与之前的NGS组装版本进行了比较,基因区覆盖度结果如下:

穗 PacBio VS NGS 91.09% VS 88.92%;

叶 PacBio VS NGS 87.33% VS 87.98%;

根 PacBio VS NGS 89.41% VS 89.39%;

茎 PacBio VS NGS 91.73% VS 90.20%。

因此,在准确度上,PacBio也是绝对是不输于NGS的。

除过纯三代数据组装,我们二三代数据混合组装的案例杜仲基因组也在去年12月份北京的新闻发布会上为大家呈现过,在这个案例中,我们仅在NGS数据中引入了8.7X的PacBio数据,使用SSPACE、PBjelly、Platanus等软件对这个杂合度大于1%,重复序列比例大于66%的复杂基因组进行了组装,最后的ScaffoldN50接近了1M,通常情况下这一数值小于300kb,详细信息大家可进入链接http://news.china.com.cn/2014-11/26/content_34156870.htm

感受完我们的demo case强力气场后,小编这就拿出我们的基因组denovo 3.0

1)动植物基因组 denovo 3.0

测序平台:PacBio RSII

测序深度:50X-100X(~20kb文库)

预计指标:ContigN50 >500kb ,ScaffoldN50>1M (20X BioNano辅助)

最新科研思路:多倍体起源进化、微进化(泛基因组)等[1-4]

2)微生物基因组 3.0

测序平台:PacBio RSII

测序深度:100X-200X

承诺指标:细菌完成图(No GAP ,NO N);

真菌接近完成图(ContigN50>800kb);

5mC、4mC、6mA修饰位点检出

最新科研思路:致病菌相关研究[5-8]

最后欢迎访www.nextomics.cn了解更多的三代测序产品。

Paper:

[1] De novo assemblyof soybean wild ralatives for pan-genome analysis of diversity and agronomictraits.

[2] Highly evolvablemalaria vectors: the genomes of 16 Anopheles mosquitoes .

[3] Earlyallopolyploid evolution in the post-neolitihic Brassica napus oilseed genome.

[4] Achromosome-based draft sequence of the hexaploid bread wheat (Triticumaestivum) genome

[5] The extant Wordwar1 dysentery bacillus NCTC1: a genomics analysis.

[6] Single- moleculesequencing to track plasmid diversity of hospital-associated carbapenemaseproducing enterobacteriaceae.

[7] Emergence ofscarlet fever Streptococcus pyogenes emm12 clones in Hong Kong is associated withtoxin acquisition and multidrug resistance.

[8]A random six-phse switch regulates pneumocaccalvirulence via global epigenetic changes.

表观&PacBio(三代测序那些事儿 第五期)

对于表观研究者来说,DNA修饰位点的检测肯定是一项日常工作。

基于重亚硫酸盐处理的BS-seq是目前主流的修饰位点检测方法,在其基础上还衍生出一系列的改进型技术,比如 PBAT、oxBS-seq、RRBS、TAB-seq,其中oxBS-seq、TAB-seq可用于检测5hmC[1-5]

这些方法的问题在于检测类型仅局限于高等真核生物中常见的5mC或者5hmC。

对于其他类型的DNA修饰,如 6mA、4mC、PT、8-oxoG等,传统做法往往是借助MS(质谱)、HPLC(高效液相色谱)等大型设备,操作复杂,成本高昂,不太适合中小型研究。

这些修饰或处于原核生物的 R-M(Restriction-Modification)防御系统,或处于基因转录调控网络之中,或与基因组复制有关,或影响着肿瘤的发生。最近中科院动物所的研究人员甚至在高等真核生物果蝇中也发现了6mA的修饰形式,成果公布在2015年4月份的Cell上[6]

Sanger方法虽能够检测细菌中常见的3中碱基修饰4mC、5mC、6mA,但一直没能够大规模的应用于细菌全基因组碱基修饰位点检测,原因主要在于其较小的通量,不适合组学研究背景下的表观研究。

因此, 5mC、5hmC之外的DNA修饰(4mC、6mA、PT等)似乎成了近年表观研究中缺失的一环。PacBio SMRT君的出现弥补了缺失的这一环。

小编在前几期的文章中提到过,PacBio测序过程中,不近可以记录碱基先后顺序,同时也记录了DNA聚合酶两个重要的动力学信息:Interplus Duration (IPD)、Plus Width(PW)。

IPD代表了相邻两个碱基渗入模板链的时间差、PW代表了碱基渗入到模板链所需的时间。IPD 与 PW反映了聚合酶的合成速度。

        

        PacBio研究人员最早是通过统计一段人工合成的,由35个碱基组成的,修饰位点已知的DNA链中各个碱基的IPD值,发现了碱基修饰对DNA聚合酶合成速度的影响。如图2所示,在6mA、5mC、5hmC修饰位点以及上下游几个碱基处的IPD(T-test,IPD均值简单比较)值均明显高于对照组(无修饰位点)位点。反映了DNA聚合酶在修饰位点以及附近合成速度有所下降,且三种碱基修饰类型对于DNA聚合酶的影响模式又有着各自的特点。

该研究还将IPD与PW分别作为PC1 、 PC2 对 5hmC、5mC、C进行了PCA聚类,结果见图3,成功通过 IPD 与 PW 两个值区分了5mC、5hmC。

这些发现提示了利用PacBio测序过程中记录的碱基IPD值推测DNA碱基修饰位点是可行的[7]

        之后PacBio研究人员建立了利用IPD值预测DNA碱基修饰位点的数学模型。该模型是基于条件随机场模型(Condition Random Filed, CRF), 充分考虑了修饰位点对附近碱基合成速度的影响的影响以及碱基之间的相互影响。相较于之前只考虑修饰位点单个碱基,做简单的T-test(比较每个位点IPD均值,丢失了位点修饰比率信息),该模型对修饰的预测更加灵敏与全面。

        相关数学模型(考虑了与附近碱基之间的相互影响θ1、θ2、θ3)

研究人员使用修饰位点已知的大肠杆菌质粒(5mC)、人工合成DNA链(8-oxoG)的PacBio数据对这一模型的各项参数进行了训练。并使用了受试者工作特征曲线(receiver operating characteristic curve, ROC)对该分类模型的可靠度进行了评估,评估结果显示,无论是有监督还是无监督学习模式,该模型可以在5%的假阳性率(FPR)内鉴定出接近 100% 的5mC、8-oxoG修饰位点。

        

        

        5mC、8-oxoG预测ROC曲线

使用上述训练好的模型(FDR设置为 5%)对甲基化酶缺陷菌株EcoK-,dam-/dcm- E.coli 包含质粒pRRS( 可表达Dam )的甲基化位点进行了预测,Dam一般被认为仅可对GATC中的A位点进行6mA修饰,该质粒含有24个GATC 序列,预测结果为24个GATC中的A均发生了6mA修饰,与预期相符[8]

上海交通大学的研究团队还与 PacBio 合作,在大肠杆菌菌株与弧菌属中建立了使用PacBio数据预测磷硫修饰(PT,新型的DNA骨架修饰)位点的分类模型,该模型基于上述提到的T-test算法,成果发表在2014年的Nature communication 上 [9]

随着预测模型的不断完善,基于PacBio SMRT的DNA修饰位点检测技术也越来越多的被应用到表观研究中,一些重要的致病菌研究包括沙门氏杆菌、肺炎链球菌、沙雷氏菌的表观研究已经应用了这一技术[10-12]

基于相关的文献以及PacBio官方推荐,我们(Nextomics)已经推出了基于PacBioSMRT 技术的 4mC、5mC、6mA检测产品,具体方案请参考我们最新的产品手册或电话咨询我们。

Paper:

[1] shotgun bisulphite sequencing of the Arabidopsis genome re veals DNA methylation patterning Highly intergrated single-base resolution maps of the epigenome in Arabidopsis.

[2] Amplification-free whole-genome bisulfitesequecing by postbisulfite adaptor tagging.

[3] reduced representation bisulfite sequencing for comparative high resolution DNA methylation analysis.

[4] Quantitative sequecing of 5-formylcytosinein DNA at single-base resolution.

[5] Base-resolution analysis of 5-hydroxymethycytosine in the Mammanlian genome.

[6] N6-Methyladenine DNA modification in Drosophila.

[7] Direction detection of DNA methylation during single-molecule,real-time sequencing.

[8] Modeling kinetic rate variation third generation DNA sequencing data to detect putative modification to DNA bases.

[9] Genomic mapping of phosphorothioates reveals partial modification of short consensus sequences.

[10] A random six-phse switch regulates pneumocaccal virulence via global epigenetic changes.

[11] DNA phosphorothioate modifications influence the global transcriptional response and protect DNA from double-strand breaks.

[12] Exploring the roles of DNA methylation in the Metal-reducing bacterium Shewanella oneidensis MR-1.

Pacbio SMRT君的逆袭—算法篇(三代测序那些事 第四期)

可靠消息,国内某测序巨头准备引进Pacbio SMRT测序平台PacBio RSII系统开始进军三代测序市场,按照惯例,其他小巨头也会紧随其后,所以,小编深深觉得,今年国内肯定要刮起一阵不小的三代测序风,三代测序市场的竞争也将变得激烈起来。

从09年PacBio RS首批测试数据公布暴露出15%的原始错误率(主要为InDel错误)后开始遭人诟病到13年PacBio SMRT首次进入中国市场(Nextomics首家推出)而又普遍不被看好再到如今被国内主要NGS测序公司争相追捧,在小编看来,这算得上是PacBio SMRT君的一次华丽逆袭。

这期,小编将为大家盘点那些让PacBio SMRT君华丽逆袭的那些算法。

显然,直接使用原始错误率为15%且大多数为InDel错误的Reads进行基因组拼装是不可行的,因为大多数基因组组装软件所能忍受的Reads上限错误率<~5%-10%。因此对PacBio RS平台所产生的Reads(错误随机分布)进行比对 & 校正成为了此类数据应用于基因组组装的第一步。

然而大多数比对软件主要是针对高准确率短读长的NGS测序数据设计,比如 SOAP、Bowite、BWA、Maq、SHRIMP、ELAND等,无法对这种读长为数kb、原始错误率15%的三代数据进行比对,虽然在BWA基础上修改得到的可容忍较高错误率且能够进行长读长数据进行比对的BWA-SW却有着比对率不高的缺点。

以下两款专门针对PacBio数据的新型比对软件的出现改变了PacbioSMRT君的这一窘境,也开启了PacBio君的逆袭之路。

NO.1 BLASR (主要针对微生物基因组)

BLASR是基于经典动态规划思想设计的局部比对软件,使用了BWT(Burrows-wheeler Transform)格式的索引结构进行匹配区域快速定位,对于候选匹配区域与最终匹配区域的确定使用了运算速度更快的稀疏动态规划算法(Sparse Dynamic Programing)。

加利福尼亚大学的软件开发人员首先使用产生于大肠杆菌E.coli OH104:H4基因组的48X的PacBio数据(10.7% insertion、4.3% deletion、0.9% substitution)对BLASR的mapping 率、mapping速度进行了评估,结果显示,BLASR mapping率为90%,高于BWA-SW的50%,运行时间为20min 54 S ,小于BWA-SW的434 min 5S。

为了评估该软件的mapping准确率,软件开发人员使用了大肠杆菌基因组的Pacbio 模拟数据对基因组进行mapping,结果显示90%以上的reads mapping 准确度在99.99%以上。见图8[1]

        BLASR凭借其优秀的mapping品质与多款Consensus算法软件(AMOS、Quiver、PBDAG-Con等)一起构成了多款后来出现的针对Pacbio数据的基因组组装软件的核心校正算法,这些软件包括二三代混合组装软件PBcR-BLASR、AHA,纯三代组装软件HGAP。

其中纯三代组装软件HGAP(Hierarchical Genome-Assembly Process)是一款基于分级组装思想的基因组组装软件。其大致流程为:

1)挑选较长的reads作为seed reads(>6kb)

2)使用BLASR将较短的的reads mapping 的seed reads上,使用PBDAG -Con一致性算法对reads进行校正并进行预组装

3)使用CA算法对预组装得到的准确率较高的长Reads进行组装

4)将原始reads mapping回组装好的基因组,使用新型一致性算法Quiv er对所得基因组进行进一步校正,最终得到准确率大于99.9999%(QV60) 的高质量的微生物基因组图谱。大致流程见图1。

        Stephen Turner等人分别使用了100X、90X、100X的大肠杆菌、栖热菌、肝素黄杆菌PacBio数据对HGAP的组装效果进行了评估,组装结果中Contig数分别为2、3、1[1]

随着Pacbio SMRT的读取长度、运行通量的增加,之前出现的二三代混合组装软件相较于纯三代组装软件HGAP,无论是在测序成本还是组装指标均没有优势,因此,这种二三代混合组装的策略在微生物基因组组装中慢慢被淘汰,对于之前提到的那些二三代混合组装小编就不做过多赘述[3][4][5]

NO.2 MinHash(针对大型动植物基因组)

MinHash也是一款基于经典的动态规划思想设计局部序列比对软件,与BLASR不同的是,它采用了最小哈希算法(MinHash)实现了匹配区域的快速定位,该过程如图1所示。

        

        大致流程为:1)reads Kmer化, 2)将Kmer通过 Hash方程转化为整数格式的fingerprints,3)挑选各自fingerprint最小的Kmer组成用于比对的Kmer集合Sketch 4)使用Jaccard相似度计算Kmer相似度 5)若相似度超过阈值,则返回基因组区域使用动态规划算法详细比对 6)找出匹配区域。

包括Pacbio 的Chen-Shan Chin在内的软件开发人员使用拟南芥、果蝇、人类的PacBio测序数据评估了MinHash算法在大型基因组测序数据比对过程中的性能。结果显示Mapping率在80%左右,准确率均在90%以上,而运行时间仅为15-21 CPU h ,而另一款主要应用于微生物基因组数据比对的BLASR的在大型基因组测序数据比对时运行时间高达上百 CPU h [6]。

之后软件开发人员将MinHash结合新型Consensus软件FalconSense,再整合到OLC组装算法软件Celera Assembler(CA)中得到了大型基因组纯三代组装算法PBcR-MinHash。软件开发人员分别使用了121X、144X、54X的果蝇、拟南芥、人类葡萄胎的Pacbio数据对PBcR-MinHash的组装性能进行了评估,三个物种的ContigN50分别达到了11Mb、20Mb、4Mb。

至此,PacBio SMRT君通过内在的修为弥补了表面缺陷,完成了自己的逆袭之路。

未来组生物(Nextomics Biosciences)基于HGAP已经推出了多款微生物基因组完成图产品,在动植物基因组方面也成功召开了基于三代测序技术的杜仲基因组新闻发布会,感兴趣的小伙伴可以电话或邮箱联系我们。

Paper:

[1] Mark J Chaisson et al. Mapping single molecule sequencing readsusing basic local alignment with successive refinement (BLASR): application andtheory. BMC Bioinformation . 2012

[2] Stephen W Turner et al. Nonhybrid, finished microbial genomeassemblies from long-read SMRT sequencing data. Nature Mehods. 2013

[3] Sergey Koren et al. Hybrid error correction an de novo assembly ofsingle molecule sequencing reads. NatBiotechnol . 2012

[4] Ali Bashir et al. A Hybrid Approach for the Automated Finishing ofBacterial Genomes. Nat Biotechnol .2012

[5] Filipe J Ribeiro et al. Finished bacterial genomes from shotgunsequence data. Genome Research. 2012

[6] Konstantin Berlin et al. Assembling large genomes with singlemolecule sequencing and locality sensitive hasing. Bio Rxiv. 2014

声明:本文原创,若转载,请注明来源

三代测序那些事儿(第三期)

世界那么大,我想去看看,但钱包和老板不让。

所以,小编只能暂时继续安分的坚守在工作岗位上挥发自己的光和热。

好了,言归正传,上期为大家盘点了那些使Pacbio SMRT异军突起的核心技能,加上第一期中提到的该测序君在亚洲人类基因组计划中的强悍表现,相信大家已经感受到了Pacbio SMRT君那点超凡脱俗的小气质。

超凡脱俗的气质的养成还得从Pacbio SMRT君的诞生过程说起。

小编搜罗整理了从2003年Pacbio SMRT君最核心元件ZMWs概念出现到2011年Pacbio SMRT君在海地霍乱菌研究中的牛刀初试之间的7篇Paper以及相关事件,这7篇Paper基本构成了Pacbio SMRT君的诞生简史,也是大家想要了解Pacbio SMRT君不得不读的Paper。

这期小编将为大家奉上这7篇文献及其解读,继续帮助想要了解三代测序的小伙伴快速入门。

源于微波炉门的灵感让当时还在康奈尔大学读研的Stephen Turner 与 John Korlach两个人想到了一个实现生物反应过程单分子检测的巧妙想法,利用一个超级微缩版的微波炉门ZMWs结构来检测单条DNA链的合成过程,这一猜想很快被他们发表在2003 Since上的一篇Paper论证,接下来便是一个微波炉门引发的测序技术PacbioSMRT的诞生之路。

Paper1 便是对那个“微波炉门猜想”的论证。

Paper 1(2003年):

Zero– Mode Waveguides for Single-Molecule Analysis at High Concentrations .

该研究中,Stephen Turner(Pacific Biosciences创始人)等人论证了利用一种称为零模波导(Zero-Mode Waveguides,ZMWs)的金属穿孔状元件在生物反应浓度(μM)条件下进行单分子检测的可行性。

该孔状结构直径在100nm左右,使用波长为几百纳米(>1.7倍孔径)的激发光从孔底部射入时,无法在孔中传播(孔中无光模式存在,因此称为零模波导ZMWs),只能在ZMWs底部衍射形成一个极小的激发场/观测体积(observation volume)。

经推算,该激发场的体积在仄升(10-21L)级别,相当于在μM体系中该激发场中仅存在单个荧光标记分子(有效的排出了DNA测序过程中背景荧光的干扰)。

研究最后,Stephen Turner等人利用ZMWs结构对单条M13噬菌体DNA链的体外合成过程进行了监测,使用香豆素标记的dNTP(7.5μM)作为反应指示物,监测得到的合成时间(30min)、合成速度(10 to 15 bases per second)等参数与预期相符。

研究结构证明了Stephen Turner 等人可利用ZMWs进行生物反应过程单分子检测(单条DNA链合成过程监测)的猜想是正确的,大约在10年后由Pacific Biosciences公司发布的DNA单分子实时测序平台Pacbio RS便是采用这一结构(SMRT Cell)实现了单分子测序。

2004年,致力于一种单分子测序平台研发的PacificBiosciences公司(以下简称Pacbio)成立(来自维基百科),Pacbio SMRT君的诞生之路也正式开始。

Paper2(2008年):

Long, processive enzymatic DNA synthesis using 100% dye-labeled terminal phosphate-linkednucleotides.

该研究中,Stephen Turner等人针对正处于研发阶段的Pacbio RS系统开发了一种新型的dNTP荧光标记技术。

摒弃了当时主流NGS测序技术中将荧光基团标记于dNTP碱基的做法,而是将荧光基团标记于dNTP的磷酸链末端(参照2005年一篇HIV反转录酶研究中的dNTP标记方法),合成过程中,荧光基团随着焦磷酸基团被聚合酶自然切除,不会渗入到合成的DNA链中,无需各类洗脱试剂,最大限度的保持了DNA聚合酶的活性。

Stephen Turner等人使用一个人工合成的环状(72bp)DNA作为模板,Ф29聚合酶介导的,磷酸链末端荧光标记的dNTP作为反映底物的 PCR反应对该类新型荧光标记dNTP读长潜力进行了测试,琼脂糖凝胶电泳结果显示,5min后扩增长度达到3kb(未标记dNTP对照组 4.5kb,碱基标记dNTP对照组无扩增条带),20min后扩增长度达到了10kb。

该结果显示了此类新型dNTP标记技术带来的边合成变测序过程中(SBS)超长读取潜力,这一技术使日后的Pacbio SMRT君具有了超长读取的能力,避免了另一位在上期提到的三代测序君HeliScope出师未捷身先死的悲剧。

Paper3(2008年):

Parllelconfocal detection of single molecules in real time.

在该研究中,Pacbio工程师门描述了一种内置有可产生数千个激发通道的全息相位掩膜(holographic phasemask,HPM)与高帧率(100HZ)电子倍增CCD相机(EMCCD)的荧光共聚焦显微镜系统,该系统被整合到了后来的Pacbio RS平台中,实现了对DNA测序过程中的实时监测,得到了DNA聚合酶的动力学信息,为后续的碱基修饰信息挖掘提供了数据支持。

至此,Pacbio SMRT君已初具雏形,Pacbio公司也于2009年公布了Pacbio RS的首批测试数据,并对其所产生的数据特点进行分析。

Paper4(2009年):

Real-timeDNA sequencing from Single Polymerase Molecules(1).

在这篇研究中,Stephen Turner等人主要对刚刚公布的Pacbio RS首批测序数据特点(一个72bp人工的环形DNA模板与一个150bp线性DNA模板下机数据)进行了分析。

读长评估:

环形DNA模板测序下机数据显示(仅标记dCTP dGTP),DNA聚合酶活性通常可以持续数千秒,平均读长1kb,部分读长超过4kb,聚合酶活性持续1小时以上,聚合酶基本保持了其内在的合成速度2~4 bases/s。

准确率评估:

线性DNA模板测序下机数据显示(标记所有类型dNTP),提取其中一条158bp的read比对回模板链,发现了27个测序错误,12个单碱基缺失错误,8个单碱基插入错误,7个错配错误,原始错误率17%。

进而对提取出的449条reads做同样分析,发现缺失错误占主要部分(7.8%),插入错误其次,错配错误所占比例最小(主要为C/G错误)。

通过对上述449条reads中每个碱基对应的脉冲宽度(plus width)与脉冲间隔(interplus duration)进行统计分析,显示这两个参数非常稳定,与序列碱基无关,因此,测序过程中的原始错误时随机分布的,无碱基或者序列偏好性。

最后研究者使用15X测序深度的线性模板测序数据得到了准确率99.3%的一致性序列。

Pacbio SMRT的初测基本取得了预期效果,首批测序数据的特点分析也为后期配套软件的开发提供了方向。

随着测序试剂的更新换代以及新型校正算法的出现,目前的Pacbio RSII的平均读长已达15kb,50X-100X测序数据可产生准确率为  99.9999%(Q40)的一致性序列。

Paper5(2010年):

Real-timeDNA sequencing from Single Polymerase Molecules(2).

初测数据公布后的,Pacbio也于2010年开始对部分客户发售其第三代测序平台Pacbio RS进行早期的客户评估,这些客户包括贝勒医学院、冷泉港、马里兰大学、哈佛医学院等顶级科研机构。

Pacbio在同年的这篇Paper基本为一个Pacbio RS 系统说明书,其中包含了系统的主要组成部分以及操作分析流程,这里不作过多介绍,有兴趣的小伙伴可以自行下载阅读。

Paper6(2010年):

Awindow into third-generation sequencing .

Pacbio RS系统开始进行早期客户测试的同年,Pacbio公司发表了第一篇介绍Pacbio SMRT的综述性文章,为其发售助势。

在这篇文章中,Stephen Turner等人对其第三代测序平台结构、原理、优势进行了综合论述,同时概括了Sanger、NGS测序技术发展史与其他类型的三代测序技术。

详细内容在前两期以及本期其他文献部分均有体现,此处不做过多介绍。

2011年6月份,新英格兰杂志NEJM发表了Pacbio SMRT在海地霍乱弧菌研究中应用,标志着Pacbio SMRT开始真正应用于科学研究,Pacbio SMRT君正式开始了其在科研道路上的探索。

Paper7(2011年):

Theorigin of the Haitian Cholera outbread Strain.

该研究中,哈佛医学院的研究人员利用Pacbio SMRT技术对2株分离于2010海地霍乱爆发中的霍乱弧菌H1、H2以及另外3株分别分离于拉丁美洲、南亚霍乱爆发中的霍乱弧菌C6、M4、N5进行了测序,研究者使用了环形一致性读取(circle consensus sequencing ,CCS)方式。

为确定海地霍乱爆发中霍乱弧菌的传播源,研究者首先比对了上述H1、H2、M4、C6、N5 以及之前基因组已经发表的其他23株霍乱杆菌中1588个保守基因区域的CCS reads,通过单核苷酸突变(single nucleotide variation,SNVs)位点信息,得出海地霍乱弧菌H1、H2与分离于孟加拉国的霍乱弧菌M4、CIRS101有着非常近的亲缘关系。

研究者进一步利用pacbio SMRT技术长读长的优势(H1、H2测序平均读长954bp,5% > 2.8 kb),将H1、H2、M4所有CCS reads比对到参考基因组N16961上,检出了Superinetegron、VSP2 等基因组热点重组区域的结构变异(Structural Varition,SV)位点信息,SVs信息显示,相较于M4,H1、H2与CIRS101有着更近的亲缘关系。

该研究表明2010年爆发于海地的霍乱弧菌很可能来源于2002年孟加拉国的一场霍乱弧菌爆发。

2011年,Pacbio公司开始商业发售期第三代测序平台Pacbio RS,Pacbio SMRT君也开始了进军全球的步伐。

想要了解更多三代测序信息,就关注我们的微信公众平台吧,微信号Nextomics,这个平台绝对只送干货。

声明:本文原创,转载请注明来源

三代测序那些事儿(第二期)

上期和大家分享了几个三代测序技术在基因组组装中的应用案例,无论是在大型的基因组组装项目亚洲人基因组计划、还是在复杂致病菌基因组(痢疾杆菌、幽门螺杆菌等)测序项目中,三代测序技术 PacBio SMRT 均有着不俗的表现。

这期,小编将结合几篇文献为大家盘点那些使PacBio SMRT迅速崛起的特殊能力。

NO.1 单分子测序

能力描述:

首先要提到的是PacBio SMRT测序平台PacBio RSII的单分子测序能力,这在其他的两个三代测序平台 HeliScope & MinION 也有所体现,这也成了三代测序区分于二代测序的一个标志性特征。

HeliScope 是 Helicos 公司于2008年推出的全球第一台三代测序平台,但由于读长(35bp)、售价等原因在推出后的几年内便惨淡退出测序市场,Helicos公司也于2012年申请了破产保护。 Oxford Nanopore 公司的便携式纳米孔测序 ( Nanopore Sequencing ) 仪MinION目前还处于早期的客户测试阶段,首批测试数据的平均读长已达到了5.4kb,还是有较好的市场潜力。

单分子测序过程通常无须PCR(二代测序中为了将目的荧光信号从背景荧光中区分出来,测序前需要对单条模板链PCR成簇,以放大检测信号)过程,避免了二代测序常遇到的GC偏好性 ( GC bias ) 问题,因此 PacBio RSII 所产生的数据具有极低的GC偏好性,这种数据对于组装高GC基因组或者基因组中高GC区域是非常有利的。

另外, PacBio RSII 单分子测序的特点也使该平台在碱基读取 ( base calling ) 过程中不会出现二代测序平台常遇到的移相(dephasing)问题,所产生的数据更加准确,目前 PacBio RSII 所产生的数据一致性准确率 ( consensus accuracy ) 可达99.99%,如果使用新型一致性算法Quiver,一致性准确率可进一步提高至99.9999%。

相关案例:

1)PacBio SMRT组装高GC基因组相关案例:

Advantages of Single-Molecule Real-Time Sequencing in High-GC Content Genomes

韩国极地研究所研究团队使用 PacBio RS ( Pacibo RSII 早期型号)平台对一株分离与南极乔治王子岛的 Streptomyces 菌株进行了测序,该菌株基因组 GC 含量高达 71%,之前使用 200X 的 Hiseq 2000 数据进行过组装,仍没有获得完整的基因组,组装产生了185 个 contigs , 随后使用 Sanger 法也仍然无法有效填补。随后研究人员使用仅15 X 的 PacBio SMRT 数据 ( CCS reads + long reads ) 就得到了26个 contig 的组装结果,与二代组装结果比较,发现,二代组装结果中大多数难以填补的Gap多为一些高 GC 区域。

2)PacBio SMRT组装基因组中高GC区域相关案例:

Resolving the complexity of the human genome using single-molecule sequencing

同样地,华盛顿大学的研究团队使用 PacBioRSII 平台对一个人类葡萄胎基因组 ( CHM1 ) 进行了测序,将测序数据 mapping 回人类参考基因组 GRCh37 上,在 GRCh37 GAP区域进行了局部组装 ( local assembly ) ,该研究填补和缩小了人类参考基因组 GRCh37 上接近100个 Gap,这些 GAP 大部分处于高 GC 和重复区域,其中包括一些重要基因表达调控元件。

能力小结:

上述两个案例再次证明了,PacBio RSII平台所产生的极低GC偏好性的数据在高GC基因组或高GC区域的组装中确实有着显著的优势。

对PacBio RSII实现单分子测序的技术原理感兴趣的小伙伴可阅读Stephen Turner ( PacBio 公司创始人 ) 等人在2003年发表在 Science 上一篇关于 ZMWs 的经典文献:

  1. W. Turner, et al. Zero-Mode Waveguides for Single-Molecule Analysis at High Concentrations. Science. 2003

NO.2 超长读长(super long-read)

能力描述:

吸取了Helicos公司在三代测序平台开发上的失败经验,PacBio公司在单分子测序的基础上又进一步开发了一套使其三代测序平台 PacBio RSII 更加完美的长读取技术,主要是利用了一种将荧光染料标记于磷酸链末端的dNTP作为边合成边测序(Sequencing by synthesis ) 时的反应底物,聚合反应时,荧光基团可随着焦磷酸基团被DNA聚合酶自然切除,无需其他化学试剂洗脱,最大限度保护了DNA聚合酶活性。

基于该技术,PacBio RSII使用最新的P6C4试剂使测序平均读长由原来的P5C3的8.5 kb 又进一步提高到了10kb-15kb,而早在2005年就诞生的第二代测序技术的读长水平目前还徘徊在数百bp。

PacBio RSII 目前的平均读长(10-15kb)超过了大部分细菌基因组中最大重复区域长度 & 一些小基因组大小(部分病毒基因组、动物线粒体基因组、大部分质粒) & 普通转录本长度。因此,无论是在对于基因组的组装,还是对于转录组的Isoform识别,PacBio SMRT均有着其他测序技术无法比拟的优势。

相关案例:

1)PacBio SMRT在高重复高杂合基因组组装中的应用案例:

杜仲基因组是一种高重复高杂合的基因组,杂合率>1%,重复序列在66%以上,为了解决这类复杂基因组的组装,未来组生物使用了10X PacBio SMRT 长度数据,通过新开发的组装流程,结合第二代测序数据,使得Scaffold N50达到932kb(第二代测序组装对于解决复杂基因组组装存在一定的瓶颈,一般会导致Scaffold N50 小于300kb),这一成果也在去年的《杜仲全基因组测序重要研究成果》北京新闻发布会上进行了展示。

能力小结:

除过基因组组装外,Pacbio SMRT 也被应用于转录组测序中,由于超长的读长能够使其直接读取完整转录本,无需拼装,该技术已被应用于可变剪辑、基因融合、lncRNA 等转录组分析,从2013年至今,已有数十篇该类文献发表,小编挑了一些比较有代表性的供大家参考。

[1]Sharon, D. et al. A single-molecule long-read survey of the human transcriptome . Nature Biotechnology. 2013.

[2] Tilnger, H. et al. Defining a personal ,allele-specific,and single molecule long-read transcriptome. PNAS. 2014.

[3] Zhang, W. et al. PacBio sequencing of gene families — A case study with wheat gluten genes . Gene . 2014.

NO.3 碱基合成动力学信息记录

能力描述:

PacBio SMRT采用新型的核苷酸荧光标记技术,实现了边合成边测序(Sequencing by Synthesis)过程聚合反应的连续进行,PacBio的工程师们使用了一台内置有帧率100HZ的电子倍增CCD(EMCCD)相机的共聚焦荧光显微系统实现了对这一过程的实时(Real-time)监测,因此Pacbio RSII 在记录碱基先后顺序的同时也记录下了碱基渗入模板链的速度(碱基合成的动力学信息),DNA聚合酶在甲基化修饰或者磷硫修饰位点处反应速度有所降低,在合成动力学信息中,则表现为荧光脉冲信号的延迟(increased interpluse duration,IPD )。基于此原理,PacBio RSII在DNA序列测定的同时获得了其甲基化修饰位点信息。

相关案例:

1)PacBio SMRT在甲基化修饰位点检测中的应用:

Genome-wide mapping of methylated adenine residues in pathogenic Escherichia coli using single-molecule real-time sequencing

布莱根妇女医院(Brigham and Women’s Hospital,BWH)等机构的研究人员利用了PacBio SMRT测序技术对溶血性尿毒病原菌E.coli O104:H4基因组中的化学修饰位点进行了测定(190X测序数据),分析了基因组中的5mC与6mA修饰,由此绘制了全球首张致病菌全基因组水平甲基化修饰位点图谱。

2)PacBio SMRT在磷硫修饰位点检测中的应用:

Genomic mapping of phosphorothioates reveals partial modification of short consensus sequences

来自上海交通大学的研究团队利用 Pacbio RSII 对大肠杆菌基因组中的磷硫酰化修饰(PT)位点进行了测定,绘制了全球首张细菌全基因组水平磷硫酰化修饰(PT)位点图谱。

能力小结:

DNA化学修饰位点检测是表观遗传学研究的重要内容,基于PacBio SMRT 的 DNA化学修饰位点检测技术操作更加简单(无需重亚硫酸盐处理)、表观修饰检测类型更加多样、准确性更高等优点。

小编还意犹未尽,但限于篇幅,今天只能到这里了,下期接着聊。下期将为大家聊那些为三代而生的算法们,敬请关注!

本文原创,若转载,请注明来源。

三代测序那些事儿(第一期)

第三代测序技术是近些年来出现的新型测序技术(其原理小编将会通过后续的文献解读为大家详细解读),其特点是能够实现了对单条DNA链合成过程的检测,这其中又以美国太平洋生物公司(Pacific Biosciences,以下简称Pacbio)开发的Pacbio SMRT测序技术为代表(其测序平台Pacbio RSII是目前唯一在商业化运行的三代测序平台),超长读长、极低GC偏好性、DNA碱基修饰直接读取的特点使Pacbio SMRT测序技术在基因组、转录组、表观组研究等方面有着明显的优势[1]。小编从在这一期开始将会通过文献解读的形式和大家一起聊聊三代测序(Pacbio SMRT)那些事儿,小生才疏学浅,只当抛砖引玉。第一期是小编码的一篇关于Pacbio SMRT技术的微型综述,从第二期将会开始文献解读。

先从三代测序(Pacbio SMRT)与基因组的那些事儿聊起。

话说最近的基因组生物学技术进展大会(AGBT)公布了亚洲人基因组计划最新进展,该计划是于2014年启动的大型国际基因组项目,目前使用Pacbio RSII平台与BAC克隆相结合的方法得到了最优的亚洲人基因组组装结果,72X覆盖度的基因组数据,高达13.4kb的平均读长,应用Dalingner及FALCON进行组装,contigN50高达7.3M。可见该技术确实在基因组组装方面有着很大的优势。

Pacbio SMRT测序技术出现之初,冷泉港、马里兰大学的研究团队就使用多种模式生物对该技术在基因组组装方面的性能进行了评估,这些模式生物包括大肠杆菌、酿酒酵母、拟南芥、果蝇等,组装的ContigN50达到了Mb级别,组装品质已经相当优秀 [2]。

而随着后续新型测序试剂的发布(P5-C3、P6-C4等)与各类校正、组装算法的出现(HGAP、Dalingner、FALCON、MHAP等),Pacbio SMRT技术在基因组组装方面的性能又得到了进一步的提升,尤其是在微生物基因组组装领域,这类研究成果也如雨后春笋般大量出现在各类重要杂志上,小编选了一些该领域内比较有代表性的成果展示给大家:

1)Sanger研究院使用Pacbio SMRT技术构建了一株分离于第一次世界大战的痢疾杆菌NCTC1的完整基因组图谱,建立了高标准的该类病原菌参考基因组,该成果发表在2014年11月份的顶级医学杂志《柳叶刀》上[3];

2)美国国立卫生研究院(NIH)使用该技术对20多株抗碳青霉烯类肠杆菌(最近几年美国频频出现的“超级感染细菌”)进行了基因组测序,得到了完整的基因组与相关的抗性质粒图谱,揭示了该类致病菌在医院中的传播规律,结果发表在2014年9月份的《转化医学》杂志上[4];

3)最近日本研究人员使用该技术测序得到了8株分离于冲绳的幽门螺杆菌完整基因组图谱,这类基因组属于高重复、低GC类型,传统的测序平台往往难以得到高质量的基因组图谱,后续的生物信息分析目前还在进行中,这一成果发表在2015年3月份的Genome Announcements杂志上[5]。

在过去的2014年里,Pacbio的SMRT技术发表在多个重要期刊上,而仪器销量也节节攀升,代表了它的价值为更多人所认可。题外话,同属于第三代测序的Oxford Nanopore测序技术目前还在测试之中,30%的原始错误率与100多M的运行通量可能导致其在短期内还无法大规模应用于基因组de novo测序中,但其便携的小巧的测序平台(MinION,U盘大小)、极简的建库过程、多类型分子测序能力(DNA、RNA、蛋白质)还是非常值得期待滴[6]。

我们未来组2013年推出了基于Pacbio RSII系统的第三代测序服务,是国内首家提供第三代测序服务的公司,经过两年的发展,已经积累的第三代测序项目经验,看完上面介绍对第三代测序有点心动的小伙伴可以电话邮件联系我们哦,我们的热线电话:400-027-1221,我们的邮箱:support@nextomics.org。

估计各位客官看完上面那点点介绍,还是对Pacbio SMRT这一第三代测序技术一头雾水,不过不用着急,小编精心搜罗了从2003年(该技术概念出现之初)至今的几十篇具有代表性的三代测序相关文献,在接下来的几十期里将会按照Pacbio SMRT技术的发展线为大家详细解读。

今天先说到这,下期继续聊,期待小伙伴们的关注。

Paper:

[1] Roberts, R. J. et al. The advantages of SMRT sequencing. Genome Biol. 2013

[2] Berlin , K. et al. Assembling Large Genomes with Single-Molecule Sequencing and Locality Sensitive Hashing. BioRxiv. 2014

[3] Baker, S. K. et al. The extent World War1 dysentery bacillus NCTC1: a genomic analysis. Lancet.2014

[4] Conlan, S. et al. Single-molecule sequencing to track plasmid diversity of hospital-asociated carbapenemase-producing Enterobacteriaceae. Transl Med. 2014

[5] Satou, K. et al. Complete Genome Sequences of Eight Helicobacter pylori Strains with Different Virulence Factor Genotypes and Methylation Profiles, Isolated from Patients with Diverse Gastrointestinal Diseases on Okinawa Island, Japan, Determined Using PacBio Single-Molecule Real-Time Technology. Genome A. 2015

[6] Ashton, P. M. et al. MinION nanopore sequencing identified the position and structure of a bacterial antibiotic resistance island. Nature Biotechnology. 2014