表观&PacBio(三代测序那些事儿 第五期)

对于表观研究者来说,DNA修饰位点的检测肯定是一项日常工作。

基于重亚硫酸盐处理的BS-seq是目前主流的修饰位点检测方法,在其基础上还衍生出一系列的改进型技术,比如 PBAT、oxBS-seq、RRBS、TAB-seq,其中oxBS-seq、TAB-seq可用于检测5hmC[1-5]

这些方法的问题在于检测类型仅局限于高等真核生物中常见的5mC或者5hmC。

对于其他类型的DNA修饰,如 6mA、4mC、PT、8-oxoG等,传统做法往往是借助MS(质谱)、HPLC(高效液相色谱)等大型设备,操作复杂,成本高昂,不太适合中小型研究。

这些修饰或处于原核生物的 R-M(Restriction-Modification)防御系统,或处于基因转录调控网络之中,或与基因组复制有关,或影响着肿瘤的发生。最近中科院动物所的研究人员甚至在高等真核生物果蝇中也发现了6mA的修饰形式,成果公布在2015年4月份的Cell上[6]

Sanger方法虽能够检测细菌中常见的3中碱基修饰4mC、5mC、6mA,但一直没能够大规模的应用于细菌全基因组碱基修饰位点检测,原因主要在于其较小的通量,不适合组学研究背景下的表观研究。

因此, 5mC、5hmC之外的DNA修饰(4mC、6mA、PT等)似乎成了近年表观研究中缺失的一环。PacBio SMRT君的出现弥补了缺失的这一环。

小编在前几期的文章中提到过,PacBio测序过程中,不近可以记录碱基先后顺序,同时也记录了DNA聚合酶两个重要的动力学信息:Interplus Duration (IPD)、Plus Width(PW)。

IPD代表了相邻两个碱基渗入模板链的时间差、PW代表了碱基渗入到模板链所需的时间。IPD 与 PW反映了聚合酶的合成速度。

        

        PacBio研究人员最早是通过统计一段人工合成的,由35个碱基组成的,修饰位点已知的DNA链中各个碱基的IPD值,发现了碱基修饰对DNA聚合酶合成速度的影响。如图2所示,在6mA、5mC、5hmC修饰位点以及上下游几个碱基处的IPD(T-test,IPD均值简单比较)值均明显高于对照组(无修饰位点)位点。反映了DNA聚合酶在修饰位点以及附近合成速度有所下降,且三种碱基修饰类型对于DNA聚合酶的影响模式又有着各自的特点。

该研究还将IPD与PW分别作为PC1 、 PC2 对 5hmC、5mC、C进行了PCA聚类,结果见图3,成功通过 IPD 与 PW 两个值区分了5mC、5hmC。

这些发现提示了利用PacBio测序过程中记录的碱基IPD值推测DNA碱基修饰位点是可行的[7]

        之后PacBio研究人员建立了利用IPD值预测DNA碱基修饰位点的数学模型。该模型是基于条件随机场模型(Condition Random Filed, CRF), 充分考虑了修饰位点对附近碱基合成速度的影响的影响以及碱基之间的相互影响。相较于之前只考虑修饰位点单个碱基,做简单的T-test(比较每个位点IPD均值,丢失了位点修饰比率信息),该模型对修饰的预测更加灵敏与全面。

        相关数学模型(考虑了与附近碱基之间的相互影响θ1、θ2、θ3)

研究人员使用修饰位点已知的大肠杆菌质粒(5mC)、人工合成DNA链(8-oxoG)的PacBio数据对这一模型的各项参数进行了训练。并使用了受试者工作特征曲线(receiver operating characteristic curve, ROC)对该分类模型的可靠度进行了评估,评估结果显示,无论是有监督还是无监督学习模式,该模型可以在5%的假阳性率(FPR)内鉴定出接近 100% 的5mC、8-oxoG修饰位点。

        

        

        5mC、8-oxoG预测ROC曲线

使用上述训练好的模型(FDR设置为 5%)对甲基化酶缺陷菌株EcoK-,dam-/dcm- E.coli 包含质粒pRRS( 可表达Dam )的甲基化位点进行了预测,Dam一般被认为仅可对GATC中的A位点进行6mA修饰,该质粒含有24个GATC 序列,预测结果为24个GATC中的A均发生了6mA修饰,与预期相符[8]

上海交通大学的研究团队还与 PacBio 合作,在大肠杆菌菌株与弧菌属中建立了使用PacBio数据预测磷硫修饰(PT,新型的DNA骨架修饰)位点的分类模型,该模型基于上述提到的T-test算法,成果发表在2014年的Nature communication 上 [9]

随着预测模型的不断完善,基于PacBio SMRT的DNA修饰位点检测技术也越来越多的被应用到表观研究中,一些重要的致病菌研究包括沙门氏杆菌、肺炎链球菌、沙雷氏菌的表观研究已经应用了这一技术[10-12]

基于相关的文献以及PacBio官方推荐,我们(Nextomics)已经推出了基于PacBioSMRT 技术的 4mC、5mC、6mA检测产品,具体方案请参考我们最新的产品手册或电话咨询我们。

Paper:

[1] shotgun bisulphite sequencing of the Arabidopsis genome re veals DNA methylation patterning Highly intergrated single-base resolution maps of the epigenome in Arabidopsis.

[2] Amplification-free whole-genome bisulfitesequecing by postbisulfite adaptor tagging.

[3] reduced representation bisulfite sequencing for comparative high resolution DNA methylation analysis.

[4] Quantitative sequecing of 5-formylcytosinein DNA at single-base resolution.

[5] Base-resolution analysis of 5-hydroxymethycytosine in the Mammanlian genome.

[6] N6-Methyladenine DNA modification in Drosophila.

[7] Direction detection of DNA methylation during single-molecule,real-time sequencing.

[8] Modeling kinetic rate variation third generation DNA sequencing data to detect putative modification to DNA bases.

[9] Genomic mapping of phosphorothioates reveals partial modification of short consensus sequences.

[10] A random six-phse switch regulates pneumocaccal virulence via global epigenetic changes.

[11] DNA phosphorothioate modifications influence the global transcriptional response and protect DNA from double-strand breaks.

[12] Exploring the roles of DNA methylation in the Metal-reducing bacterium Shewanella oneidensis MR-1.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注