non-B DNA影响链聚合速度和错误率?PacBio告诉你!

non-B DNA是什么?

说起non-B DNA,是不是会有点陌生?不要紧,组学君从DNA的分子构象说起。依据脱氧核糖核酸的序列、超螺旋的程度以及方向还有碱基上的化学修饰、溶液状态等,我们可以在自然界的生物细胞中发现三种DNA构象:A-DNA、B-DNA与Z-DNA。理论上的B构象是细胞中理想、均一的结构,而实际的B-DNA从微观角度看各个碱基对也是有所不同的,平均每个螺旋周含有10个nt;A-DNA每一转螺旋的碱基对更多,因此螺旋相对更短更紧密;Z-DNA则是左旋型态,因而能够与B-DNA结合,由DNA单链上的嘌呤和嘧啶交替排列形成。

non-B DNA形成的序列模体包含Z-DNA、G4链体(一种稳定的非标准DNA二级结构,由四个鸟嘌呤层叠排列组成,每个鸟嘌呤由Hoogsteen氢键连接[1])、A相重复序列、颠倒重复序列、镜像重复序列、正向重复序列及其相应的子集(见图1A)。

图1A Non-B DNA模体类型

non-B DNA——是造物主的馈赠,也是诅咒

何出此言呢?non-B DNA可以调控很多细胞中的生理进程,越来越多的研究证据也表明,其在很多与疾病相关的细胞通路中起到关键作用,例如G4结构已成为颇具吸引力的抗癌治疗靶点。但同时,它也会影响DNA合成并导致基因组不稳定,在癌症细胞的染色体重排中尤其常见,单个位点在体外或者活体转移的实验中显示:non-B DNA构象会抑制原核以及真核生物DNA的聚合酶,导致复制叉的停顿或者中止。千人基因组计划中的致病基因和遗传变异数据还证实non-B DNA构象中点突变的发生几率相对要高一些。

首次在基因组范围解析non-BDNA影响聚合速度和错误率的研究[2]

近日来自宾夕法尼亚州立大学的WilfriedGuiblet等人使用PacBio单分子实时测序技术(SMRT)来评估DNA聚合速度和聚合酶错误受non-B DNA的影响,并使用特殊设计的噬菌体phi29聚合酶来记录脉冲间隔持续时间(IPDs)以测定主要的核苷酸序列(见图1B),两个荧光脉冲之间的时间对应于两个连续的核苷酸的结合时间。他们还使用IPDs作为衡量聚合作用动力学的参数,借助SMRT测序技术在基因组尺度上对non-B DNA模体类型的聚合动力学和错误进行直接、实时的监测。研究还将高突变和非突变的non-B DNA模体进行对比来分析SMRT聚合动力学和测序错误率之间的关系来探索测序设备和活体细胞中聚合作用的潜在关联。近日,该项研究成果发表于《Genome Research》,让组学君和大家分享一下吧!

 研究概览

Non-B DNA模体影响聚合动力学

研究者选取了包含non-B DNA数据库和注释的STRs(短串联重复序列)共92个可能形成non-B DNA的不同模体类型(见图1A),并且构建了包含各类模体的基因组视窗,每个视窗自中心取样±50bp(多数小于100bp)且排除重叠视窗。在对照组中,研究人员还构建了100bp的无模体窗口作为基因组背景,即假定的B-DNA。研究使用之前使用SMRT测序的69×深度的人类基因组数据,用其中100个单核苷酸分辨率的IPD填充每个包含各类模体和无任何模体的窗口——因每一条链都作为SMRT测序中的模板单独使用,因此上述对参考链和互补链的操作都是独立的。对于每个模体类型,研究都进行了中心比对并聚合IPD曲线以生成每一条链的IPD曲线分布(见图1B)。

图1B SMRT测序时每一个subread记录了每一个核苷酸的IPDs

为了评估non-B模体是否呈现不同于B-DNA的聚合动力学模式,研究使用了Interval-Wise Testing(IWT)——一种新的功能数据分析(FDA)方法,并识别基因组碱基或IPD曲线分布在包含模体和无模体的100bp窗口之间显著不同的区间(图2)。而研究者在多个non-B-DNA模体中和/或周围发现了聚合动力学的改变。紧接着,研究者描述了对参考链的操作结果(总共包含2916328个含各种模体和2524489个无任何模体的窗口)(见图2A-D的上部分以及E)以及反向互补的结果作为生物学重复(见图2A-D的下部分)。

图2 non-B DNA 的聚合动力学

双线证据支持G4模体阻碍聚合酶进程的推断。首先,G4模体的存在降低了聚合速度。与无模体窗口相比,包含G4模体的窗口在其中心显示相当高的IPDs。更重要的是,包含了所有模体类型的IPD分布形状保持一致(见图2A)。其次,G4模体的测序深度低于无模体窗口(86%的无模体测序深度要高些)(见图2A),表明G4模体的存在会在一定程度上阻碍聚合,导致较少的reads覆盖。相反,富含胞嘧啶的互补链(图2A)以及参考链(其反向互补链上的G4s已被注释)(图2E)上的聚合显示速度加快,测序深度也略微有增加(92%无模体测序深度要高些)。同时,研究者也观察到其他的non-B DNA模体如A相重复序列、颠倒重复序列、镜像重复序列以及Z-DNA都显著地改变了聚合动力,使聚合变快(IPD更低)或者变慢(IPD更高)。但是和G4模体不一样,它们对两条测序链的聚合动力影响是相似的(见图2E)。

此外,研究还发现STR以长度和序列相关的方式改变聚合动力(图2B-E),这些变量影响non-B DNA结构的类型和稳定性,还形成滑移结构。对于≥2-nt重复单元的STR,聚合动力的变化是周期性的,具有与重复单元的长度匹配的周期(以碱基为单位)。这种模体在三核苷酸STR中尤其明显,其与某些神经系统疾病相关位点的扩展有关联(图2B-D),如(CGG)n、(CAG)n和(GAA)n分别与脆性X综合征、亨廷顿病和弗里德里希运动失调有关。能够形成发夹结构的STR表现出最显著的聚合减速和周期性(图2B、C、E)。相反,形成H-DNA的STR,包括(GAA)n,则会加速聚合(图2D、E)。

碱基修饰或核苷酸组成都不容易解释non-BDNA模体聚合动力学的变化。为什么这么说呢?首先,大多数non-B DNA模体的IPD模型在扩增的DNA中仍可清楚地检测到,这表明变化不是由原始模板DNA中的碱基修饰引起的。另一方面,单核苷酸或二核苷酸组成的成分拟合只解释了无模体窗口间平均IPD变异的相对小的部分。此外,大多数模体窗口的平均IPDs与上述拟合预测的结果有显著差异(图2F)。因此,核苷酸组成远远不能解释non-B DNA模体的IPD变化。 尤其是,仅凭G4+模体中鸟嘌呤的存在不能解释在这些位点观察到的所有聚合减速。

G4链体相关联的聚合动力学和生物物理学特征

为了检测non-B DNA结构能否通过实验形成预期的模体,研究者分析了人类基因组中最常见的10种G4模体来考察聚合动力学与生物物理特性的关系。根据圆二色光谱(CD)和天然聚丙烯酰胺凝胶电泳(PAGE)分析,所有10个模体在低钾浓度下迅速形成稳定的四链体,表明尽管具有不同的分子(分子内或分子间)和链方向(平行或逆平行),它们仍具有形成这种结构的高倾向性。用分子内G4s的回归分析发现,平均IPD与δε(P<2×10-16,R2=32.3%)呈显著正相关(见图3),而平均IPD与熔融温度(P<2×10-16,R2=5.7%)呈显著正相关(通过光吸收获取热稳定性和结构变性的程度)。 由此可以判断,聚合速度减慢与G4形成的生物物理特性相关,也充分说明模体是在SMRT测序反应中形成了G4结构,因此也就能够适配PacBio测序设备60×100nm的测序孔。

图3 G4链体稳定性和聚合动力的关系

Non-B DNA模体影响测序错误率

为了检查phi29聚合酶的准确性在合成基因组中不同类型的non-B DNA模体时是否受影响,研究还比较了模体区域和无模体区域中SMRT测序的错误率,研究者使用与上述IPD分析相同的69×人类基因组计算错误率(见表1)。由于存在STRs分型不准确和重复位点的序列错配的可能性,研究聚焦于基因组非重复部分参考链上存在的六种非STR模体序列类型。研究者仅关注模体本身(而不是包含100bp模体的窗口)并且鉴别出在数量和长度上匹配到六种模体上的无模体区域作为对照,且排除序列和参考基因组之间固定差异的包含模体和无模体的区域,并计算测序错误率作为含模体或无模体区域的核苷酸总数中的变异比例(相对于hg19),甚至包括单个read支持的错误。最后,研究给出新合成链的错误结果(新合成链使用了用non-B DNA模体注释的模板链)。

研究观察到了G4模体对SMRT错误率的强烈影响。当模板链上存在G4s时,新合成的链上的错配显著增加。当模板编码G4+尤其是G4-模体时,SMRT测序中常见的插入错误被抑制。与G4模体相比,Z-DNA显示出低水平的错配和缺失,但插入错误有所增加。综上所述,三种SMRT测序错误率在non-B模体和和无模体区域之间有所不同,在G4-模体处错配和缺失显著增加。接下来,研究又测试了SMRT中错配型错误率是否可以用序列成分来解释。在无模体窗口的SMRT错误率中,只有4.1%的可变性可以用单核苷酸组成来解释。在四种核苷酸中,鸟嘌呤含量与SMRT错误相关性最强,其数量的增加会导致SMRT错误率升高。二核苷酸组成的回归分析也解释了无模体窗口中SMRT错误率相当小比例的可变性(R2=5.6%)。此外,大多数类型的模体(除了A相重复序列外)的SMRT错误率都显著不同于由这种成分回归分析预测的错误率。因此,核苷酸组成不足以解释无模体窗口和non-B DNA模体的SMRT错误率变化。尤其要指出的是,G4+模体中高浓度的鸟嘌呤也无法解释在这些位点观察到的SMRT错误率的增加。

表1 SMRT测序时non-B DNA的错误率

SMRT错误率增加与聚合酶减速尤其是non-B DNA相关

研究者接下来分析了SMRT错误率是否与聚合速度有关。研究关注对SMRT误率影响最强烈的G4+和G4-模体并使用无模体窗口进行对照。研究者拟合了SMRT错配型错误率作为核苷酸组成校正的平均IPD值函数的回归。该模型还考虑了三组区域——G4+模体、G4-模体和无模体窗口——总体R2为35.4%(见图4)。研究发现SMRT错配率与模体窗口中冗余平均IPDs呈显著正线性关系(斜率=0.11,P=2.9×10_10)。有趣的是,G4+的回归线斜率显著高于无模体窗口,而G4-的回归线斜率与无模体窗口相似。由此可以得出结论,SMRT错配型错误与聚合酶减速正相关,且这种关联在G4+中特别显著。

图3 和动力学变化相关的错误

聚合酶速度与突变的产生

众所周知,突变率的发生在基因组中是不均一的,而导致区域变异的机制还没有完全被探明。关于SMRT技术的测序错误的结果以及之前的体外聚合酶研究证实了non-B DNA对噬菌体、原核和真核聚合酶合成DNA的影响,同时也提出了一个有趣的疑问:通过过聚合酶减速,这些模体也会影响活体的突变率吗?除了环境影响之外,突变是聚合酶错误和细胞缺乏修复的结果。研究假设突变主要由聚合酶错误引起,然后对比在人和猩猩分化水平以及人种内多样性水平下高突变率和低突变率的G4+模体之间的SMRT错误率和平均IPD。通过模拟,研究证明小的等位基因突变频率极不可能由Illumina测序在G4模体上增加的错误率引起。因此,研究使用的分化和多样性数据理应是高准确性的。高度分化(或多样化)的G4+模体具有较高的IPD值。此外,高度分化(或多样化)的G4+模体比低分化(或低多样化)的G4+模体具有更高的错误率。据此,研究人员现发分化(或多样化)程度与聚合速度呈负相关,而与SMRT测序错误正相关,表明鸟嘌呤四链体结构不仅影响测序错误率,还会影响活体的种系突变。

本研究首次使用单分子实时(SMRT)技术同时检测DNA聚合动力学和人基因组测序的误差。研究者发现,non-B和B-DNA的聚合速度之间有明显的差异:在G4模体时减速,在致病性的串联重复时呈周期性波动。通过聚合动力学分析,研究预测和验证了一个新的non-B DNA模体的形成,并且证实了一些non-B模体会影响测序错误率例如G-四链体的存在会增加错误率)且测序错误与聚合酶减速正相关。最后,研究证明了高度分化的G4模体具有明显的聚合减慢现象和较高的测序错误率,表明测序错误和种突变具有相似的产生机制。

 

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注