讲真,DNA甲基化多样性还需长读长技术来搞定

DNA甲基化是一类重要的表观遗传修饰,除真核生物外在多种原核生物中也有发现,如保护宿主细胞免受噬菌体或细胞外DNA入侵的序列特异性限制性修饰(RM)系统,已经成为生物技术研究的重要工具。

此外,原核DNA甲基化还有调节基因表达、错配DNA修复以及细胞周期等功能。但是,目前大部分研究者仅局限于实验室可培养稀有原核生物的研究上,因此对原核生物甲基化系统多样性的了解知之甚少。基于单分子实时测序(SMRT)技术的PacBio平台可以说是DNA甲基化研究者的新宠,像原核菌株中的N6-methyladenine (m6A),5-methylcytosine (m5C)和 N4-methylcytosine (m4C)等修饰都已有使用该技术进行解析的案例。尤其是其环状一致性(CCS)测序模式能够对同一模板生成整合多条序列的单条超长read,从而无需进行无性系种系培养,目前CCS仅用于部分鸟枪法宏基因组研究,还没有应用到宏表观基因组或环境微生物群体的直接甲基化分析上。

近日,来自东京大学的Satoshi Hiraoka等人使用PacBio CCS技术研究日本最大的淡水湖——琵琶湖微生物群落的鸟枪法宏基因组和宏表观基因组,绘制了19个细菌和古细菌草图基因组,并揭示了22种甲基化motifs,其中9种是首次发现,还通过计算预测和实验验证了与之相关的4种甲基转移酶(MTases),其中2种被发现能够识别新的motif序列。该研究表明宏表观基因组作为一种强大的方法可用于鉴定自然界中未探索的多种原核DNA甲基化系统,研究成果发表在Nature Communications上。

采样测序和分类分析

采集琵琶湖不同深度水样,PacBio测序得到的数据和环状一致性分析统计见表1,其中90%的CCS reads都是高质量的。

通过Kaiju和NCBI数据库对CCS reads进行分类,结果见图1。其中,>88%鉴定到门,>56%鉴定到属,高于同样计算方法的基于Illumina测序的鸟枪法宏基因组。在门水平上,变形菌门在两种样本中均占主导,其次为放线菌门、疣微菌门和拟杆菌门(Fig.1)。绿弯菌门和奇古菌门在深水中尤其丰富,古生菌在浅水中尤其稀少。后鞭毛生物为最优势的真核生物,其次为囊泡虫总门和不等鞭毛类。而病毒中占优势的依次为有尾噬菌体目和藻类去氧核糖核酸病毒科。研究结果与之前淡水湖微生物群体研究一致,表明PacBio平台和短读长测序技术平台一样适合进行宏基因组分析。

图1 CCS reads的系统发育分布,a、b、c分别代表域、门、纲的富集推断,忽略真核生物和病毒reads

宏基因组组装和基因组binning

研究从浅、深水中分别组装出554、345条contigs,对应的N50为83kb和76kb,最长contig分别为481kb和740kb,远远超过了之前将CCS应用于鸟枪法宏基因组分析活性泥微生物群体的组装结果。然后使用MetaBAT进行binning,浅水和深水分别有52.3%和29%分配到15个和4个bins上,且有46.9%和44.8%的CCS reads可以map到草图基因组上(见图2和表2)。


图2 对组装的contigs进行基因组binning。每一种颜色和大小的圆圈代表所属的bin和序列大小。

对每个bin进行草图基因组组装,基因组完整性在17%-99%之间,污染均低于3%,基因组大小在1.0-5.6Mb之间,GC含量从29%-68%,平均N50为24kb,最大1.67Mb。19个草图基因组划为7个门,其中7个推断为放线菌门、4个为疣微菌门,另外,最丰富的变形菌门只在浅水中装出2个草图基因组,深水甚至没有装出来。总之,系统发育重建很可能反映出了琵琶湖中优势、但尚未培养的微生物谱系。

宏表观基因组分析

从10个草图基因组中检测出29种候选甲基化motifs,甲基化比例从19%-99%(可能低于真实的甲基化水平),见表3,其map上的subreads覆盖度从28.7×到297.3×。

可能由于单个甲基化motif检测不完整或包含在该基因组中近缘谱系间的异质motif序列,变形菌BS12基因组中的3个motifs包含了相似的序列,而拟杆菌BS15基因组中则观测到了回文motif和5个互补motif对,值得注意的是,绿弯菌门的3个草图基因组——BS1、BS3和BD1共享相同的motif序列集,这可能是由于进化共享的甲基化机制引起。大体上,每个草图基因组的contigs都呈现相似的甲基化模式,也为基因组binning提供了表观基因组上的支持。

当然,也有至少9个motifs没有匹配上任何现有的REBASE序列上,这也暗示环境原核生物DNA甲基化体系中还存在着诸多没有被挖掘的多样性,包括一些没有培养过的菌株。

对应检出甲基化motif上的已知MTase

研究还尝试鉴定能够催化检出甲基化motif甲基化反应的MTase,对MTase基因进行系统性的注释。首先通过相似性搜索从9个草图基因组中鉴定到20个MTase基因,找到了丰度最高的Type II MTase等,以及编码REases等蛋白的基因,20个MTase基因中有7个和通过宏表观基因组分析的结果一致,见表3和表4。如奇古菌BD3基因组包含了两个MTase,和识别AGCT和GATCmotif序列的宏表观基因组分析结果高度统一,说明对于环境原核生物甲基化系统的鉴定,宏表观基因组分析是行之有效的手段。

未挖掘的原核生物甲基化系统多样性

20个MTases中也有13个和宏表观分析鉴定的酶序列不相似(表3和表4),说明揭示环境原核生物多样性甲基化体系也需要借助直接观测。研究以拟杆菌BS15基因组、疣微菌BS8、BS10和BS6基因组以及消化螺旋菌BD2基因组、变形菌BS12基因组等为例,从中均鉴定出数目不等的MTases和甲基化motif,但也都出现和报道的MTase或近缘MTasemotif序列不一致或完全匹配不上的情况,甚至也有检出甲基化motif但未检出MTase基因的个例。研究者推断可能的原因是基因组完整度不够,也有可能是这些MTase基因和可培养菌株中的MTase存在分化,还有可能是它们属于新的类群。

含新甲基化motif的MTases实验验证

对于宏表观基因组分析与motif序列高度相似的MTases,研究实验验证了其中四种的甲基化特异性,构建每一个携带人工合成MTase基因的质粒,转导到大肠肝菌细胞中强制表达,然后通过REase消化观察独立质粒DNA的甲基化状态,甚至个别还进行了PacBio测序来检测两个MTase基因各自转化的大肠杆菌染色体DNA甲基化情况。最后,研究鉴定出一系列新的、具有甲基化特异性的MTase基因,并对其表达的蛋白进行命名。

探索自然界中原核生物甲基化系统的
宏表观基因组

一系列的分析证实,PacBio SMRT测序结合CCS模式进行宏表观基因组的分析是非常有效的,较基于序列一致性和基于培养的甲基化系统分析以及短读长宏基因组分析都有显著的优势。

CCS reads让宏基因组组装、binning和基于序列的蛋白分类都变得更容易,最重要的是,该方法揭示了多个甲基化motif,包括环境原核生物中的一些新的motif和本研究中鉴定出的4种MTases。当然,由于需要更深度的覆盖,SMRT测序目前应用于更多种、更复杂样本的宏表观基因组还略显不足,检测到的DNA甲基化类型尚有限,但是要捕获足够的reads以构建稀有样本的长contigs并检测甲基化motif本身难度还是很大。同时,Oxford Nanopore也可以提供基于另一种原理的检测技术。

本研究充分说明即使亲缘关系极近的菌株之间甲基化motif和MTase也会有很大的差异,而且MTase除对抗噬菌体外,还发挥着不为人知的适应性作用。值得注意的是,宏表观基因组分析可以用于多种生物信息分析上面,也能够增进人们对环境原核生物甲基化机制及其应用的了解,而这里新鉴定的MTase也有其他生物技术上的应用。

怎么样?阅览了这篇文章,是不是认可了DNA甲基化多样性还需长读长技术来搞定呢?武汉未来组是中国最早一批引入第三代长读长测序技术的生物科技公司,基于多年的摸索研发经验,已经基于Pacbio CCS reads搭建了成熟的分析流程(见下图),完成了多个环境微生物宏基因组的分析项目,积累了丰富的经验。


未来组宏基因组分析流程

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注