文献解读丨Nature!最全人类细胞DNA甲基化图谱
DNA甲基化是控制基因表达和染色质组织的一个基本的表观遗传标记,从而为细胞身份和发育过程提供了一个窗口。目前的数据集通常只包括一小部分甲基化位点,并且这些数据来源基于细胞系或基于含有混合细胞的组织。
研究思路
研究结果
人类细胞类型甲基化图谱
所分析的细胞类型(图1)代表了大多数主要的人类细胞类型,允许对生理系统(例如胃肠道、造血细胞和胰腺)进行综合观察,并比较不同环境中的类似细胞类型。如图1所示,205个甲基体在复制之间表现出巨大的相似性,细胞类型之间以类似于块的方式发生了显著变化。作者试图识别特定细胞类型中差异甲基化的基因组区域,以阐明细胞类型特定的生物学过程,定义细胞身份,并促进甲基化生物标志物的开发,以识别循环cfDNA片段的细胞来源。
图1 成人人体甲基化图谱
甲基化记录发展历史
通过分析系统地将相同细胞类型的生物样本分组(图2),类似于纯化人血细胞的基于阵列的聚类。这支持了细胞分离的可重复性,并表明每种正常细胞类型的三到四次重复就足以推断其甲基化模式,用于生物标志物鉴定等实际应用。
图2 无监督凝聚聚类反映了健康细胞类型的人类发育谱系。单元格类型由边缘颜色表示
细胞类型特异性甲基化标记物
每种细胞类型的前25个差异非甲基化区域包括1246个人类细胞类型特异性甲基化图谱标记(图3)。片段水平分析进一步表明,与所有其他细胞类型中几乎没有的DNA片段相比,这些区域的绝大多数DNA片段在目标细胞类型中未甲基化。该图谱具有多种应用,包括循环无细胞DNA片段的分析。重要的是,只有约1%的细胞类型特异性标记物被亚硫酸氢盐减少表达测序(RRBS)覆盖,4-8%被甲基测序杂交捕获板覆盖,14-24%在单个CpG 450K/EPIC阵列中表达,强调了全基因组测序对生物标志物彻底鉴定的益处。
图3 39个细胞类型组205个样本的人类甲基化图谱
人类细胞类型特异性调控图
为了进一步评估细胞类型特异性非甲基化区域的生物学重要性,还研究了它们与转录因子(TF)的关系,转录因子可以影响DNA甲基化或以细胞类型特异的方式结合DNA,取决于甲基化和染色单体。对于大多数细胞类型,顶部图案包括主调节器和关键TF(图4b)。
图4 细胞类型特异性标记作为假定的增强子
细胞类型特异性高甲基化位点
对那些在一种细胞类型中甲基化但在人体其他地方未甲基化的基因组区域进行研究。这些蛋白富集于CpG岛(38%的甲基化区域,而1.7–2.7%的细胞类型特异性非甲基化区域),并且在其他细胞类型中由H3K27me3和Polycomb标记(图5a–c)。有趣的是,只有约3%的细胞类型特异性差异甲基化区域是高甲基化的。在汇集所有细胞类型特异性高甲基化区域后,发现了染色质调节因子CTCF的靶序列高度富集(图5d)。图5e显示了甲基化模式并在体内公布了CTCF在一个位点的占用情况,该位点在结肠和肠道中被特异性甲基化。与DNA甲基化阻止CTCF结合一致,ChIP数据显示结肠中该位点CTCF结合的选择性缺失。此外,在特定细胞类型中甲基化的位点富集了神经基因转录抑制因子RE1沉默TF/神经元限制性沉默因子(REST/NRSF)的靶点,这在胰岛细胞的甲基体中最明显(图5f)。
图5 细胞类型特异性的高甲基化区域富集CpG岛、Polycomb靶标和CTCF和REST/NSRF
片段级甲基化反褶积
如图6a所示,1246种标记允许以约0.1%的分辨率准确检测来自给定来源的DNA,与基于阵列的方法相比,提高了近一个数量级。然后,使用来自WGBS数据估计了白细胞和cfDNA的细胞组成;99.5%的白细胞衍生DNA来源于粒细胞、单核细胞、巨噬细胞和NK、T和B 细胞,与典型的血液计数一致(图6b)。健康受试者的cfDNA主要来源于白细胞:粒细胞(29.7%)、单核细胞/巨噬细胞(20%)和淋巴细胞(3%)。有助于cfDNA的实体组织包括血管内皮细胞(6%)和肝细胞(3.1%)(图6c),与先前的结果一致。目前的图谱还显示巨核细胞(31%)和红细胞祖细胞(5%)对cfDNA的显著贡献,这在以前使用范围更有限的参考甲基体的研究中没有观察到。最引人注目的是,Roadmap肺样本主要由血液(40%)、内皮(34%)和平滑肌(5%)组成,只有22%的DNA来源于肺上皮细胞(图6f–i)。
图6 使用细胞类型特异性生物标记物进行片段级反褶积
总之,本研究提供了一份原始人类细胞类型的全面甲基化图谱,以及一套广泛的细胞类型特异性标记和计算工具,用于混合细胞类型样本的片段水平分析。这些数据揭示了DNA甲基化在细胞生物学和基因调控中的作用,并有助于识别每种细胞类型中的活性增强剂。也许该图谱最有前景的用途是混合细胞型样本的片段水平反褶积的潜力,允许在患有癌症和其他疾病的个体血浆中敏感地识别cfDNA的起源组织。
发表评论
想参加讨论吗?请尽情讨论吧!