使用NextDenovo软件部分应用文章分享

希望组自主研发的在三代测序基因组组装领域著名的组装工具NextDenovo软件,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势。

自软件发布以来,已被众多科研院所、企业等基因测序领域的用户熟知并采用。目前,NextDenovo软件累计下载9200余次,助力发表文章约500篇,高下载量和高引用数体现了NextDenovo软件的高成熟度,成为期刊编辑和审稿人都认可的高质量软件。

为了让更多用户了解NextDenovo的应用案例,小编挑选了6篇具有代表性的文章分享给大家。

01. The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights

发表期刊:Cell (IF:66.85)

研究对象:南极磷虾

基因组大小:48G

主要测序技术:Hi-C、PacBio

主要完成单位:中国水产科学研究院黄海水产研究所、青岛华大基因研究院、德国阿尔弗雷德•魏格纳研究所、澳大利亚联邦科学与工业研究组织等机构

希望组贡献:提供NextDenovo组装技术支持

SUMMARY:  Antarctic krill (Euphausia superba) is Earth’s most abundant wild animal, and its enormous biomass is vital to the Southern Ocean ecosystem. Here, we report a 48.01-Gb chromosome-level Antarctic krill genome, whose large genome size appears to have resulted from inter-genic transposable element expansions. Our assembly reveals the molecular architecture of the Antarctic krill circadian clock and uncovers expanded gene families associated with molting and energy metabolism, providing insights into adaptations to the cold and highly seasonal Antarctic environment. Population-level genome re-sequencing from four geographical sites around the Antarctic continent reveals no clear population structure but highlights natural selection associated with environmental variables. An apparent drastic reduction in krill population size 10 mya and a subsequent rebound 100 thousand years ago coincides with climate change events. Our findings uncover the genomic basis of Antarctic krill adaptations to the Southern Ocean and provide valuable resources for future Antarctic research.

02. African lungfish genome sheds light on the vertebrate water-to-land transition

发表期刊:Cell (IF66.85)

研究对象:非洲肺鱼

基因组大小:40G

主要测序技术:Nanopore1DBioNanoHi-C

主要完成单位:西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室等

第一作者:王堃、王俊、朱成龙、杨连东,任彦栋、阮珏、范广益、胡江(希望组)

SUMMARY: Lungfishes are the closest extant relatives of tetrapods and preserve ancestral traits linked with the water-toland transition. However, their huge genome sizes have hindered understanding of this key transition in evolution. Here, we report a 40-Gb chromosome-level assembly of the African lungfish (Protopterus annectens) genome, which is the largest genome assembly ever reported and has a contig and chromosome N50 of 1.60 Mb and 2.81 Gb, respectively. The large size of the lungfish genome is due mainly to retrotransposons. Genes with ultra-long length show similar expression levels to other genes, indicating that lungfishes have evolved high transcription efficacy to keep gene expression balanced. Together with transcriptome and experimental data, we identified potential genes and regulatory elements related to such terrestrial adaptation traits as pulmonary surfactant, anxiolytic ability, pentadactyl limbs, and pharyngeal remodeling. Our results provide insights and key resources for understanding the evolutionary pathway leading from fishes to humans.

03. Reference genome assemblies reveal the origin and evolution of allohexaploid oat

发表期刊:Nature Genetics  (IF:  41.31)

研究对象:燕麦

基因组大小:10.76 Gb

主要测序技术:ONT ultralong  Hi-C

主要完成单位:四川农业大学、吉林省白城市农业科学院、中国科学院遗传与发育生物学研究所、四川大学、西昌学院、中国农业科学院、武汉希望组生物科技有限公司

希望组贡献:希望组参与组装注释以及部分分析工作

SUMMARY: Common oat (Avena sativa) is an important cereal crop serving as a valuable source of forage and human food. Although reference genomes of many important crops have been generated, such work in oat has lagged behind, primarily owing to its large, repeat-rich polyploid genome. Here, using Oxford Nanopore ultralong sequencing and Hi-C technologies, we have generated a reference-quality genome assembly of hulless common oat, comprising 21 pseudomolecules with a total length of 10.76 Gb and contig N50 of 75.27 Mb. We also produced genome assemblies for diploid and tetraploid Avena ancestors, which enabled the identification of oat subgenomes and provided insights into oat chromosomal evolution. The origin of hexaploid oat is inferred from whole-genome sequencing, chloroplast genomes and transcriptome assemblies of different Avena species. These findings and the high-quality reference genomes presented here will facilitate the full use of crop genetic resources to accelerate oat improvement.

04. “Omics” data unveil early molecular response underlying limb regeneration in the Chinese mitten crab, Eriocheir sinensis

发表期刊:Science Advances (IF:15.0)

研究对象:中华绒螯蟹

基因组大小:1.67Gb

主要测序技术:ONTHi-CBionano

主要完成单位:上海海洋大学水产与生命学院

希望组贡献:三代测序组装注释,Hi-C挂载和Bionano光学图谱服务。

Abstract:Limb regeneration is a fascinating and medically interesting trait that has been well preserved in arthropod lineages, particularly in crustaceans. However, the molecular mechanisms underlying arthropod limb regeneration remain largely elusive. The Chinese mitten crab Eriocheir sinensis shows strong regenerative capacity, a trait that has likely allowed it to become a worldwide invasive species. Here, we report a chromosome-level genome of E. sinensis as well as large-scale transcriptome data during the limb regeneration process. Our results reveal that arthropod-specific genes involved in signal transduction, immune response, histone methylation, and cuticle development all play fundamental roles during the regeneration process. Particularly, Innexin2-mediated signal transduction likely facilitates the early stage of the regeneration process, while an effective crustacean-specific prophenoloxidase system (ProPo-AS) plays crucial roles in the initial immune response. Collectively, our findings uncover novel genetic pathways pertaining to arthropod limb regeneration and provide valuable resources for studies on regeneration from a comparative perspective.

05. A near-complete genome assembly of Brassica rapa provides new insights into the evolution of centromeres

发表期刊:Plant Biotechnology Journal (IF:13.26)

研究对象:白菜

基因组大小:424.59 Mb

主要测序技术:ONTHi-C和Bionano

主要完成单位:中国农业科学院蔬菜花卉研究所

希望组贡献:三代测序组装注释,Hi-C挂载和Bionano光学图谱服务。

Summary: Brassica rapa comprises many important cultivated vegetables and oil crops. However, Chiifu v3.0, the current B. rapa reference genome, still contains hundreds of gaps. Here, we presented a near-complete genome assembly of B. rapa Chiifu v4.0, which was 424.59 Mb with only two gaps, using Oxford Nanopore Technology (ONT) ultra long-read sequencing and Hi-C technologies. The new assembly contains 12 contigs, with a contig N50 of 38.26 Mb. Eight ofthe ten chromosomes were entirely reconstructed in a single contig from telomere to telomere.We found that the centromeres were mainly invaded by ALE and CRM long terminal repeats(LTRs). Moreover, there is a high divergence of centromere length and sequence among B. rapa genomes. We further found that centromeres are enriched for Copia invaded at 0.14 MYA on average, while pericentromeres are enriched for Gypsy LTRs invaded at 0.51 MYA on average.These results indicated the different invasion mechanisms of LTRs between the two structures. In addition, a novel repetitive sequence PCR630 was identified in the pericentromeres of B. rapa.Overall, the near-complete genome assembly,B. rapa Chiifu v4.0, offers valuable tools forgenomic and genetic studies of Brassica species and provides new insights into the evolution of centromeres.

06. The Telomere to Telomere genome of Fragaria vesca reveals the genomic evolution of Fragaria and the origin of cultivated octoploid strawberry

发表期刊:Horticulture Research (IF:7.29

研究对象:草莓

基因组大小:220.8Mb

主要测序技术:PacBio HiFiHi-C和Bionano

主要完成单位:南京农业大学、海南崖州湾种子实验室

希望组贡献:三代测序组装注释,Hi-C挂载和Bionano光学图谱服务。

Abstract:Fragaria vesca, commonly known as wild or woodland strawberry, is the most widely distributed diploid Fragaria species and is native to Europe and Asia. Because of its small plant size, low heterozygosity, and relatively easy for genetic transformation, F. vesca has been a model plant for fruit research since the publication of its Illumina-based genome in 2011. However, its genomic contribution to octoploid cultivated strawberry remains a long-standing question. Here, we de novo assembled and annotated a telomere-to-telomere, gap-free genome of F. vesca ‘Hawaii 4’, with all seven chromosomes assembled into single contigs, providing the highest completeness and assembly quality to date. The gap-free genome is 220,785,082 bp in length and encodes 36,173 protein-coding gene models, including 1153 newly annotated genes. All 14 telomeres and 7 centromeres were annotated within the 7 chromosomes. Among the three previously recognized wild diploid strawberry ancestors, F. vescaF. iinumae, and F. viridis, phylogenomic analysis showed that F. vesca and F. viridis are the ancestors of the cultivated octoploid strawberry F. × ananassa, and F. vesca is its closest relative. Three subgenomes of F. × ananassa belong to the F.vesca group, and one is sister to F. viridis. We anticipate that this high-quality, telomere-to-telomere, gap-free F.vesca genome, combined with our phylogenomic inference of the origin of cultivated strawberry, will provide insight into the genomic evolution of Fragaria and facilitate strawberry genetics and molecular breeding.

无论您是基于三代数据的首次组装还是以提升基因组质量为出发点的二次组装,NextDenovo都可以帮您实现不同大小物种的基因组组装!而且,NextDenovo对于PacBio和Nanopore数据都有比较好的适用性,可显著提升基因组组装质量!

项目文章|Nat Commun 肖传乐/侯春晖团队建立HiPore-C技术,揭示三维基因组的单分子拓扑结构多样性和细胞异质性

高等真核生物基因组存在复杂的三维空间结构,在不同尺度下形成染色质环(Chromatin loops)、拓扑关联结构域(TADs)、活性/非活性染色质区室(A/B compartments)和染色体域(Chromosome territories)。这些结构对于基因组稳定性的维持、基因表达的精准调控具有重要作用,从而影响细胞命运决定和表型建立。经典3D基因组结构主要通过染色体构象捕获(3C)及其衍生方法(如4Cs、5C、Hi-C)以及ChIA-PET为代表的多种形式的高通量技术揭示。这些技术可以捕获细胞核内空间相邻的成对DNA序列,但无法捕获细胞群体中基因组内协同的多位点相互作用(multi-way contact)和单分子拓扑结构(single-allele topology)。此外,基因组3D结构在细胞周期、发育和分化过程中动态变化,并与多个基因及调控区间的染色质相互作用相关。为了充分理解基因组的动态折叠机制和功能相关性,获得细胞群体中的染色体单分子拓扑结构至关重要。

近年来,多种方法如ChIA-drop、split-pool recognition of interactions by tag extension (SPRITE)、Tri-C、multi-contact 4C和Pore-C等已被建立,用于研究染色质多位点协同相互作用和群体细胞的染色体单分子拓扑结构的捕获。这些方法中,Pore-C具有技术简单、可以同步捕获全基因组高阶多位点互作信息和DNA甲基化修饰的优点。

2023年3月6日, 中山大学中山眼科中心肖传乐团队与中国科学院昆明动物研究所侯春晖团队在Nature Communications在线发表了题为“High-throughput Pore-C reveals the single-allele topology and cell type-specificity of 3D genome folding”的研究论文, 该研究优化建立了一种高通量的Pore-C方法,显著增加了高阶染色质互作的检测通量,并揭示了三维基因组的单分子拓扑结构多样性和细胞特异性。希望组提供三代测序服务。

文章发表在Nature Communications

在该研究中,研究团队发现Pore-C技术测序通量相对较低,可能是因为与DNA交联的蛋白质没有被完全去除,导致了测序纳米孔芯堵塞。为了解决这个问题, 研究团队优化了酶解条件,测试了多次蛋白酶解和使用混合蛋白酶的策略(图1), 大幅提高了测序产量(约80%),近乎成倍降低了该技术的使用成本(图2)。此外,研究团队通过整合NGMLR和Minimap2比对算法开发了MapPore-C比对流程,显著改善了比对准确性和数据利用率低的问题。研究团队还通过与Hi-C数据比较验证了HiPore-C能够高度重现基于Hi-C捕获的染色质环、拓扑相关结构域和染色质区室等基因组3D结构

图1. HiPore-C方法策略图

图2. HiPore-C与Pore-C技术测序通量和成本的比较

接下来,研究团队分析了染色体间高阶互作,发现大多数互作并非发生在端粒和中心粒之间,而是发生在基因组区域,并形成两个转录活性不同的互作枢纽,其中一个枢纽基因密度、增强子密度和活跃状态染色质相关的表观遗传修饰水平都更高。研究团队还发现多个染色体的tRNA基因富集区域之间发生跨染色体的高频相互作用。HiPore-C高阶互作不仅发生在TAD和compartment内部,而且能够跨越多个区室、拓扑相关域和染色质环(图3);基于直接和间接的DNA片段间相互作用构建的染色质互作图谱与常规Hi-C图谱总体相似,但间接DNA片段互作更倾向跨越多个结构单元。该研究揭示了跨染色质结构域互作存在的广泛性,并且突出了HiPore-C技术在单分子水平解析基因组三维高阶互作的优势和重要性。

图3. 跨越染色质环的高阶互作

研究团队通过分层聚类的方法,讨论了不同类型细胞的拓扑结构中呈现的单分子拓扑结构集群, 这些结构集群是类亚TAD(subTAD-like)结构域形成的基础,往往具有明显的细胞特异性(图4)。这表明单分子拓扑结构多样性是细胞群体TAD结构域划分的基础,对理解基因组空间结构组织和细胞特异的基因表达间的关系具有重要意义。

图4. K562和GM12878细胞TAD结构域的高阶互作聚类分析

此外,研究团队使用HiPore-C数据比较了红系K562和淋巴系GM12878细胞中在β-globin locus的高阶互作(图5)。结果显示,人ε-和γ-珠蛋白基因启动子和多个增强子之间形成了多位点同时互作、细胞特异的增强子-启动子中心,这种相互作用很可能是动态的

图5. K562和GM12878细胞中β-globin locus HiPore-C高阶互作分析

最后,研究团队分析了HiPore-C同时捕获染色质高阶互作和DNA甲基化状态的能力,发现DNA甲基化信号与染色质环锚点间相互作用强度呈正相关,此外还可以根据DNA甲基化水平准确地区分染色质区室的类型(AvsB)。

综上所述,研究团队建立了HiPore-C技术,能够以前所未有的深度全面描述单分子拓扑结构的多样性,揭示了单分子拓扑结构的动态折叠比以前想象的更复杂, 进一步促进了我们对三维基因组折叠规律的理解

项目文章 | 当樱花遇上科学,邂逅春日的浪漫,武汉市园科院带您揭秘樱花的起源、进化和花色变异

樱花是世界著名的木本观赏植物之一,由于其美丽的花朵、诱人的颜色和早春开花等特点而广受人们喜爱。它在世界各地广泛种植,特别是在我国和东亚地区的日本等国家。但是目前关于樱花的起源和进化的研究还不充分,尚有一些争议,关于樱花观赏性状的遗传及分子调控机理解析也十分有限。

2023年2月14日,武汉市园林科学研究院在读博士聂超仁高级工程师与北京林业大学园林学院吕英民教授、华中农业大学园艺林学学院汪念副教授等在植物学经典权威期刊The Plant Journal发表了题为Genome assembly, resequencing and genome-wide association analyses provide novel insights into the origin, evolution and flower colour variations of flowering cherry的研究论文。该论文结合基因组组装、重测序和全基因组关联分析为樱花的起源、进化和花色变异提供了新见解。

该研究第一作者为北京林业大学/武汉市园林科学研究院聂超仁博士,通讯作者为北京林业大学园林学院吕英民教授和华中农业大学园艺林学学院汪念副教授。同时丁昭全、夏文胜、孙宏兵、章晓琴、张思思、李娜,张英杰、王青华等还参加了本项研究。希望组为本研究提供基因组测序服务。

首先,研究者对P. campanulata ‘Plena’PCP)进行测序,一共获得76.42GbONT数据,N50和平均长度分别为30.3221.55Kb,以及29.72 GbIllumina数据,使用NextDenovo软件进行基因组组装(https://github.com/Nextomics/NextDenovo),初步基因组大小和N50分别为278.78Mb18.20Mb。在用NextPolish进行基因组校正后,最终的PCP基因组大小为280.20 Mb,由41contigs组成,N50大小为18.31 Mb。利用42.87 GbHi-C数据构建Hi-C热图(图1b),可以看到8个伪染色体中的每一个都有高强度的相互作用,该基因组的完整BUSCO率为98.70%(图1c)。

NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

Prunus campanulata‘Plena’ (PCP)的基因组组装

紧接着,研究者对收集到的312 个樱花种质(160 个品种、77 个 杂交F1 75 个野生个体)进行了重测序,获得了 761267 个高质量的基因组变异。通过分析这312 份种质的种群结构和遗传关系,该研究将这306份材料分为ABC三个进化枝。并根据系统发育分析,研究人员预测了樱花的两个起源。其中进化枝中的樱花起源于中国南方,例如喜马拉雅山脉或东南沿海山系,随后广泛种植或生长于华南、华中等区域。而另一分支则起源于中国东北,随后向南广泛种植于我国北方和东部区域形成B分支,同时另一支可能流向日本形成C分支。

2 312份樱花种质资源的群体分析

最后,研究人员对 312 份樱花种质进行了花色全基因组关联研究 (GWAS),共鉴定出七个数量性状基因座 (QTL),其中一个编码糖基化转移酶的基因被预测为一个QTL的候选基因。

3 312份樱花种质花色变异的全基因组关联研究

该研究结果提供了宝贵的樱花基因组资源,并对樱花的起源、进化和花色分子变异提供了新的见解。该研究的开展,为我国对樱花园林应用提供有力的理论支撑。

Next系列软件应用 | 世界首个草莓T2T,NextDenovo完成图必备工具

目前使用超长读长测序技术已经完成了许多植物的无间隙端粒到端粒基因组的组装,例如拟南芥, 水稻 , 西瓜, 猕猴桃, 香蕉和苦瓜等。T2T基因组已用于描述包括所有着丝粒和重复区域的具有高准确性、连续性和完整性的高质量完整的基因组。T2T基因组对重复区域的精确重建,提供了对着丝粒和端粒结构的洞察,能够注释更多的蛋白质编码基因,推进比较基因组学和进化生物学,并最终提供用于遗传驯化和育种的精确基因组序列。

二倍体森林草莓Fragaria vesca(2n=14)原产于欧洲和亚洲,由于其植株较小、杂合度低以及容易遗传转化被当作草莓研究的模式物种。2011年早期发布了F.vesca cv.‘Hawaii 4’的基因组序列草图(v1.0),2018年报道了基于PacBio测序和光学图谱的染色体水平组装。然而,目前F.vesca基因组仍然没有达到完整的T2T水平,表明其基因组质量有继续提升的空间。

本研究使用ONT和PacBio HiFi测序组装了一个高质量的T2T F.vesca基因组,填补了目前可用参考基因组中的所有剩余空白,并构建了染色体核型演化模型,探究了八倍体草莓的祖先二倍体。

本研究对二倍体草莓测序产生的约32.67 Gb的ONT超长测序reads、27.31 Gb的PacBio HiFi reads和32.10 Gb的Illumina reads以及44.56Gb的Hi-C数据进行基因组组装。使用NextDenovo软件对ONT数据进行组装(https://github.com/Nextomics/NextDenovo),使用NextPolish(1.4.1版本)软件对其进行纠错。

NextDenovo/NextPolish软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

图1 F.vesca的全基因组组装

最终组装得到的无gap基因组大小为220.8Mb,Contig N50达到了34.34Mb,BUSCO值为98.8%,注释到了36173个蛋白质编码基因,其中1153个为新注释的基因,鉴定到7条染色体上所有14个端粒和7个着丝粒。系统发育分析表明,F.vescaF.viridis是栽培的八倍体草莓F.×ananassa的祖先,而F. iinumaeF. nipponica与其亲缘关系较远。

图2 Fragaria vesca对栽培八倍体草莓的贡献

综上,这一高质量无gap的T2T F.vesca基因组,结合对栽培草莓起源的系统发育推断,提供了对Fragaria基因组进化的深入了解,并促进了草莓遗传学和分子育种的发展。

项目文章丨长读长测序+Next系列软件助力红花槭基因组解析与色素积累机制研究

红花槭(Acer rubrum)又名北美红枫,为槭属落叶乔木,从德州到魁北克,在大西洋西岸连绵2500 km 都有分布,是北美最受欢迎的绿化树种之一。目前,中国有20 余个省区引种栽培,有望成为新一代行道树。秋末冬初,红花槭叶片由绿色逐渐变成红色、黄色、橙黄色等颜色,是秋季叶色最为丰富的树种之一,叶片颜色、变色时序存在明显差异。之前的研究在一定程度上为红花槭叶色的遗传改良奠定了理论基础,但缺乏全序列基因组限制了该物种的基础生物学研究和育种。

近期,安徽省农业科学院的任杰研究员和安徽农业大学的傅松玲教授作为共同通讯作者,于2022年9月1日在Plant Physiology and Biochemistry上发表题为《The chromosome-scale genome provides insights into pigmentation in Acer rubrum》的文章。本研究将为该物种的基因组育种研究提供便利,同时也为槭属种质的利用提供了宝贵的基因资源。武汉希望组为本研究提供了测序、组装和注释等工作。

红花槭基因组组装及注释

在这项研究中,利用Oxford Nanopore平台和Hi-C技术获得了染色体水平的红花槭基因组。使用 Racon 和 Nextpolish 软件对其进行组装和校正后,确定红花槭基因组大小为 1.7 Gb,contig N50 为 547.18 Kb。利用 Hi-C 技术共生成了 39 条假染色体,基因组占99.61%,该技术用于捕获染色体的重叠群相互作用模式。这表明大多数红花槭基因组重叠群分布在 39 条假染色体上。在去除受污染的序列(线粒体、叶绿体等)后,红花槭的基因组大小为 1.69 Gb,N50 为 549.44 Kb。红花槭基因组预测有64644个基因,其中97.34%进行了功能注释。基因组注释显示67.14%为转座元件(TE)重复序列,其中长末端重复序列(LTR)含量最高(55.68%)。

红花槭的进化分析

为了研究基因家族与红花槭特定性状之间的关系,作者对其他 12 种物种进行聚类分析(漾濞槭、拟南芥、番木瓜、克里曼丁橘、橙子、温州蜜柑、龙眼、阿月浑子、毛果杨、伯尔硬胡桃、可可树和葡萄),发现红花槭和漾濞槭之间有 777 个同源基因(图 1A)。红花槭中有 404 个单拷贝直系同源物、6072 个独特基因和 9245 个未聚集基因(图 1B)。考虑到独特且未聚集的基因是物种特异性的,其中有15317个特定基因用于后续的GO和KEGG富集分析(图1C和D)。红花槭基因组的特征和注释及与其他植物基因组的比较,为未来研究该物种的进化提供了新的数据。在本研究中,红花槭和漾濞槭之间的系统发育分析更新了槭属物种的进化,距今约634万年前,红花槭与漾濞槭发生了分化。

图 1. 红花槭基因组注释。(A)红花槭基因组中直系同源基因的维恩图。(B)每个物种中单拷贝基因的花瓣图和红花槭中的独特基因。(C)红花槭基因组中独特和未聚集基因的 GO 富集图。(D)红花槭基因组中独特和未聚集基因的 KEGG 富集散点图。

花青素合成通路分析

本研究克隆了13个与红花槭叶片色素合成相关的基因,其中4个ArF3’H基因的表达与红叶中的关键色素–花青素的合成一致。红花槭中花青素的合成始于香豆酰辅酶A,通过一系列酶促反应合成三种类型的花青素(花青素、天竺葵素和飞燕草素),然后通过糖基化、甲基化和酰化修饰,形成稳定的花青素衍生物(图 2)。黄酮骨架上R1和R2位的羟基化程度是决定花青素最终颜色的关键因素。在红花槭中,F3’H催化二氢山柰酚羟基化生成二氢槲皮素(花青素的前体),使F3’H成为花青素合成的关键酶。相关分析表明,红花槭叶片的色素沉着是在非结构性碳水化合物和激素的协同调控下进行的。

图2 红花槭中花青素合成途径

红花槭全基因组测序是优化利用植物遗传资源和改良农艺性状的重要保证,不同植物基因组数据的比较进一步阐明了进化系统的功能,同时,对其进行了基因组学、转录组和代谢组学分析,以获得对红花槭叶片色素形成调控网络的新视角,为红花槭色素沉着提供了新的见解。该基因组将为红花槭资源的有价值的利用提供依据,同时为该物种的基因组育种研究提供便利。

项目文章 | 长读长测序助力大麦基因组领域取得重要突破

长江大学张文英教授课题组和澳大利亚技术科学与工程院院士、莫道克大学“西部作物遗传学联盟”主任李承道教授课题组合作,在植物科学国际权威杂志Plant Biotechnology Journal(影响因子13.263)在线发表题为“Genome architecture and diverged selection shaping pattern of genomic differentiation in wild barley”研究论文。研究者通过三代纳米孔测序,组装起源于以色列”进化峡谷”,峡谷南坡(干热的非洲坡)和北坡(冷湿的欧洲坡)的两个高质量野生大麦基因组。然后通过比较基因组学分析,群体遗传分析和转录组分析,研究了位于南坡和北坡两个野生大麦种群在非生物胁迫下的基因组分化和基因表达模式。

长江大学张文英教授,莫道克大学谈聪博士,莫道克大学胡海飞博士以及长江大学博士生潘锐为论文的共同第一作者,莫道克大学何田华博士,长江大学田小海教授和莫道克大学李承道教授为本文的共同通讯作者。本研究得到了中国国家自然科学基金,澳大利亚谷物研发公司(GRDC),主要粮食作物产业化湖北省协同创新中心、长江大学科技创新团队基金等项目的资助,并得到Claire Mérot, Peter Civáň 和Rajeev Varshney教授对文章的宝贵修改意见。希望组提供长读长测序服务与部分生物信息分析工作。

以色列”进化峡谷”是模拟研究非洲和欧洲不同生境生物进化与多样性的天然实验室。尽管地理接近,与北坡(冷湿的欧洲坡)相比,峡谷南坡(干热的非洲坡)的太阳辐射更高(多 200-800%),使得南北坡呈现出显著的环境差异和生物群体(动物、真菌和植物的种群)分歧。适应不同的环境可能会通过不同的选择压力,来驱动基因组区域的变化。通过比较种群的基因组差异,包括大的结构变异(SV)和单核苷酸多态性(SNP),可以揭示具有局部分化序列的基因组区域,并进一步研究其对物种环境适应性的影响。

野生大麦(Hordeum spontaneum L.)是栽培大麦(Hordeum vulgare L.)的祖先,是栽培大麦改良重要的基因遗传资源。然而,我们对不同种群的野生大麦基因组分化和它们的基因组结构差异仍然知之甚少。在这里,研究者从头组装了分别位于以色列”进化峡谷”南坡和北坡(图1)的两个高质量野生大麦基因组 (图2)。位于南坡和北坡的两个野大麦种群具有共同的祖先,并且起源于地理上接近,但由于它们的不同的生长环境,导致经历了不同的选择压力。研究者进一步通过重测序和转录组手段研究两个种群在非生物胁迫下的基因组分化和基因表达模式。同时,发现了可能对分化表型产生重要影响的变异,例如影响两个野生大麦基因组之间的开花时间和干旱反应的变异。其中,一个29 bp 的启动子区域插入,在HvWRKY45基因中形成了顺式调控元件,这可能有助于增强南坡野生大麦对干旱的耐受性。启动子区域中的单个 SNP 突变可能会影响HvCO5表达并与其开花时间适应相关。研究者还揭示了两个群体之间的具有持续基因流动变,发现SNP 和小的 SV 通过局部适应与基因水平的遗传分化相关。相反,大的染色体倒位可能通过抑制染色体重组和基因流动形成染色体的基因组分化的异质模式(图3)。该研究为通过基因组研究环境适应性的遗传基础提供了新的见解,并为栽培大麦的遗传改良提供了宝贵的基因资源。

图1 以色列进化峡谷中的南坡和北坡的野生大麦种群,以及两个斜坡的气候差异

图2  野生大麦基因组组装与结构变异的新发现

图3 大染色体结构变异对异质模式的影响

项目文章 | 三代测序助力马铃薯品种“合作88”的高质量基因组解析

马铃薯是世界上最重要的块茎类作物。栽培马铃薯是同源四倍体(2n=4x=48),基因组包含四套高度杂合的同源染色体。马铃薯主要依靠薯块进行无性繁殖,有害等位基因隐藏在四套染色体中很难被清除,而优良基因的聚合要依靠四套染色体复杂的遗传重组,这些特征导致马铃薯品种的改良困难极大。解析栽培马铃薯基因组对挖掘和利用有益基因,并开展快速分子育种十分重要。

2022年6月22日,Molecular Plant 在线发表了中国农业科学院、鹏城实验室和云南师范大学共同完成的题为Genome architecture and tetrasomic inheritance of autotetraploid potato的研究论文。该研究发布了当前最高质量的栽培马铃薯基因组,同时通过比较基因组学和遗传学分析,揭示了同源染色体间广泛存在且不均衡的序列、表达和遗传行为的差异,并展示了亲本之间有害突变基因型的互相屏蔽和功能基因的互补。

解析同源多倍体基因组最主要的挑战在于区分同源染色体间十分相似的序列。在本研究中,作者首先使用自交群体遗传作图的方法将四倍体基因组的高准确率测序序列(HiFi read)分成了四组,其次在全基因组组装图中引入了“polyploid graph binning”的方法,利用HiFi read的分组信息辅助区分四套同源染色体。该策略十分成功,作者最终获得 3.15 Gb组装序列,其中3.03 Gb 被锚定成四组共48条染色体。Contig N50达到18.78 Mb,BUSCO完整基因达到98.4%,显示这是当前质量最高的同源四倍体马铃薯基因组。希望组为本研究提供了Nanopore三代测序服务。

通过对四套同源染色体的比较基因组学分析,作者检测出马铃薯基因组内部12M的SNP和InDel,5万多个SV 和1万多个PAV基因,显示了栽培马铃薯基因组的高度杂合。四个同源染色体之间两两差异并不均衡,在基因组上造成了大量“局部坍缩”的纯合区域。同源染色体的近着丝粒区域序列高度特异,存在大量未报道的单体型特异的重复序列,显示了马铃薯染色体着丝粒序列的快速进化。四倍体基因组内大约四分之一的区域(~780Mb)存在野生二倍体马铃薯的渐渗片段,这些渐渗片段可能贡献了特异的着丝粒序列。

图1 同源四倍体马铃薯基因组的解析

双减数分裂(Double Reduction,DR)是同源多倍体物种特有的遗传现象。在本研究中,作者构建了包含1034个后代的自交群体,在全基因组范围检测到1% – 4%比例的DR事件,同源染色体之间存在显著的DR频率差异。四倍体基因组单体型序列的构建为进一步研究多倍体特殊遗传现象提供了有力的数据基础。

本研究中测序的栽培马铃薯品种“合作88 ”(Cooperation-88, C88)是云南师范大学等单位与国际马铃薯中心合作选育的优良品种,是我国云南地区主栽品种之一。C88的母本具有优良适应性和一般抗性, 父本来自Solanum andigena的混合花粉,晚疫病抗性强而适应性较差。通过对C88中父本染色体和母本染色体的比较发现,父本染色体携带更多的有害突变。其中2366个携带纯合有害突变父本基因,被母本染色体屏蔽成杂合状态,降低了有害突变的不良影响。而C88父本染色体贡献了两个抗晚疫病基因R1R2,是C88优良抗性的来源。对同源染色体单体型上有害突变和功能基因的分析,能够为马铃薯设计育种选择合适的骨架单体型提供全面的信息。

图2 父本和母本染色体上的有害突变和功能基因

中国农业科学院深圳农业基因组所鲍志贵,云南师范大学马铃薯学院李灿辉教授,中国农业科学院蔬菜花卉研究所李广存研究员为本文共同第一作者。中国农业科学院深圳农业基因组所黄三文研究员与鹏城实验室周倩博士为本文共同通讯作者。该工作得到广东省基础与应用基础研究重大专项和农业科技创新计划,以及国家自然科学基金的资助。

项目文章丨Nature Genetics!长读长测序+Bionano助力豌豆高质量泛基因组育种研究

2022年9月22日,中国农业科学院作物科学研究所联合多家合作单位,在《自然遗传学(Nature Genetics)》杂志上发表了题为“Improved pea reference genome and pan-genome highlight genomic features and evolutionary characteristics”的研究论文。论文进行了豌豆参考基因组的组装和注释,进一步确定了全基因组变异,并基于全基因组重测序数据展示了 118 个栽培和野生豌豆基因型的种群遗传结构。通过基因组选择和数量性状位点(QTL)分析,发现了一批与驯化和育种改良性状相关的候选基因,其中包括孟德尔基因的几个候选基因。高质量的参考基因组和泛基因组为豌豆基因组进化和驯化提供了洞察力,并为豌豆遗传学和育种研究提供了宝贵的基因组资源。

中国农业科学院作物科学研究所杨涛副研究员和刘荣助理研究员、中国科学院微生物研究所骆迎峰副研究员和胡松年研究员以及山东省农业科学院农作物种质资源研究所王栋助理研究员为论文的共同第一作者。中国农业科学院作物科学研究所宗绪晓研究员、中国科学院微生物所高胜寒特别研究助理、山东省农业科学院农作物种质资源研究所丁汉凤研究员、国际半干旱热带作物研究所和澳大利亚默多克大学Rajeev K Varshney教授为论文的共同通讯作者。希望组为本研究提供了部分Bionano光学图谱服务。

豌豆 (Pisum sativum L., 2n=2x=14) 是一年生豆科植物,基因组大小约为 4.45 Gb。豌豆的收获面积在豆类中排名第四,仅次于大豆、普通菜豆和鹰嘴豆(http://www.fao.org/faostat/)。作为蛋白质、淀粉、纤维和矿物质的来源,由于其生物固氮能力具有显著的生态可持续性优势,豌豆一直受到关注,特别是自从孟德尔通过豌豆遗传试验揭示了遗传规律之后。豌豆被认为是最早驯化的豆科作物之一,然而,尽管它在推进植物遗传学方面发挥了关键作用,但其驯化过程仍然是一个谜,豌豆中栽培和野生豌豆的遗传多样性尚未完全揭示。

研究思路

部分研究结果

1.豌豆基因组图谱构建

本研究结合使用 PacBio SMRT 测序、10x Genomics 、Bionano 光学作图、Hi-C 和 Illumina NGS 技术,对ZW6 的高质量、高连续性染色体参考基因组进行构建。最初基于 PacBio 读取的总大小为3,796.7Mb,contig N50 大小为 8.98Mb,最终组装被锚定到七个染色体水平的假分子中,具有两个细胞器基因组和 1,572 个未放置的重叠群(图 1 )。锚定重叠群的总大小为 3,719.6Mb,占豌豆ZW6 的 97.96%,而锚定重叠群仅占之前基于 NGS组装的 82.51%。豌豆基因组图谱的获得,为豌豆巨大基因组背后遗传学的了解奠定了基础。

图1 豌豆基因组图谱

2.种群遗传结构

为了阐明豌豆中栽培和野生豌豆的系统发育关系和种群遗传结构,将 ADMIXTURE 应用于 SNP 和 SV 数据集,结果高度一致(图 2b、c )。P. fulvumP. sativum 和 P. abyssinicum 三种不同种的结构得到了一致支持。在 P. sativum 中鉴定了三个遗传组,其中 P. sativum IV (PSIV)代表早期分化组(图2b,c)。P. sativum II (PSII) 和P. sativum III (PSIII) 主要对应于代表不同地理区域(即亚洲和欧洲)栽培豌豆的两个遗传组,这可能与豌豆驯化后的传播途径有关(图2b,c)。用 SNP 和 SV 数据集构建的系统发育树(图 2a,d)显示出主要分支的相似系统发育关系,并且与 ADMIXTURE 结果的主要遗传组有良好的对应关系。此外,P. fulvumP. abyssinicum和栽培的 P. sativum的 Pisum 形成了三个独立的单进化枝(图 2a,d),这也得到了 SNP 和 SV 数据集的主成分分析的支持(图 2e, f )。

图2 基于SNP (a, b, e)和SV (c, d, f)的118份栽培和野生豌豆的群体遗传结构

3.孟德尔基因位点的 QTL 分析和重新发现

为了探索豌豆重要农艺性状的遗传基础,使用基因分型测序对 300 个 F2 种群(WJ×ZW6)中的 12 个农艺性状进行 QTL 分析。将总共 124,900 个高质量 SNP 标记聚集成 2,950 个 bin 标记,构建了一个高密度(0.31 cM)遗传连锁图谱,组装成跨越 924.1 cM 的七个连锁群。发现 25 个 QTL 与 12 种农艺性状相关,比值对数 (LOD) 值范围为 4.2 至 78.1,解释的最大表型变异 (PVE) 高达 68.7%(图 3a)。在 25 个 QTL 中,与 Mendel 分析的三个性状相关的 SS3、SL5 和 PF5 显示出更高的 LOD(78.1、53.1 和 31.9)和 PVE(68.7%、46.7% 和 37.6%),在基因组中具有尖锐的 QTL 峰(4.87Mb, 1.85Mb 和 4.43Mb)(图 3b-d)。SS3、SL5 和 PF5 中的同源比对和功能注释的结果发现了两个先前已知构成孟德尔性状对应的基因位点,R和 Le,以及一个可能与荚型相关的候选基因。然而,这些基因都没有落在推定的选定区域中,这意味着它们可能与豌豆驯化没有密切关系(图3e-g)。

图3 基于SNP (a, b, e)和SV (c, d, f)的118份栽培和野生豌豆的群体遗传结构

4.基于 118 个栽培和野生豌豆的泛基因组

随着新基因组的增加,核心基因的数量减少,而泛基因的数量增加,逐渐趋于饱和(图4a)。在质量控制之后,基于跨基因组直系同源物的系统发育,116个基因组的基因被聚集成 112,776 个泛基因,代表系统发育分级直系群(HOG)(图 4)。Pisum中核心基因、软核基因、壳基因和云基因的数量分别为15,470、6,170、41,028和50,108,分别占预聚类基因总数的35.19%、15.54%、44.28%和4.99%。任何组中核心基因的百分比均高于 Pisum 整体。值得注意的是,群体的核心百分比可能与其计算的遗传多样性相对应,这表明遗传多样性也可能对核心基因的百分比有贡献。同时,核心基因在其他 27 个植物基因组中也更保守(图 4b ),表明它们在基本功能中的作用。此外,PAV 的邻接树也显示出 116 个 Pisum 种质的明显分离,这与基于 SNP 和 SV 的结果高度一致,表明有助于 Pisum 驯化的重要遗传变异也存在 PAV 中。

图4 116个代表性栽培和野生豌豆的泛基因组分析结果

总之,这里介绍的高质量参考基因组和泛基因组提供了对豌豆基因组进化和驯化的见解,以及豌豆遗传学和育种研究的宝贵基因组资源。这项研究将填补以前的遗传模式生物和现代基因组学之间的空白,以促进豌豆的研究和作物改良。

项目文章丨国内首篇OGM血液肿瘤英文文章见刊!OGM检测46例儿童急淋白血病并发现未被报道的可能与临床相关的融合基因

2022年12月21日,国家儿童医学中心首都医科大学附属北京儿童医院王天有、李志刚、张瑞东教授团队在MDPI Cancers上发表了以“Optical Genome Mapping for Comprehensive Assessment of  Chromosomal Aberrations and Discovery of New Fusion Genes in Pediatric B-Acute Lymphoblastic Leukemia”为题的研究文章,这是国内科学家发表的首篇使用OGM光学图谱技术检测血液肿瘤遗传学改变的英文文章。希望组提供Bionano测序和组装服务。

OGM检测 vs 传统检测方法(Karyotype+RT-PCR/FISH)对比

该研究纳入了2019年6月到2020年6月北京儿童医院血液肿瘤中心的46例儿童B细胞急性淋巴细胞白血病(B-ALL)的初诊病例, 依据CCLG-ALL2008方案划分为低危组(12例),中危组(24例)和高危组(10例)。对骨髓穿刺样本行核型,FISH, RT-PCR和OGM检测和数据结果分析解读。

46例儿童B-ALL样本均具有FISH/反转录PCR检测结果,45例具有核型G-显带结果。46例样本平均收集的OGM有效数据深度为420.5X.

传统方法检出非整倍体18例,核型正常17例。OGM检出非整倍体22例, 无明显染色体异常13例,OGM额外检出4例患者(case 41,97,101,109)超二倍体。汇总表格如下:注:在3个case中OGM未检出位于X染色体PAR区域的P2RY8::CRLF2融合,可能源于其VAF小于5%的检测下限,预计可在后续算法软件提升中解决该问题。

OGM单独检出而传统方法未检出异常

OGM单独检出而传统检测方法未检出的与B-ALL相关的染色体异常病例为11/46例,包含t(9;9)(p24.1;p21.2) JAK2::TEK,t(12;12)(p13.31;p13.2) ZNF384::ETV6等基因融合的检出。

下图B中展示了OGM检出case103的t(12;16;21)三重易位,而核型显示为无异常,RT-PCR仅检出了ETV6::RUNX1融合,OGM额外检出t(12;16)ETV6::DPEP1、t(16;21)SPG7::RUNX融合。

Case 66中,OGM和核型均检出了t(11;22)(q23;q11)和t(13;19)(q14;p13),RT PCR/FISH未报告融合,OGM进一步明确了上述易位造成的已见报道的FLI1::EWSR1和未见报道的 TMEM272::KDM4B基因融合。详见下图D,E,F.

OGM识别出marker染色体,纠正了核型断裂点

在6例核型失败或G-显带无法明确染色体变异断裂点或存在marker染色体的病例中,OGM明确了该变异和marker染色体来源。如下图case 47,OGM明确了chr1上的染色体异常。

iAMP21是儿童BCP-ALL中一个独特的细胞遗传学变异,发生率约2%。标准治疗条件下预后不良。目前金标准检测方法为特异性FISH探针检测单个细胞中RUNX1信号为正常的5倍及5倍以上。OGM在case 48中检出iAMP21,与FISH检测结果一致,且检出其chr21具有染色体碎裂现象。详见下图。

OGM检出未见报道的可能与白血病相关的融合基因
OGM检出了如下5个可能与白血病相关的基因融合事件,分别是 PSPC1::ZMYM2 (deletion), SH2B3::ATXN2(deletion), LMNB1::PPP2R2B (deletion), CWH43::TPTE and TMEM272::KDM4B (inter-chromosomal translocation),且被WGS数据在DNA水平得到验证。其中2个基因融合可转录成mRNA。

OGM检出case 46中chr6存在20Mb缺失,造成LMNB1::PPP2R2B 融合,保留了LMNB1基因的启动子和exons1-2, 而PPP2R2B基因保留了启动子和exons1-6,详见下图。

PPP2R2B基因是一个强效抑癌基因,在抗肿瘤免疫反应中发挥重要作用。LMNB1基因下调后,造成缺陷性DNA损伤修复而导致基因组不稳定性。该缺失造成的LMNB1::PPP2R2B融合可能导致2个基因的蛋白表达下调,可能与白血病发生有关。

另外,OGM在case 66中检出由t(13;19)造成的TMEM272::KDM4B 融合,断裂点分别位于TMEM272基因的intron2和KDM4B基因的intron1上,融合方式见下图,导致KDM4B基因的mRNA水平比其他初诊患者高1.69倍。

在多项研究报道中,KDM4B基因在乳腺癌、肠癌、卵巢癌、肺癌、胃癌和前列腺癌中过表达,导致H3K9me3去甲基化,影响信号通路后续表达并导致基因组不稳定性而引发肿瘤。KDM4B基因在ALL和其他血液肿瘤中的功能仍待深入研究验证。
讨论和总结
在46例儿童B-ALL患者的检测中,OGM可检出大多数临床相关的染色体异常,在检测复杂染色体异常和纠正识别复杂核型方面具有很强的能力。另外,OGM检出了多个可能与临床相关的未见报道的融合基因。该研究显示OGM是十分高效的检测白血病患者染色体异常的工具,所发现的未见报道的异常可能对于危险度分层和白血病发病机理研究具有重要意义。

文献解读丨Nature!最全人类细胞DNA甲基化图谱

DNA甲基化是控制基因表达和染色质组织的一个基本的表观遗传标记,从而为细胞身份和发育过程提供了一个窗口。目前的数据集通常只包括一小部分甲基化位点,并且这些数据来源基于细胞系或基于含有混合细胞的组织。

研究思路

研究结果

人类细胞类型甲基化图谱

所分析的细胞类型(图1)代表了大多数主要的人类细胞类型,允许对生理系统(例如胃肠道、造血细胞和胰腺)进行综合观察,并比较不同环境中的类似细胞类型。如图1所示,205个甲基体在复制之间表现出巨大的相似性,细胞类型之间以类似于块的方式发生了显著变化。作者试图识别特定细胞类型中差异甲基化的基因组区域,以阐明细胞类型特定的生物学过程,定义细胞身份,并促进甲基化生物标志物的开发,以识别循环cfDNA片段的细胞来源。

图1 成人人体甲基化图谱

甲基化记录发展历史

通过分析系统地将相同细胞类型的生物样本分组(图2),类似于纯化人血细胞的基于阵列的聚类。这支持了细胞分离的可重复性,并表明每种正常细胞类型的三到四次重复就足以推断其甲基化模式,用于生物标志物鉴定等实际应用。

图2 无监督凝聚聚类反映了健康细胞类型的人类发育谱系。单元格类型由边缘颜色表示

细胞类型特异性甲基化标记物

每种细胞类型的前25个差异非甲基化区域包括1246个人类细胞类型特异性甲基化图谱标记(图3)。片段水平分析进一步表明,与所有其他细胞类型中几乎没有的DNA片段相比,这些区域的绝大多数DNA片段在目标细胞类型中未甲基化。该图谱具有多种应用,包括循环无细胞DNA片段的分析。重要的是,只有约1%的细胞类型特异性标记物被亚硫酸氢盐减少表达测序(RRBS)覆盖,4-8%被甲基测序杂交捕获板覆盖,14-24%在单个CpG 450K/EPIC阵列中表达,强调了全基因组测序对生物标志物彻底鉴定的益处。

图3 39个细胞类型组205个样本的人类甲基化图谱

人类细胞类型特异性调控图

前250名单核细胞和巨噬细胞的非甲基化标记物是高度可获得的,其特征在于单核细胞中的H3K27ac和H3K4me1,而其他细胞类型的标记物在单核细胞内没有富集(图4a),其他细胞类型标记物的结果相似。同时还显示了细胞类型特异性标记33处chromHMM增强子注释的强烈协同富集(图4a)。这些发现与先前的研究一致,这些研究将组织特异性去甲基化与基因增强剂相关联。

为了进一步评估细胞类型特异性非甲基化区域的生物学重要性,还研究了它们与转录因子(TF)的关系,转录因子可以影响DNA甲基化或以细胞类型特异的方式结合DNA,取决于甲基化和染色单体。对于大多数细胞类型,顶部图案包括主调节器和关键TF(图4b)。

图4 细胞类型特异性标记作为假定的增强子

细胞类型特异性高甲基化位点

对那些在一种细胞类型中甲基化但在人体其他地方未甲基化的基因组区域进行研究。这些蛋白富集于CpG岛(38%的甲基化区域,而1.7–2.7%的细胞类型特异性非甲基化区域),并且在其他细胞类型中由H3K27me3和Polycomb标记(图5a–c)。有趣的是,只有约3%的细胞类型特异性差异甲基化区域是高甲基化的。在汇集所有细胞类型特异性高甲基化区域后,发现了染色质调节因子CTCF的靶序列高度富集(图5d)。图5e显示了甲基化模式并在体内公布了CTCF在一个位点的占用情况,该位点在结肠和肠道中被特异性甲基化。与DNA甲基化阻止CTCF结合一致,ChIP数据显示结肠中该位点CTCF结合的选择性缺失。此外,在特定细胞类型中甲基化的位点富集了神经基因转录抑制因子RE1沉默TF/神经元限制性沉默因子(REST/NRSF)的靶点,这在胰岛细胞的甲基体中最明显(图5f)。

图5 细胞类型特异性的高甲基化区域富集CpG岛、Polycomb靶标和CTCF和REST/NSRF

片段级甲基化反褶积

如图6a所示,1246种标记允许以约0.1%的分辨率准确检测来自给定来源的DNA,与基于阵列的方法相比,提高了近一个数量级。然后,使用来自WGBS数据估计了白细胞和cfDNA的细胞组成;99.5%的白细胞衍生DNA来源于粒细胞、单核细胞、巨噬细胞和NK、T和B 细胞,与典型的血液计数一致(图6b)。健康受试者的cfDNA主要来源于白细胞:粒细胞(29.7%)、单核细胞/巨噬细胞(20%)和淋巴细胞(3%)。有助于cfDNA的实体组织包括血管内皮细胞(6%)和肝细胞(3.1%)(图6c),与先前的结果一致。目前的图谱还显示巨核细胞(31%)和红细胞祖细胞(5%)对cfDNA的显著贡献,这在以前使用范围更有限的参考甲基体的研究中没有观察到。最引人注目的是,Roadmap肺样本主要由血液(40%)、内皮(34%)和平滑肌(5%)组成,只有22%的DNA来源于肺上皮细胞(图6f–i)。

图6 使用细胞类型特异性生物标记物进行片段级反褶积

总之,本研究提供了一份原始人类细胞类型的全面甲基化图谱,以及一套广泛的细胞类型特异性标记和计算工具,用于混合细胞类型样本的片段水平分析。这些数据揭示了DNA甲基化在细胞生物学和基因调控中的作用,并有助于识别每种细胞类型中的活性增强剂。也许该图谱最有前景的用途是混合细胞型样本的片段水平反褶积的潜力,允许在患有癌症和其他疾病的个体血浆中敏感地识别cfDNA的起源组织。