项目文章 | NC!华中农业大学付新华教授团队揭示萤火虫发光之谜

萤火虫是鞘翅目萤科的昆虫,成虫个体一般较小,大多数体长1厘米,少数种类可以达到3厘米。雌性个体要略微大于雄性个体。萤火虫最独特的特征是腹部具有特化的发光器,不同萤火虫之间发光器区别很大,这也是萤火虫分类的重要特征之一。世界上已知萤火虫有2000多种,全世界仅发现了8种水栖萤火虫,原先都隶属于萤科第一大属——熠萤属。付新华教授与合作者以武汉萤为模式种,确立了一个新属——水萤属。

图1 雷氏萤A. leii的发育阶段。幼虫期1天至成虫期2天,白色箭头表示幼虫的发光器,红色箭头表示成虫的发光器

希望组与华中农业大学植物科学技术学院付新华教授的首次合作在2017年,基于PacBio Sequel(~73X)平台测序,完成了首个萤科物种胸窗萤Pyrocoelia pectoralis)的高质量基因组测序组装,发表了《Long-read sequence assembly of the firefly Pyrocoelia pectoralis genome》文章[未来组项目文章] 三代萤火虫基因组文章发表随着测序技术的不断升级,希望组与付新华教授再次合作,通过单分子纳米孔测序(ONT,~170X)与Hi-C挂载组装了染色体水平的水栖萤火虫雷氏萤(Aquatica leii)基因组。付新华和朱馨蕾依托高质量的雷氏萤基因组,结合不同发育阶段的蛹的比较转录组学,成功筛选出调节A. leii 成虫发光器发育的两个关键转录因子AlABD-B和AlUNC-4,于2024年3月5日在《Nature Communications》上发表题为《Key homeobox transcription factors regulate the development of the firefly’s adult light organ and bioluminescence》的研究成果!

这篇论文研究了水栖萤火虫成虫发光器发育和生物发光的分子调控机制。通过单分子纳米孔测序(ONT)和高通量染色体构象捕捉测序技术组装了水栖萤火虫雷氏萤(Aquatica leii)的染色体水平基因组,并发现了两个关键的Homeobox转录因子AlABD-B和AlUNC-4调节着萤火虫成虫发光器的发育和生物发光。干扰这两个关键基因的表达会导致成虫发光器发育不完整或不发光。此外,AlAbd-B 和 AlUnc-4 激活了 AlLuc1 基因的表达以及一些过氧化物酶跨膜转运蛋白的表达。四个过氧化物酶转运蛋白参与将荧光素酶转运到过氧化物体内。这项研究为了解萤火虫成虫发光器的发育和生物发光提供了重要的研究基础。希望组为本项研究提供ONT等基因组测序、基因组组装、Hi-C挂载、注释和比较基因组分析等服务。

雷氏萤(Aquatica leii)组装基因组大小为1.04G,杂合度3.2%,包含222条contig,其中scaffold 和 contig 的 N50 值分别为 125.64 Mb 和 10.81 Mb。此研究分析了染色体数目和核型(2n = 14 + XY),并对基因组进行 Hi-C 挂载,挂载出 8 条染色体,同时统计了基因组的GC 含量、重复密度、 基因密度、转录因子密度、Homeobox 家族基因(图2D)。与胸窗萤(Pyrocoelia pectoralis)的高质量基因组(基因组大小760.4Mb,contig N50为3.04Mb,杂合度2%~3%)相比,基因组组装质量有了显著提升!

结合转录组数据,对雷氏萤(A. leii)进行基因组注释,共鉴定出16,472个基因。其中,14,874个基因(占90.30%)在至少一个公共数据库(Swissprot、NR、KEGG、GO和KOG)中进行了功能注释。为了推断 A. leii 的进化历史和系统发育关系,该研究使用了四个已发表的其他萤火虫基因组和六个鞘翅目昆虫基因组以及一个果蝇基因组作为外群,使用 OrthoMCL 进行了基因家族聚类分析。在这十二种物种中鉴定出了1,633个单拷贝同源基因用于构建系统发生树(图2E)。系统发生推断表明,A. leii和边褐端黑萤Abscondita terminalis是姐妹群,同属于熠萤亚科,根据 mcmctree 计算的分歧时间表明,A. leii在大约57.38百万年前从该亚科的其他成员的共同祖先中分离出来(图2E)。

图2 雷氏萤A. leii 基因组特征圈图。红色标记基因在后续实验中被验证功能。

该研究使用AnimalTFDB(v3.0) 数据库比较了所有的 A. leii 蛋白,并获得了相应的A. leii 转录因子家族。在 A. leii 基因组中鉴定出了 914 个转录因子。根据功能域特征,将转录因子超家族成员分为 45 个不同的类型。其中,Homeobox 转录因子类型是A. leii 中除“锌指”转录因子类型之外最常见的转录因子类型,并且Homeobox 基因家族中的大量基因编码了在动物胚胎发育中细胞分化和发育中起关键作用的DNA结合同源域。结合转录组数据来分析Homeobox基因的表达模式,发现在蛹化过程中,只有六种homeobox基因(AlAbd-B、AlAntp、AlUnc-4、AlShox2、AlRepoAlAp2)持续上调(p <0.05),而其他基因下调或其调控从上调变为下调。运用基因敲除技术研究发现,AlAbd-B 和 AlUnc-4 的敲除导致了不发光和过氧化物酶体空腔,这两个基因可能是萤火虫成虫发光器发育所必需的关键调节因子(图3)。

图3. A. leii 中与发光器发育和发光相关的6个homeobox基因的功能验证

萤火虫成虫发光器发育和发光存在两个关键步骤:一个是荧光素酶基因的表达,另一个是荧光素酶被转运到发光器,即生物发光发生的细胞器。该研究假设干扰荧光素酶基因表达或荧光素酶运输导致过氧化物酶体空腔。为验证这一假设,该研究对在蛹期敲除 AlAbd-B 和 AlUnc-4 的 1 日龄雄萤的转录组与对照组(Gfp 注射)进行了比较。结果表明,在 dsAlAbd-B 和 dsAlUnc-4 敲除组中,AlLuc1 的表达显著降低(图3A)。转录组测序分析和实时荧光定量PCR验证表明:(1)AlAbd-B 和 AlUnc-4基因的干扰,导致 AlLuc1、AlPx11c.2、AlPex5 和 AlPxmp2 的表达水平显著降低;(2) AlAbd-B 基因的敲除,导致AlPex1、AlPex13、AlPex14 和 AlPex16 的表达水平显著降低;(3)有趣的是,AlAbd-B 基因的敲除导致AlUnc-4 的表达水平显著降低。在这些基因中,该研究选择了AlLuc1 和其同源基因 AlLuc2 以及七个过氧化物酶基因AlPx11c.2、AlPxmp2、AlPex5、AlPex13、AlPex14、AlPex16、 AlPex1 进行详细的功能研究(图4)。

图4 AlAbd-B RNAi和AlUnc-4 RNAi表型与对照组相比转录组的差异基因表达分析

AlLuc2敲除后,只有蛹的发光器发出荧光,表明成虫发光器的发育与 AlLuc2无关,因此该研究重点关注了 AlLuc1dsAlAbd-B 和 dsAlUnc-4 组的转录组中,AlLuc1 的表达水平显著降低。通过 JASPAR 数据库分析,识别出每个转录因子的两个潜在 DNA 结合域。该研究假设 AlABD-B 和 AlUNC-4 与 AlLuc1 启动子相互作用并上调其活性,并进行了酵母单杂交 (Y1H)、电泳迁移率shift 实验(EMSA)、双荧光素酶报告基因检测、Western 蛋白印迹和免疫荧光 (IF) 检测来验证这一假设。最终揭示AlABD-B和AlUNC-4是发光器中AlLUC1表达所必需的(图5)。

图5 Alluc1的基因组位点(顶部)和包含七个外显子的基因结构(底部)

萤火虫的荧光素酶AlLUC1在过氧化物酶体中起作用,这表明AlLUC1需要某些过氧化物酶体运转蛋白才能进入过氧化物酶体。该研究进行了RNAi分析,以验证筛选出的过氧化物酶(AlPX11C.2、AlPXMP2、AlPEX5、AlPEX13、AlPEX14、AlPEX16 和 AlPEX1)是否参与了ALLUC1 的导入。结果表明,AlPEX13、AlPEX14、AlPEX5和AlPXMP2蛋白参与了A.leii 中AlLUC1进入过氧化物酶体的过程(图6)。

图6 参与AlLUC1转运至过氧化物酶体的pex基因的验证

总之,该研究揭示了两个关键的Homeobox转录因子调控萤火虫成虫发光器发育和生物发光的一系列新机制。AlABD-B 调控 AlUNC-4,它们相互作用。过氧化物酶 AlPex13 和 AlPex14 受到 AlABD-B 的调控。AlLuc1、AlPex5 和 AlPxmp2 同时受到 AlABD-B 和 AlUNC-4 的调控,但 AlABD-B 至关重要。AlUNC-4 提高了 AlABD-B 的转录活性,从而极大地激活下游基因的表达。AlPEX13 和 AlPEX14 相互作用,协助 AlPEX5 将 AlLUC1 运入过氧化物酶体。AlPXMP2 和 AlLUC1 相互作用,并参与将 AlLUC1 转运过氧化物酶体(图 7)

超大基因组研究集锦——植物篇

上篇为大家带来了超大基因组动物的项目文章,本文主要为超大基因组植物项目文章。如需了解更多,请咨询当地科技顾问~

01. Reference genome assemblies reveal the origin and evolution of allohexaploid oat

目标物种:燕麦(Avena sativa
发表时间:2022.08
发表期刊:Nature Genetics(IF=41.307)
合作单位:四川农业大学、白城市农业科学院、四川大学和中国科学院遗传与发育生物学研究所
测序策略:Nanopore Ultra-long、Illumina、Hi-C
基因组大小:10.76 Gb
基因组Contig N50:75.27Mb

燕麦作为重要的粮饲兼用型作物,由于其基因组为异源六倍体组成,基因组大(~11G)、重复序列含量高(~87%)且亚基因组间存在大量的交换,导致其基因组组装难度较大。研究者首先选择来自裸燕麦起源中心的传统地方品种“三分三”为材料,基于1028Gb的三代超长序列,并使用650 Gb的二代数据进行校正,组装了10.76 Gb的燕麦基因组,基于1296 Gb的Hi-C数据将99.06%的基因组序列挂载到燕麦21条染色体上。基因组组装从Contig N50(75.27Mb),LAI(18.34)、BUSCO(99.44%)以及与来自六倍体燕麦一致性图谱标记的共线性等多方面进行质量评估,均显示了所组装基因组的高质量。随后研究者进行了主要禾谷类作物的系统进化基因组学分析,通过与以水稻为代表的祖先核型和普通小麦的三个亚基因组进行比较,明确燕麦不同亚基因组的核型进化历史并发现在燕麦中存在大量染色体重排。研究者为了研究燕麦多倍化过程中发生的染色体结构变异,对二倍体、四倍体和六倍体物种进行了共线性分析。结果表明,在燕麦多倍化过程中发生了多次大的易位和倒位事件,并通过荧光原位杂交证实了这些染色体结构变异。希望组参与组装注释以及部分分析工作。

论文链接:https://doi.org/10.1038/s41588-022-01127-7

02. The Cycas genome and the early evolution of seed plants

目标物种:苏铁(Cycas
发表时间:2022.04
发表期刊:Nature Plants(IF=17.352)
合作单位:深圳华大生命科学研究院、深圳市仙湖植物园、中国科学院昆明植物研究所、兰州大学、中国环境科学研究院
测序策略:Nanopore、MGI-SEQ、Hi-C
基因组大小:10.5 Gb
基因组Contig N50:12Mb

该研究选取苏铁类的基部类群,完成基因组测序和组装。基于Nanopore长读测序、MGI-SEQ测序及Hi-C测序技术,基因组组装大小为10.5 Gb,Contig N50为12Mb,结合Hi-C数据,挂载到11条染色体上。共注释得到32,353个蛋白编码基因,BUSCO评估完整度为91.6%,是目前裸子植物中最高质量的基因组图谱。研究者采用对重复基因同义替代分析和系统发育基因组学方法,并使用基因组内共线性区域进行比较验证,发现现存裸子植物的最近共同祖先可能经历了一次古老的全基因组复制事件。最显著扩张的种子生理相关家族是cupin蛋白家族。研究者通过对源于四川攀枝花苏铁国家级保护区62株雌雄苏铁群体测序,表达差异分析,和雄性Y染色体的组装,找到雌雄表达差异最大的一个基因来自雄株的Y染色体,该基因编码一个MADS-box转录因子,推测其调控雌雄苏铁的性器官发育,该转录因子的同源基因也仅能在雄株基因组中检测到,说明了该性别决定机制在苏铁类植物中的保守性。早期维管植物的精子都是有鞭毛,可以游动的。随着演化,鞭毛丢失。在现生种子植物中仅苏铁和银杏保留精子具鞭毛的特征,进一步证实了苏铁在种子植物演化中古老的地位。希望组参与了本研究项目中攀枝花苏铁的测序、组装及初步注释服务。

论文链接:https://doi.org/10.1038/s41477-022-01129-7

03. The Larix kaempferi genome reveals new insights into wood properties

目标物种:落叶松(Larix kaempferi
发表时间:2022.07
发表期刊:Journal of Integrative Plant Biology(IF=9.106)
合作单位:中国林业科学院、国家林业和草原管理局林木栽培重点实验室
测序策略:PacBio CLR、Illumina、BioNano
基因组大小:10.97 Gb
基因组Contig N50:1.09Mb

研究者基于1.30Tb三代测序和0.52Tb二代测序数据,组装完成了大小为10.97Gb的落叶松基因组,Contig N50为1.09Mb,注释了45828个蛋白质编码基因,发现落叶松基因组66.8%由重复序列组成,其中LTR-RT占69.86%。基因组进化分析表明,落叶松与花旗松物种分化大约发生在65.9个百万年前,1139个基因家族在物种分化后发生扩张,而581个基因家族发生收缩。团队从31年生的落叶松全同胞家系中筛选出两组木质素含量显著差异的群体,基于群体转录组学,发现落叶松中的木质素含量差异主要由木质素单体聚合过程决定,且六个基因(LkCOMT7、LkCOMT8、LkLAC23、LkLAC102、LkPRX148LkPRX166)的表达量与木质素含量呈显著正相关。希望组为该研究合作单位之一,提供超长测序服务并参与组装、注释及部分后续分析工作,李净净及全伟鹏等参与该项研究工作。

论文链接:https://doi.org/10.1111/jipb.13265

希望组项目文章—药用植物研究集锦

药用植物一直以来被广泛应用于人类医疗保健领域,并为许多疾病的治疗提供了有效的方案。药用植物所含的天然产物具有丰富的生物活性成分,这些成分可以影响细胞代谢、调节免疫反应等。随着高通量测序技术的快速发展,药用植物测序不仅可以帮助科学家们深入了解药用植物的遗传多样性和进化历史,揭示药用植物所含活性成分的合成途径和调控机制,同时对研究药用植物的育种栽培、代谢产物、功能调控和药理属性提供大量生物信息和遗传信息数据。这一研究领域不仅有助于推动现代医药领域的创新发展,还能为药用植物的可持续利用和资源保护提供科学依据。

希望组作为三代测序大数据技术和应用的开拓者,早于2012年将三代测序技术应用于药用植物研究中,为了解药用植物的基因组特征和生物活性成分提供了新的视角。希望组10年+的三代测序经验,能够为进一步深入开展药用植物测序研究的专家学者们提供高质量的测序、组装及生信分析服务,为推动现代医药的发展贡献属于希望组的力量。

01. 阳春砂和海南砂中挥发性萜类差异的遗传基础
Comparing genomes of Fructus Amomi-producing species reveals genetic basis of volatile terpenoid divergence

海南砂(Wurfbainia longiligularis)和阳春砂(Wurfbainia villosa)都富含挥发性萜类化合物,是用于治疗肠胃疾病的砂仁的两种主要植物来源。代谢组学分析表明,与二磷酸硼酯(BPP)相关的萜类化合物在阳春砂的种子中含量较高,而在海南砂的组织中分布较广。为了探索挥发性萜类化合物差异背后的遗传机制,该研究组装了高质量的海南砂染色体水平基因组(2.29 Gb,contig  N50 为 80.39 Mb)。对17个萜烯合成酶(WlTPSs)的功能分析发现,WlBPPS与具有二磷酸硼酯合成酶(BPPS)活性的WlTPS 24/26/28一起,促成了BPP相关萜类化合物在海南砂中更广泛的组织分布。此外,转基因烟草(Nicotiana tabacum)的研究表明,GCN4-motif元件正向调节WvBPPS的种子表达,从而促进 BPP 相关萜类化合物在阳春砂种子中的富集。对来自16个科的29种单子叶植物中候选TPS的系统鉴定和分析表明,姜科植物中TPS-a和TPS-b亚家族基因的大量扩张可能驱动了挥发性萜类化合物的多样性和产量的增加。BPPS基因的进化分析和功能鉴定表明,BPP相关的萜类化合物可能仅分布在单子叶植物的姜科植物中。本研究为选育和改良具有药食两用价值的砂仁提供了宝贵的基因组资源,并为姜科植物萜类化合物生物合成的进化提供了参考。希望组为本研究提供了基因组、转录组和Hi-C测序服务。

原文链接:https://doi.org/10.1093/plphys/kiad400

02. 楝科基因组为木材发育和柠檬苦素生物合成提供了见解
Meliaceae genomes provide insights into wood development and limonoids biosynthesis
楝科是一个有价值的植物家族,它有优质的木材和许多具有药理和生物活性的柠檬苦素。尽管楝科物种的一些基因组已被报道,但关于其独特的家族特征,即木材品质和天然产物,许多问题尚未得到解答。该研究中提供了[苦]楝树的全基因组序列(237.16 Mb,contig N50为8.07 Mb),以及印度苦楝树的改良基因组序列(223.66 Mb,contig N50为8.91 Mb)。此外,对基因组脱脂数据、转录组和其他已发表的基因组进行综合分析,以确定产生优质木材和有价值的柠檬苦素的基因和蛋白质。叶绿体基因组、单拷贝基因家族和单核苷酸多态性的系统发育分析表明,楝科应归为2个亚家族:洋春亚科(Cedreloideae) 和楝亚科(Melioideae)。虽然楝科物种没有经历额外的全基因组复制事件,但与印楝A. indica 和苦楝M. azedarach 相比,洋春亚科(Cedreloideae)木本植物香椿( Toona sinensis )的次生壁生物合成基因显著扩张,尤其是下游转录因子和纤维素/半纤维素生物合成相关基因。此外,扩大的特殊氧化鲨烯环化酶目录可以帮助无患子目骨架多样化,调节萜类链延长、环化和修饰的聚集基因将支持它们在柠檬苦素生物合成中的作用。萜类合成酶、O-甲基转移酶和细胞色素P450家族的扩张,主要来自串联重复,负责物种间不同的柠檬苦素类。这些结果有利于进一步研究木材发育和柠檬苦素生物合成。希望组为本研究提供测序、组装和注释服务。
原文链接:https://doi.org/10.1111/pbi.13973
 

03. 盾叶薯蓣的基因组揭示了有重要药用价值的薯蓣皂苷的生物合成、起源和进化
The genome of Dioscorea zingiberensis sheds light on the biosynthesis, origin and evolution of the medicinally important diosgenin saponins
从姜叶薯蓣等薯蓣属植物中分离得到的薯蓣皂苷元具有广泛的药理活性。薯蓣皂苷元是薯蓣皂苷素的苷元,是生产甾体类药物的重要原料。然而,植物是如何产生薯蓣皂苷素的,以及薯蓣皂苷素生物合成途径的起源和进化仍然是一个谜。该研究报道了一个高质量的629Mb的盾叶薯蓣基因组(2n = 20),contig N50为 1.2Mb,杂合率为1.56%,固定在10条染色体上,包含30322个蛋白质编码基因。我们发现,薯蓣皂苷素在叶片(“源”)中合成,然后转化为薯蓣皂苷,最后运输到根状茎(“库”)储存在植物中。通过对薯蓣属植物中薯蓣皂苷素的分布和进化模式的分析,我们发现含薯蓣皂苷素可能是薯蓣的一种祖先特征,并被选择性保留。比较基因组分析结果表明,串联复制和全基因组复制事件为姜叶薯蓣皂苷素生物合成途径提供了关键的进化资源。此外,通过对13种薯蓣属植物的转录组和代谢产物的比较分析,表明途径基因的特定基因表达模式促进了薯蓣属植物薯蓣皂苷元生物合成途径的差异进化。本研究为进一步了解薯蓣皂苷素等植物特化代谢产物的生物合成、进化和利用提供了重要的见解和宝贵的资源。希望组为本研究提供测序及NextDenovo软件组装服务,并参与了基因组组装、注释及后续分析工作。希望组计算中心总监孙宗毅为共同作者。
原文链接:https://doi.org/10.1093/hr/uhac165
 

04. 染色体水平和单倍型分辨的基因组提供了对广藿香四倍体杂交起源的见解
Chromosome-level and haplotype-resolved genome provides insight into the tetraploid hybrid origin of patchouli
广藿香为唇形科唇形科植物,是一种重要的芳香植物,在医药、香料等方面有着广泛的应用。该研究报道了广藿香基因组(contig N50 = 7.97 Mb)的一个1.94 Gb的染色体组装。基因注释表明倍半萜生物合成基因的串联重复可能是广藿香生物活性成分生物合成的主要贡献者。研究者进一步将基因组分为两个明显不同的亚基因组(A和B),并鉴定了它们之间发生的染色体替换事件。进一步的研究表明,A亚基因组中普遍存在的LTR-RTs的爆发导致了两个亚基因组之间的分歧。但未检测到明显的亚基因组优势。最后,研究者追踪了广藿香的进化场景,包括全基因组四倍化、亚基因组分化、杂交和染色体替换,这些都是决定广藿香基因组复杂程度的关键力量。该研究揭示了广藿香的进化历史,为广藿香的基础研究和优异种质的开发提供了前所未有的基因组资源。希望组为本研究提供测序服务。
原文链接:https://doi.org/10.1038/s41467-022-31121-w

揭开虾蟹类基因组之谜,突破复杂组装难题!

虾、蟹类作为重要养殖经济物种,养殖产量约占中国水产养殖总量的约60%以上,可谓是水产界的半壁江山。然而,由于缺乏高质量的基因组信息,虾、蟹类的种质资源创新利用一直受到限制,分子育种进展缓慢。通过深入研究虾蟹类基因组,我们可以更好地理解其生长发育、抗病性以及适应环境的机制,从而为育种和养殖管理提供科学依据。加强对虾蟹类基因组的研究和解析对于推动水产养殖行业的可持续发展具有重要意义。

虾蟹类是世界上公认的高复杂基因组,原因在于其基因组杂合度高、重复序列多、染色体数目多,对基因组组装造成了较大的困难。其次,虾蟹组织样本中蛋白含量较高,在前端实验提取DNA时容易堵孔、污染DNA造成提取困难,因此高质量的虾蟹类基因组DNA获取极为困难。

希望组深耕长读长测序领域十数年,通过结合多平台的测序数据,将SMRT、Nanopore、NGS、Hi-C/Pore-C、Bionano等多种形式的测序数据通过生物信息学技术有机结合,完成了多个虾蟹类基因组组装的合作项目,发表了多篇高分论文。希望组愿与您一起破解虾蟹基因组组装难题,推动水生生物基因组学的蓬勃发展,为水产领域科研增光添彩!

希望组在虾蟹类基因组研究具有极大优势:

01 PacBio测序、NextDenovo组装助力破译迄今最大动物基因组—48Gb南极磷虾参考序列

摘要
该研究完成了迄今为止最大动物基因组参考序列——南极磷虾基因组组装,并揭示了南极磷虾适应极端环境和群体历史演化的分子基础。研究者利用PacBio、Hi-C结合短读长对南极磷虾进行测序,使用NextDenovo v2.30 组装了48.01Gb的基因组。研究发现,南极磷虾重复序列含量高达92.45%,这源于南极磷虾基因组重复序列的两次爆发式扩张。在该研究中,研究人员对极昼极夜环境的适应性进行了研究。结果发现,在磷虾基因组里鉴定得到的25个显著扩张的基因家族中,分别有6个基因家族与磷虾蜕壳及能量代谢相关。这表明,蜕壳和能量代谢相关基因的改变是南极磷虾对南大洋不稳定食物供应的适应。另外,研究团队还发现,虽然分布在不同的区域,但南极磷虾的遗传序列组成没有明显区别,这就意味着不同地域群体之间没有实质性差异,并且气候变化影响着南极磷虾种群的规模。武汉希望组为本研究提供基因组组装服务,武汉希望组首席生信技术官胡江为共同作者。

技术亮点
这项研究的主要技术亮点是组装有史以来最大的动物基因组测序。基因组中过度丰富的转座子重复序列加剧了这一技术挑战,这成为该研究的主要生物学发现之一。研究者仔细分析了导致巨大基因组大小的重复序列,提供了由重复元件活性引起的基因组大小扩张的一个最佳例子。组装后的基因组使得能够全面分析整个基因组中涉及光周期的基因。对南极高度变化的光照条件的生理反应是磷虾生物学的核心,研究者所组装的基因组资源对这种适应能力进行了极大的详细研究。

参考文献
Shao C, Sun S, Liu K, et al. The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights. Cell. 2023 Mar 16;186(6):1279-1294.e19. doi: 10.1016/j.cell.2023.02.005. Epub 2023 Mar 2. PMID: 36868220.

02 中华绒螯蟹“断臂再生”

摘要
中华绒螯蟹(Eriocheir sinensis),俗称大闸蟹,是我国高经济价值的水产甲壳动物,全国28个省市区养殖,产业规模大,文化底蕴深厚。由于中华绒螯蟹染色体数目多(2n=146),基因组重复序列高,组装困难,且不同水系群体表现出较为明显的环境适应性和生物学特征。同时,中华绒螯蟹断肢现象在生产上较为普遍,影响了其产业应用性和经济价值。本研究利用第三代测序技术,并结合BioNano光学图谱和Hi-C高通量染色体构象捕获技术,对长江水系中华绒螯蟹的全基因组测序和组装,获得染色体水平的精细基因组图谱。该研究还发现中华绒螯蟹断肢再生早期受表观遗传学的调控,其中SMYDA基因家族只存在于节肢动物,在中华绒螯蟹断肢早期下调表达,而在肢芽生长时期表达回复至未断肢时的水平。进一步分析发现,该基因家族还在中华绒螯蟹从大眼幼体到仔蟹的变态过程中整体差异表达,表明节肢动物特异的SMYDA基因家族在中华绒螯蟹涉及明显形态发生,如变态发育、再生的生物学过程中发挥重要的表观修饰作用。该研究为开展中华绒螯蟹的分子育种提供了重要的基因组资源和平台,为提升养殖生产与管理水平提供了有益指导。武汉希望组提供三代测序组装注释,Hi-C挂载和Bionano光学图谱服务。

参考文献
Wang J, Chen X, Hou X, et al. “Omics” data unveil early molecular response underlying limb regeneration in the Chinese mitten crab, Eriocheir sinensis. Sci Adv. 2022 Sep 16;8(37):eabl4642. doi: 10.1126/sciadv.abl4642. Epub 2022 Sep 16. PMID: 36112682; PMCID: PMC9481118.

03 重要商品蟹——三疣梭子蟹

摘要
三疣梭子蟹(Portunus trituberculatus)是中国重要的商业蟹种,广泛分布于亚太国家沿海水域。研究者结合MGI、Nanopore和Hi-C数据,组装了三疣梭子蟹的第一个染色体水平参考基因组。该基因组大小为1.00 Gb, Contig N50为4.12 Mb,BUSCO达到94.7%,重复序列为54.52%,共有16796个蛋白质编码基因被注释。研究者通过Hi-C数据成功将基因组挂载到50条染色体上,Scaffold N50长度为21.80 Mb。该染色体水平的基因组组装不仅可以促进三疣梭子蟹基本发育和进化的研究,还可以为三疣梭子蟹的繁殖提供重要的资源。武汉希望组提供Nanopore三代测序服务。

参考文献
Tang B, Zhang D, Li H, et al. Chromosome-level genome assembly reveals the unique genome evolution of the swimming crab (Portunus trituberculatus). Gigascience. 2020 Jan 1;9(1):giz161. doi: 10.1093/gigascience/giz161. PMID: 31904811; PMCID: PMC6944217.31904811; PMCID: PMC6944217.

04 红螯螯虾基因组

摘要
研究人员使用108X的PacBio CLR数据、58X的PE100 DNA二代测序数据组装了一个红螯螯虾染色体级基因组,大小为5.26 Gb,Contig N50为144.33 Kb。使用105X的Hi-C数据辅助挂载,将近90%的序列被锚定到100条染色体上,这是迄今报道的染色体数目最多的高质量甲壳动物基因组。该基因组含有78.69%的重复序列和20,460个蛋白编码基因,其中82.40%具有功能注释。这个染色体级基因组将成为其他复杂基因组的组装和甲壳动物进化研究的有价值的参考。

参考文献
Chen H, Zhang R, Liu F, et al. The chromosome-level genome of Cherax quadricarinatus. Sci Data. 2023 Apr 17;10(1):215. doi: 10.1038/s41597-023-02124-z. Erratum in: Sci Data. 2023 May 23;10(1):313. PMID: 37062798; PMCID: PMC10106460.

05 青虾全基因组图谱组装

摘要
日本沼虾,俗名青虾,是我国重要的经济虾类。雄性对虾比雌性对虾生长更快,体积更大,因此培养全雄性种群是实践中水育种繁育的重要目标,为此揭示日本沼虾的性别分化和生殖发育机制对实现遗传改良具有重要的支撑意义。该研究采用65.2X的Illumina数据、90X的PacBio数据和195X的Hi-C数据进行测序组装。通过survey分析,估计日本沼虾的基因组大小约为4.6 Gb。组装得到的日本沼虾染色体水平的基因组大小为4.5 Gb,Contig N50为231.2 Kb,基因组的完整度为92.6%。共构建了49条染色体,使用Hi-C测序数据辅助挂载至染色体水平,有94.7%的基因组数据被挂载到染色体上,scaffold N50长度达86.8 Mb。全基因组共预测到44,086个蛋白编码基因,其中39,317个基因被功能注释。此外,研究者还采集了生殖期和非生殖期的日本沼虾雄性个体样本,进行转录组测序和分析。

参考文献
Jin S, Bian C, Jiang S, et al. A chromosome-level genome assembly of the oriental river prawn, Macrobrachium nipponense. Gigascience. 2021 Jan 18;10(1):giaa160. doi: 10.1093/gigascience/giaa160. PMID: 33459341; PMCID: PMC7812440.

06 克氏原螯虾染色体水平参考基因组

摘要
克氏原螯虾(Procambarus clarkii)(俗称小龙虾)是一种重要的生态和经济甲壳类动物。研究者基于146.93X PacBio数据、112.95X Illumina测序数据和142.23X Hi-C进行denovo组装。研究者得到的染色体水平小龙虾基因组,基因组大小为2.75 Gb,Contig N50为216.75 kb。共构建了94条单倍型染色体,使用Hi-C数据进行辅助挂载,91.22%的基因组数据被挂载到染色体上,scaffold N50长度为17.01Mb。在克氏原螯虾基因组中鉴定出超过2.26 Gb的重复序列,占总基因组序列的82.42%。在这些重复序列中,转座因子(TEs)占多数(约79.61%)。

参考文献
Xu Z, Gao T, Xu Y, et al. A chromosome-level reference genome of red swamp crayfish Procambarus clarkii provides insights into the gene families regarding growth or development in crustaceans. Genomics. 2021 Sep;113(5):3274-3284. doi: 10.1016/j.ygeno.2021.07.017. Epub 2021 Jul 22. PMID: 34303807.

虾蟹类基因组的复杂性无疑给科学家们带来了许多挑战,但是希望组正努力突破这些难题,致力于为大家提供高质量、可靠的虾蟹类基因组组装解决方案,为科学研究和海洋生物保护做出贡献。

最新虾蟹类物种组装结果展示

超大基因组研究集锦——动物篇

“Why are some genomes so big and others very small?”这是Science杂志发布的125个前沿科学问题之一。物种的基因组大小不尽相同,造成这一现象的原因十分复杂。研究表明,基因组大小的差异不仅与生物体的复杂性有关,还与其生活史特征、环境适应性、基因家族的扩增和基因重组等因素密切相关,如此复杂重要的问题吸引了无数研究者深入探索这一领域。

相较于易于研究的小型基因组生物,具有超大型基因组的生物种类繁多、保守的遗传变异丰富,这为比较基因组学研究提供了极好的材料。然而,由于超大基因组中高重复序列的存在以及广阔的基因间区,传统二代测序技术难以为这些生物构建Gap-free级别的的参考基因组。

近年,单分子实时测序等三代长读长技术的出现为超大基因组组装提供了转机。三代测序以其长读长的优势(ONT Ultra-long测序技术N50可达100-150Kb),破解了重复区组装中的难题,使得研究人员能够通过三代数据进行染色体水平的整体组装。此外,三代测序超长读长的reads能够贯穿基因组中的基因间区。这使得非编码RNA、调控元件以及结构变异都能被准确检测。因此,通过单分子实时测序技术,研究人员能够更好地探究超大基因组的复杂性和结构,揭示其中的重复序列、基因间区和功能元件。这为研究人员深入理解基因组大小差异的形成机制、进化过程以及生物体的适应性提供了重要的工具和方法。

希望组着眼于三代测序技术应用于超大基因组研究中所带来的革新与价值,为有志于研究超大基因组物种的研究人员提供专业的测序、组装、分析服务。希望组以其优质的测序服务质量和遥遥领先的基因组组装技术受到了各位专家老师的认可,非常荣幸能够参与多个超大基因组的研究之中,为生命科学领域做出了独属于希望组的贡献。

下面是希望组合作的几篇超大基因组动物篇的优秀文章:

01. The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights
目标物种:南极磷虾(Antarctic krill)
发表时间:2023.05
发表期刊:Cell(IF=64.5)
合作单位:中国水产科学研究院黄海水产研究所、德国阿尔弗雷德·魏格纳研究所、澳大利亚联邦科学与工业研究组织
测序策略:PacBio HiFi、Illumina、Hi-C
基因组大小:48.01 Gb
基因组Contig N50:178.99Kb

该研究完成了迄今为止最大动物基因组参考序列——南极磷虾基因组组装,并揭示了南极磷虾适应极端环境和群体历史演化的分子基础。研究者利用PacBio、Hi-C结合短读长对南极磷虾进行测序,使用NextDenovo v2.30 组装了48.01Gb的基因组。研究发现,南极磷虾重复序列含量高达92.45%,这源于南极磷虾基因组重复序列的两次爆发式扩张。在该研究中,研究人员对其抗饿和对极昼极夜环境的适应性进行了研究。结果发现,在磷虾基因组里鉴定得到的25个显著扩张的基因家族中,分别有6个基因家族与磷虾蜕壳及能量代谢相关。这表明,蜕壳和能量代谢相关基因的改变是南极磷虾对南大洋不稳定食物供应的适应。另外,研究团队还发现,虽然分布在不同的区域,但南极磷虾的遗传序列组成没有明显区别,这就意味着不同地域群体之间没有实质性差异,并且气候变化影响着南极磷虾种群的规模。武汉希望组为本研究提供基因组组装服务,武汉希望组首席生信技术官胡江为共同作者。

论文链接:https://doi.org/10.1016/j.cell.2023.02.005

02. African lungfish genome sheds light on the vertebrate water-to-land transition
目标物种:非洲肺鱼(African lungfish)
发表时间:2021.03
发表期刊:Cell(IF=64.5)
合作单位:西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室
测序策略:Nanopore Ultra-long、BioNano、Hi-C
基因组大小:40.05 Gb
基因组Contig N50:1.60 Mb

研究团队利用Nanopore Ultra-long、BioNano和Hi-C测序,采用NextDenovo + wtdbg2 + NextPolish策略组装,最终获得约40.05 Gb的基因组,Contig N50达到1.60 Mb;结合BioNano和Hi-C数据对基因组构建Scaffold和辅助染色体挂载,最终得到17条染色体,Scaffold N50 2.81 Gb,染色体挂载率达到99%以上。BUSCO评估显示该基因组包含了95%以上的脊椎动物完整基因。非洲肺鱼基因组如此巨大主要是由TEs的扩张引起的,非洲肺鱼基因组的61.7%(24.7 Gb)被注释为重复序列。研究团队通过分析Kimura distance估算了TE历史扩张活动,结果表明TEs,特别是反转录转座子,在过去7000万年中一直活跃。基于基因组组装和注释结果,通过对8种脊椎动物的5149个单拷贝基因进行系统发育重建,证实非洲肺鱼是与四足动物最近的姐妹谱系,非洲肺鱼和四足动物的分化时间可追溯到泥盆纪伊始,估算为419 MA。希望组为研究提供基因组测序和NextDenovo、NextPolish软件及组装技术支持,希望组首席生信技术官胡江参与本研究。

论文链接:https://doi.org/10.1016/j.cell.2021.01.047

03. Giant lungfish genome elucidates the conquest of land by vertebrates
目标物种:澳洲肺鱼(Giant lungfish)
发表时间:2021.01
发表期刊:Nature (IF=64.8)
合作单位:德国康斯坦茨大学生物系、德国维尔茨堡大学生物中心
测序策略:Nanopore 1D 、Ultra-long、Hi-C
基因组大小:37 Gb
基因组Contig N50:1.86Mb

研究者利用Nanopore 1D 和Ultra-long技术对澳洲肺鱼进行了全基因组测序组装,最终组装出37Gb,Contig N50达1.86Mb的澳洲肺鱼基因组。之后利用271Gb Hi-C 数据,对基因组进行染色体级别组装,最终得到Scaffold N50 1.75Gb,组装出了17条大染色体和10条小染色体。BUSCO评估组装的基因组包含67%的脊椎动物完整基因。肺鱼是属于肉鳍鱼类中的一类,肉鳍鱼的叶状鳍在进化中最终形成了适于陆地爬行的足趾。通过比较基因组分析,研究者对保守的四足动物肢体增强元件的分析表明,有31种起源于肉鳍类。与sall1相关的hs72增强子驱动掌部区域基因表达。sall1在肺鱼胚胎中高表达,并呈现类似于四足动物的表达模式,但在斑马鱼的鳍发育过程中不表达。这表明该基因功能和肺鱼的肉鳍类叶状鳍发育相关。hoxc基因在双鳍和四肢中的表达仅在与甲床相关的哺乳动物中报道过,而RNA-seq分析发现在肺鱼幼体鳍部hoxc基因有表达。研究者还发现hoxc13在蝾螈肢中表达,在辐鳍鱼的胸鳍中不表达,转录本定位显示hoxc13也在肺鱼胚胎远端鳍表达。这表明在四足动物中,该基因结构域可能调控肢体元素生成,如指甲、蹄和爪。hoxc与sall1一起,证明了早期肉鳍类起源的四肢样基因表达促进了鳍肢过渡。希望组为本研究提供Nanopore Ultra-long测序服务。

论文链接:https://doi.org/10.1038/s41586-021-03198-8

希望组参与全球首套多组学标准物质“中华家系1号”的最新研究成果!

生物医学研究已经步入大数据和大科学时代。一方面,多组学数据分析已成为生命科学前沿领域最重要的研究工具之一,多维度数据挖掘与整合分析,可以帮助科学家实现从基因组到表型组、贯穿微观和宏观尺度的系统分析,极大提高了人类解读复杂生命系统的能力,对更加深刻、精准地破解肿瘤、遗传病等各类疾病的发病原因与微观机制,寻找更有效的干预手段奠定了重要基础。另一方面,要破解人类健康、生命起源等重大科学问题,需要进行全球合作,开展分布式的国际大科学计划。然而,没有高质量的数据生成、高可靠的数据分析与整合以及全球科学界一致认可的统一标准,多组学数据分析研究就失去了稳固的“地基”,全球范围的生命科学国际大科学计划也将无从谈起。如何解决类似的难题?研发国际科学界广泛认可的多组学标准物质至关重要。

北京时间2023年9月7日晚,国际学术期刊《自然·生物技术》(Nature Biotechnology)在线发表了由复旦大学/上海国际人类表型组研究院石乐明、郑媛婷团队联合中国计量科学研究院方向、董莲华团队,国家卫健委临床检验中心李金明、张瑞团队共同研发的全球首套多组学标准物质“中华家系1号”的最新研究成果。同期刊发的2篇科研论文分别聚焦:“使用基于中华家系1号标准物质的相对定量进行多组学数据整合(Multi-omics data integration using ratio-based quantitative profiling with Quartet reference materials)”和“中华家系1号 RNA标准物质与基于比值的分析方法提高了转录组数据的质量(Quartet RNA reference materials and ratio-based profiling for assessing and improving the quality of transcriptomic data)”。这也标志着中国科学界自主研制、获批为“国家一级标准物质”的“中华家系1号(Quartet)”多组学标准物质的研发和效用得到了国际同行的认可,开创了生物医学“度量衡”新体系,将提升生命科学创新的源头质量,为全球推进人类表型组计划奠定坚实的标准基础。

标准物质是高质量生物医学创新研究的“标尺”与“砝码”

在生命科学研究中,针对相同研究样本在不同平台、不同实验室、不同批次所产生的组学数据往往存在“批次效应”,导致不可重复数据和错误结论,严重影响科研结果的可信度与质量。而现实生活中,类似“批次效应”的危害更大:在临床检验中,同一个指标在不同的医院检验结果会出现差别,这种数据差别一旦过大甚至会导致错误的临床治疗决策,耽误疾病的预防和诊治。

要解决批次效应这一影响生命科学与生物医学多组学研究源头质量的“拦路虎”,就必须研发相应的标准物质。标准物质是指具有足够均匀性和稳定特性的物质,可作为生物分析研究的“标尺”与“砝码”。在生物医学研究中,标准物质可用于评估不同实验室、不同平台、不同批次的数据质量,有助于排除实验条件和技术差异带来的误差,确保数据的一致性和可靠性。而多组学研究的普及,亟需科学界研发多组学标准物质。

统一的标准是生命科学领域国际大科学计划全面推进的关键基础

由于测量和研究的对象涉及到人类自身,因此生命科学领域的大科学计划与其他学科领域存在显著差别。分布式,即在不同大洲和国家各自实施,而不是集中式地开展研究是生命科学领域国际大科学计划的主要组织模式。这就对相关大科学计划在科研和实施过程中所参照的标准和质量控制提出了极高的要求。基于公认的基准——标准物质,统一相关研究的测量标准和数据标准,使得全球不同实验室针对同一类研究的数据可以参比,是生命科学领域能够实质性开展大科学计划的重要前提和基础。

作为人类基因组计划之后,生命科学领域的下一个战略制高点和重大科学计划,人类表型组计划在规划之初就把研发标准物质和统一全球科研标准作为重中之重。在国家和上海市支持下,中国相关科研团队在人类表型组的精密测量、标准物质研发、质量控制、数据处理等各个方面在全球范围内率先开发和制定相关SOPs、标准和质控体系,并通过国际和中国两大协作组网络,推动协同全球不同地区的实验室在同一标准下开展表型测量与研究。

相关团队已经完成了对2万余种表型开展测量的质控标准研发与SOP编制工作。2021年10月,由石乐明教授牵头起草的国际标准ISO/TS 22690:2021 《基因组信息学 高通量基因表达数据可靠性评估》(Genomics informatics—Reliability assessment criteria for high throughput gene—expression data)发布。该标准规定了高通量基因表达数据的可靠性评估标准,适用于基因芯片、新一代测序的基因表达数据的准确性、复现性、可比性的评估应用。同年10月,在上海市市场监督管理局的指导下,“上海市标准化创新中心(国际人类表型组)”获批成立,成为上海市首批6家新型标准化技术组织单位之一,正在全面引领国内外人类表型组标准化研究与创新。

此次“中华家系1号”多组学标准物质最新研究成果的国际发表,是中国科学家引领人类表型组计划实质性推进所作出的又一里程碑式的贡献。可以说,在人类表型组科研质量控制与标准体系构建中取得的一系列先发优势,进一步奠定了中国科学界在人类表型组计划中的引领地位。希望组为本研究提供三代测序和分析服务。

“二十年磨一剑”,打造全球首个多组学标准物质

石乐明教授团队二十年来,始终致力于解决多组学研究质量控制的核心难点,他于2004年创立国际MAQC组学大数据质量控制联盟,持续聚焦基因芯片、转录组测序、基因组测序的数据产生、分析的可靠性等关键问题,分别于2006年、2010年、2014年和2021年在《自然·生物技术上》以4个专辑发表,促进了有关国际标准的制定和多组学数据分析的科研质量跃升。
2016年以来,复旦大学、中国计量科学研究院、国家卫生健康委临床检验中心等机构科学家,共同完成了全球首套多组学标准物质“中华家系1号”研制,创建了“比例定量”的多组学测量新模式,显著提高组学测量在不同实验室、不同平台的数据可比性,为发起人类表型组国际大科学计划奠定质控基础。

在“中华家系1号”研发成功之前,全球尚无任何一种生物学标准物质能够具备多组学研究需要的特性。作为全球首套多组学标准物质,“中华家系1号”涵盖了同一来源样本的多种分子水平的特性,如DNA、RNA、蛋白质、代谢物等。这些标准物质的引入为生物医学研究和临床应用提供了可信赖的计量标准,为高质量、高可靠性的多组学研究提供了坚实基准。

“中华家系1号”多组学标准物质,源自复旦大学领导建设的泰州大型人群队列中的一个同卵双胞胎家庭的永生化B淋巴母细胞系。“中华家系1号”是国际上首套包括DNA、RNA、蛋白质、代谢物在内的多组学标准物质,旨在确保分子表型组数据跨批次、跨实验室、跨平台、跨组学的可比性和准确性。其中,DNA、RNA标准物质已经获得了国家市场监督管理总局颁发的8项国家一级标准物质证书(GBW 099000-GBW 099007),是我国首次获批的组学标准物质,在生命科学领域开创了一种全新的标准物质研制模式。

图1:“中华家系1号”(Quartet)多组学标准物质

图2:国家一级标准物质证书(GBW 099000-GBW 099007)

在“中华家系1号”的研制过程中,研究团队通过在国内32个研究中心运用24种主流技术平台对标准物质进行了深入全面的表征,获得了包括基因组、表观基因组、转录组、蛋白组和代谢组在内的多组学大数据。在此基础上,研究团队提出了一系列质量控制指标,构建了高置信的标准数据集,为多组学技术、实验室性能、分析算法的评估提供了高质量的“基准真值”。

据悉,基于“中华家系1号”DNA和RNA标准物质,国家卫生健康委临床检验中心已于2021年和2022年分别开展了全外显子测序和转录组测序的全国科研与临床实验室的室间质评研究,参加单位超过100 家,并将逐步开展表观基因组、蛋白质组、代谢组等多组学室间质评,以促进我国科研和临床实验室多组学检测数据质量的不断提升。

据石乐明教授、郑媛婷副教授介绍,在严格遵守我国人类遗传资源管理条例并获得国家批准的基础上,上海国际人类表型组研究院和复旦大学大力推动“中华家系1号”多组学标准物质走向全球,已经在国内外100多家单位进行了广泛应用,扩大了中国标准物质的国际影响力。例如,欧洲转化医学研究先进基础设施(European Advanced Translational Research Infrastructure in Medicine (EATRIS) Plus)已经采用“中华家系1号”多组学标准物质对EATRIS-Plus联盟的多家单位在多组学数据产生和数据分析方面的性能进行客观评估。欧方正与上海国际人类表型组研究院等中国代表性机构共同探索、积极推动构建多组学生物数据质量的国际标准。

基于多组学标准物质的质量控制将保证生物医学创新源头的高质量

未来的生物医学研究中,多组学分析是一个贯穿基因型到表型的整合过程,从数据生成和数据整合程序的每个环节都会影响最终结果。因此,必须对每种组学数据从样品到结果的完整流程进行全面能力验证和质量控制。

本次发表的最新成果证明:“中华家系1号”不仅具有天然的家系关系,样本之间微小的内在生物学差异可为数据整合提供高灵敏度的可靠性评估。此外,这些基于同一来源细胞系制备的多组学标准物质包含了从DNA到RNA再到蛋白质的信息流,遵循中心法则,可用于验证整合结果是否反映跨组学分子间的逻辑关系。

在传统的基于组学标准物质的质量控制中,通常将标准数据集视为“金标准”。然而,这些数据集只能评估高置信基因组区域中的变异和稳定检出的高表达分子特征,并且受到构建时采用的技术平台和分析方法的限制,不适用于对新技术的质量评估。本研究提出了不依赖标准数据集而仅基于家系个体间生物学关系的质量评估参数:对于定量组学数据,信噪比(Signal-to-Noise Ratio,SNR)可用于评估测量系统能否识别不同样本组之间的固有生物学差异,这是转录组等定量组学分析的基本目标;对于定性组学数据,同卵双胞胎之间胚系变异的一致率和家系个体间孟德尔符合率,可以实现在全基因组范围内对变异检测准确性的客观、无偏好的质量评估。通过与标准数据集的联合使用,多组学数据的质量控制体系更加完善,为各类新兴技术的质量评估提供了可能。希望组为本研究提供三代测序和分析服务。

图3:信噪比(SNR)

本次的研究成果最终提出了多组学分析的质量控制指标和整合的最佳实践建议:

每种组学数据的产生应包含标准物质,使用标准数据集以及“中华家系1号”特有的质量评估指标(信噪比、孟德尔符合率)进行能力验证;

定量组学分析需从“绝对”定量向“相对”定量转变,各批次使用固定的标准物质可有效控制批次效应;

多组学整合结果的质量可以结合家系信息、中心法则进行评估,如样本分类、跨组学特征关系识别的准确性等。

多组学分析在生物医学研究中具有广泛的应用前景,为了确保结果的准确、可靠、可重复,研究人员需要遵循质量控制和最佳实践建议。这一研究为多组学领域的规范化、标准化发展奠定了坚实基础,指明了提高多组学分析质量和可信度的重要途径,对促进多组学研究的高水平、高质量发展具有重要意义。

图4:Quartet多组学项目概览

RNA标准物质有效提高临床应用中检测差异表达的能力

RNA测序(RNA-seq)是转录组差异分析的常用技术,广泛应用于生物医学研究中,以发现临床诊断、预后和治疗的生物标志物。随着基于转录组的生物标志物发现成果不断涌现,RNA-seq技术将逐步成为临床常规检测项目,例如通过检测差异基因表达辅助临床治疗决策。这对RNA-seq的检测结果提出更高的可靠性要求,以提高疾病亚型间较小的差异表达的能力,提高临床差异表达的检测准确性。

在本次发表的论文“中华家系1号”RNA标准物质与基于比值的分析方法提高了转录组数据的质量”中,研究团队指出,RNA标准物质是评估RNA-seq数据可靠性的宝贵工具,可在实验室批次内有效性和跨批次可重复性两方面对其可靠性进行客观评估。批次内有效性是在相同批次或实验室内的分析结果达到技术所能够达到的最佳水平,而跨批次可重复性是不同平台、实验室或批次间分析结果可重复,并且不受批次效应影响,跨批次数据整合后的结果与单批次结果可重复。“中华家系1号”RNA标准物质,具有微小的样本间差异、高度稳定性、长期可用性和易于生产性等特性,可用于临床应用场景下的能力测试和方法验证。

研究团队整合了不同文库构建策略、不同实验室、时间生成的21个批次RNA-seq数据集,在全转录组水平构建了基于比值的标准数据集,提供了跨平台和跨实验室数据评估的“基准”。此外,研究团队发现“中华家系1号”样本之间微小的内在生物学差异可为跨批次的RNA-seq数据整合提供高灵敏度的可靠性评估。该研究表明“中华家系1号”RNA标准物质和标准数据集,可作为评估和提高临床和生物学领域中转录组数据质量的独特资源。

图5:Quartet RNA标准物质项目:以MQAC Sample A/B样本为参照,证明了”中华家系1号”样本间具有微小的固有生物学差异

相对定量可有效提高跨批次、跨实验室、跨平台数据的可重复性

在此次发表的2篇最新论文中,中国团队取得一个重要理论性突破,那就是发现和揭示了绝对特征定量是多组学测量和数据整合不可重复性的根源,证实了基于标准物质的比值相对定量可以有效提升数据整合的质量。这对推动从绝对定量向相对定量的范式转变,实现大规模多组学数据的有效整合利用,具有重要的里程碑意义。

不同批次和平台的绝对定量多组学数据存在较大技术变异,主要受批次效应影响,无法有效反映样本间的真实生物学差异,导致数据整合效果较差。为解决此问题,研究提出一种基于比值的相对定量策略:在每个批次内使用相同标准物质作为参照,将样本的特征表达水平转换为相对于标准物质在该特征上表达的比值。

这种相对定量方法可以显著减少技术变异,提高不同批次数据之间的可比性。基于这种相对定量数据,批次效应大幅减弱,样本分类和特征关联的识别准确性显著提高,能更好反映样本间的生物学差异。特别地,主流算法难以有效校正不平衡设计下的批次效应,而相对定量方法可以有效解决。

Multi-omics data integration using ratio-based quantitative profiling with Quartet reference materials

原文链接:https://www.nature.com/articles/s41587-023-01934-1

复旦大学石乐明教授、中国计量科学研究院方向研究员、国家卫生健康委临床检验中心李金明研究员、复旦大学丁琛教授、郑媛婷副教授为本论文共同通讯作者。复旦大学郑媛婷副教授、刘雅晴、杨竞成博士、中国计量科学研究院董莲华研究员、国家卫生健康委临床检验中心张瑞研究员,以及复旦大学田莎博士为本论文共同第一作者。

Quartet RNA reference materials and ratio-based profiling for assessing and improving the quality of transcriptomic data

原文链接:https://www.nature.com/articles/s41587-023-01867-9

复旦大学郑媛婷副教授、石乐明教授、国家卫生健康委临床检验中心张瑞研究员、复旦大学钱峰副研究员和美国FDA Joshua Xu博士为本论文共同通讯作者,复旦大学郁颖青年副研究员、侯湾湾博士、刘雅晴、王海燕博士,以及中国计量科学研究院董莲华研究员为本论文共同第一作者。

相关研究得到科技部战略性国际科技创新合作重点专项“人类表型组学数据的质量控制与标准化研究”和上海市市级科技重大专项“国际人类表型组计划”资助。研究所涉及的样本和国际合作均已获得国家人类遗传资源管理部门批准,相关数据开放获取已在国家人类遗传资源管理部门备案。

Nature Genetics! Nature! Science! Cell ! 希望组6月实现科服大满贯

署名文章 | Nature Genetics!希望组携手赖锦盛教授团队再创新里程—大型真核生物玉米T2T无间隙基因组组装

2023年6月15日,中国农业大学国家玉米改良中心、玉米生物育种全国重点实验室赖锦盛教授团队以题为“A complete telomere-to-telomere assembly of the maize genome”在国际知名期刊Nature Genetics《自然·遗传学》上在线发表了玉米全基因组所有染色体端粒到端粒完整无间隙组装结果,在复杂动植物基因组中第一个实现真正意义上的全基因组完整无间隙组装。该研究是复杂基因组组装领域工程技术研究的重大突破,攻克了复杂动植物基因组组装的最后一道难题,是基因组组装和基因组学研究的一个重要里程碑。

赖锦盛教授为该论文通讯作者,中国农业大学陈建副教授、博士研究生王子健为该论文共同第一作者。中国农业大学金危危教授、宋伟彬教授、赵海铭副教授、辛蓓蓓副教授、黄伟老师、史俊鹏博士后(现已出站),爱荷华州立大学Matthew B. Hufford教授、内布拉斯加大学林肯分校James C. Schnable教授、中国科学院遗传与发育研究所韩方普研究员和刘阳博士,以及北京希望组生物科技有限公司为该研究提供了重要帮助,希望组员工(胡江、王超)有幸成为了共同作者。该研究得到了国家重点研发计划、国家自然科学基金、海南崖州湾种子实验室、崖州湾科技城管理局、河南省科技厅以及河南现代种业有限公司的资助。希望组为本研究提供了HiFi、ONT超长测序、NextDenovo(v2.2-beta.0)初步组装和NextPolish(v1.1.0)基因组矫正服务。

玉米是世界范围内的重要作物,其基因组组装对玉米基础研究和分子育种均有重要意义。同时,玉米也是经典的复杂基因组研究的模式植物。自2009年玉米基因组草图公布以来,已有近50个不同玉米自交系基因组被组装。然而,由于玉米基因组大(与人类基因组相近),且拥有超过80%的重复序列,目前已报道的玉米基因组都存在数百或数千个“空白”区域未被解析。

Mo17自交系是经典的玉米杂种优势群Lancaster群的代表。Mo17自交系及其衍生材料在我国玉米生产中被广泛应用。赖锦盛教授团队以Mo17自交系为材料,综合利用了约237×的ONT Ultra-long和约69.4×的PacBio HiFi测序数据,完成了最新的玉米基因组组装,其大小为2,178.6 Mb,每条染色体的端粒到端粒均由一条完整连续的序列组成,碱基精确度超过99.99%。最新的组装不仅在过去高质量组装的基础上增加了1029个基因,还解锁了玉米基因组中结构最为复杂、从未被组装的基因组空白区。这是首个完整的、无间隙的玉米基因组序列,也是首个所有染色体都完整组装的复杂动植物基因组。

图1. Mo17基因组完整组装

最后,作为专门的安排,赖锦盛教授在致谢部分特别标注,用该研究成果的发表来纪念他的博士后研究阶段的导师Joachim Messing (1946—2019)。 Messing教授是国际上分子生物学先驱和“鸟枪法”测序技术的倡导发明者,是美国科学院和德国科学院院士,于2013年获得沃尔夫(Wolf)奖。
本文转载自:国家玉米改良中心

项目文章 | 希望组再次参与Nature论文工作—中国人群泛基因组

由复旦大学、西安交大、中国医学科学院等26家单位联合发布的中国人群泛基因组联盟(CPC)一期研究进展,初步构建了首个中国人群专属的泛基因组参考图谱,为破译中国人群基因密码奠定基础,为“健康中国”“精准医学”战略提供支撑。

6月14日,相关成果以《基于36个族群的中国人泛基因组参考图谱》(“A Pangenome Reference of 36 Chinese populations”)为题发表于《自然》(Nature)主刊。这也是我国学者领导的人群基因组研究首次发表在《自然》主刊。复旦大学徐书华教授、西安交通大学叶凯教授、中国医学科学院褚嘉祐教授和复旦大学陆艳副教授为该文的共同通讯作者,西安交通大学杨晓飞副教授、复旦大学博士后高扬、中国科学院上海营养与健康研究所博士生陈豪、谭昕江、中国医学科学院杨昭庆研究员、复旦大学邓恋青年研究员为论文的并列第一作者。研究工作得到了国家自然科学基金、科技部重点研发计划等项目的资助。希望组为本研究提供了部分样本的HiFi、ONT、Hi-C、Bionano和Iso-seq测序服务。

“基因组结构变异大概是生物进化中从微观到宏观演变的关键遗传基础,也是最有可能连接渐变到跃变这个‘鸿沟’的进化密码。”复旦大学校长、中科院院士金力点评,“我相信通过对基因组结构变异的高精度解析,不但能大幅提升‘基因型-表型’关联分析的功效,而且有可能最终帮助我们理解生命演化中重要性状和功能产生的遗传基础和分子机制。

独立自主完成首个中国人群泛基因组参考图谱

作为人口大国,我国巨大的人口基数和丰富的人群多样性是发展人类基因组学和精准医学的重要优势:西南部高原地区分布着众多藏缅、南亚语系族群,东西方人群在西北部丝绸之路沿线交融,苗瑶语族人群在云贵地区世代繁衍,蒙古、突厥人群曾游牧于北部风沙地,通古斯语族抵抗严寒一路向北,台-卡岱(侗台)族群的先辈亦曾穿梭于南方丛林河谷。悠久的人群历史、丰富的地理气候环境,塑造了中华民族独特的遗传多样性,构成了人类泛基因组研究不可或缺的东方画卷。构建能够代表中华民族遗传多样性的中国人群泛基因组图谱势在必行且迫在眉睫,这将极大提高捕获罕见或低频遗传变异的灵敏度和准确性,支撑服务中国人遗传多样性研究、复杂疾病分子机制研究和精准医学研究与应用。

中国人群泛基因组联盟”一期36个族群画像集

中科院院士、分子微生物学家赵国屏认为:“这一成果表明我国科学家在人类基因组学领域的研究水平得到了显著提升。我相信这项工作对我国的人类基因组学和医学中的复杂疾病遗传基础研究等领域会起到重要的推动作用。

助力遗传学、医学研究,服务人民生命健康

在第一期研究计划中,CPC对代表中国36个族群的58个样本采用最新的第三代高保真基因组测序技术进行了深度测序,结合最新的单倍型基因组组装方法,获取了116个高质量单倍型基因组,并以图基因组的方式构建了高质量中国人群参考泛基因组。该泛基因组图谱总共包含约3.01 Gb个碱基对的序列信息,在现有人类参考基因组的基础上新增了约1.9亿个碱基对的新序列,包含约590万个小变异(单核苷酸多态性变异和小规模插入/缺失变异)和约3.4万个结构变异(Structural variation, SV),涉及至少1367个蛋白编码基因复制事件等。其中,约500万个碱基对新序列存在于95%以上的单倍型中,被视为中国人群基因组核心序列,可能与中国人群特有的较为稳定的生物学功能或表型特征相关。

CPC一期核心样本地理分布及语系、族群、遗传聚类关系

同时,CPC新发现的遗传变异影响了具有潜在功能和经受过适应性进化的基因,这些基因可能与亚洲人群特有的疾病易感性及表型多样性有关,这也证实了将人群专属高质量泛基因组用于基因组学和医学研究的潜力和必要性。此外,研究人员在CPC参考图谱中发现了相当大比例的古人来源基因序列——平均每个族群和每个样本中分别有约15Mb和约9.5Mb的古人来源新序列——这可能是前期开展大量研究却未在现代人基因组中发现的古人基因渗入序列,或将为东亚现代人基因组中的古人基因渗入研究乃至整个古DNA领域提供新的信息资料和线索。

未来,中国人群参考泛基因组不仅有助于中华民族共同体的遗传学研究,还将改变过去依赖主体基于欧洲白人的参考基因组而导致东亚特有罕见变异检出精确度难以提升的困境,应用于我国重大疾病的遗传机制解析,从而提高我国生物医学数据分析的质量和效率,服务人民生命健康。

中国人群泛基因组图谱已公开在线发布:
https://pog.fudan.edu.cn/cpc/#/;https://github.com/Shuhua-Group/Chinese-Pangenome-Consortium-Phase-I
该项研究所涉及的样本信息和数据的公开发表已获得国家人类遗传资源管理部门批准。该项研究得到了国家自然科学基金重点项目、基础科学中心、国家重点研发计划等项目的资助。

论文链接:https://www.nature.com/articles/s41586-023-06173-7
原文转载自:复旦大学

署名文章|Science! 中国科学院昆明动物研究所在灵长类进化遗传领域取得重大突破

人类长期关注灵长类动物的起源和演化。该方向研究不仅有助于回答人类起源问题,也有助于我们更多地了解人类独特身体结构特征的演变历史。非人灵长类动物在生物学、演化学、药理学等领域中扮演着重要角色,但目前仅有不到10%的非人灵长类动物的参考基因组被测序。

浙江大学生命演化研究中心张国捷教授团队联合昆明动物研究所吴东东教授团队、西北大学齐晓光教授团队和其他国内外合作者在Science杂志在线发表题为“Phylogenomic analyses provide insights into primate evolution”(基因组学分析提供了对灵长类演化的洞见)的研究论文。该论文回答了与灵长类演化相关的一系列问题。

灵长类动物演化或受物种大灭绝事件影响

据介绍,此次研究对象覆盖了50个灵长类动物物种,跨越了38个属和14个科,其中包括了之前研究中较少涉及的新世界猴和原猴;研究中有27个新的高质量基因组数据,这些新数据可以提供更多、更准确的遗传信息。全面的数据则有利于更深入地了解灵长类动物的演化历程。专家表示,这个时间距离6550万年前那次造成非鸟恐龙灭绝的白垩纪末期大灭绝事件非常近,大致临近白垩纪与古近纪交界时间。这意味着灵长类动物的演化可能受到了物种大灭绝事件的影响。

此外,研究人员通过重建灵长类的祖先核型演化过程,观察到在染色体水平上核型演化模式总体上是保守的。这表示在不同谱系之间,染色体大多数都保持了类似的结构和数量。

最新研究采用了更多染色体级别的原猴物种进行研究,弥补了之前由于数据不足而导致偏差的问题。这项研究发现,人的8号染色体对应到原猴的两条染色体上。因此,研究人员推测类人猿下目祖先以及所有灵长类祖先中的两条染色体在狭鼻类出现后融合成一条染色体,最终演变成人类8号染色体。这项研究校正了前人对人类8号染色体在灵长类物种中的起源历程的推断。

人类第8号染色体在灵长类起源过程中不同假说的示意图。张国捷课题组供图

灵长类动物大脑经历了快速演化

灵长类动物在演化过程中的大脑体积变化非常引人注目。最初的原猴亚目和眼镜猴,它们的脑容量非常有限,但随着时间的推移,新世界猴及旧世界猴出现后,它们的脑容量不断增大,最终在大猿类和人类的演化过程中,相对脑容量进一步增大。相对脑容量的增大与智力程度密切有关,同时也反映了物种演化适应环境的能力。

研究人员发现了一些基因在灵长类的演化历程中受到了强烈的正选择(即倾向于富集更多氨基酸变化)。这包括一些前人的实验研究已经发现的与大脑发育有关的关键基因,这些基因的突变会导致小鼠的大脑功能受损。此外,研究人员还发现了一些非编码区域在四个关键的灵长类演化节点(类人猿下目的祖先、狭鼻类祖先、大猿祖先和人类)中发生了加速演化。这些区域落在大脑发育相关基因的调控区域,这些结果表明了灵长类动物在漫长的演化过程中通过调节大脑相关基因的表达不断地优化大脑构造。

研究人员认为,这些发现表明在灵长类动物大脑演化成更发达形态的过程中,有很多基因和调控区域参与,这丰富了我们对灵长类大脑演化分子机制的认识。

灵长类物种脑容量演化历程及此过程中基因组上的变化。张国捷课题组和吴东东课题组合作供图

猿类尾巴丢失或与基因调控序列突变有关

尾巴是很多动物的标志性特征之一,尤其是对于一些动作灵敏的灵长类物种,长短不一的尾巴能够帮助它们稳定身体、转向和控制速度。“然而,猿类和人都失去了尾巴,这成为它们区别于其他灵长类的重要特征。研究表明,这一现象可能与一些特定的基因调控序列的突变有关。”周龙说。

在人猿共同祖先中,研究人员检测到多个基因的非编码调控区域积累了大量变异,其中包括KIAA1217。人的KIAA1217基因发生突变可能会导致脊柱和尾椎畸形,影响脊柱的正常发育;而在小鼠中,这个基因的突变则会导致尾椎数量的减少。研究人员发现,这个调控区域落在基因的增强子区域,并且与KIAA1217基因落在同一个拓扑结构关联域中,证明这个区域和基因有很强的交互作用,可能调控了KIAA1217基因的表达。

不同的灵长类有不同的饮食习惯和消化系统,有些灵长类如叶食性的疣猴喜欢吃树叶。为了适应这种饮食,它们演化出独特的前肠系统。此次研究还发现了一些关键的消化基因在疣猴的祖先受到正选择而积累了特殊的氨基酸变异,来适应这种特殊饮食的状态。疣猴演化出能够消化脂肪酸的能力,配合它们独特的前肠和肠道微生物使它们能够应付食叶性饮食。

KIAA1217基因的调控区域在猿类中的快速演化可能导致其丢失尾巴。张国捷课题组和吴东东课题组合作供图

项目文章 | Cell!李家堂团队揭示蛇类的起源与演化机制

北京时间2023年6月19日晚,中国科学院成都生物研究所李家堂团队在《细胞》杂志上在线发表论文“Large-scale snake genome analyses provide insights into vertebrate development”。该论文基于大规模多组学技术与基因编辑等研究手段,全面揭示了蛇类起源及特有表型演化的遗传机制。

中国科学院成都生物研究所博士生彭长军、昆明动物研究所吴东东研究员和成都生物研究所助理研究员任金龙为该论文共同第一作者,成都生物研究所李家堂研究员为该论文的独立通讯作者。希望组为本研究提供了三代测序、NextDenovo(V 1.0)组装、NextPolish (V1.01)矫正和注释服务。

全球蛇类约4000种,广泛分布于除南极洲外的各大洲陆地和海洋,在进化历史上处于脊椎动物演化的关键节点,是脊椎动物的重要类群。蛇类演化出了四肢缺失、身体延长、左右肺不对称发育等特殊表型,揭示这些特殊表型的遗传机制对理解脊椎动物演化历史具有重要意义。

蛇类特有性状的演化遗传机制

基于染色体水平蛇类基因组数据集构建了迄今最有力的蛇类系统发育框架,推断蛇类起源于约1.18亿年前早白垩纪,支持了蛇类是由蜥蜴演化而来的假说。

蛇类四肢缺失、身体延长、内脏器官不对称发育等重要遗传机制

基于谱系基因组与基因编辑等研究发现,蛇类PTCH1蛋白特异性缺失的三个氨基酸残基可能是其四肢缺失的重要遗传机制之一。大量编码及非编码调控元件的快速演化驱动了蛇类身体的延长。为适应身体延长,蛇类的内脏器官发生了不对称发育,如其左肺大多趋近于退化,而右肺则较为发达。蛇类丢失了控制器官对称发育的DNAH11和FXJ1B基因,是其左、右肺不对称发育的重要遗传因素。

此外,研究还探讨了红外感应蛇类和穴居的盲蛇类物种特殊表型的演化遗传机制。研究发现与热响应相关的PMP22基因和与三叉神经发育相关的NFIB基因的非编码调控元件的趋同演化是部分蛇类能够感知红外光谱的重要遗传驱动力。而盲蛇类物种则通过RPGRIP1等基因的丢失及CHIA等基因的快速演化以适应穴居生活,并形成专食蚂蚁及蚂蚁卵的食性。

李家堂团队未来将聚焦开发玉米蛇为模式动物并开展演化发育生物学研究。同时,围绕蛇毒等重要遗传资源的挖掘和运用,为抗蛇毒血清及蛇毒衍生药物的研发提供科学支撑。研究团队将推动从基础科学到应用基础科学的发展,更好地服务国家重大战略需求。

本研究得到中国科学院B类先导科技专项、国家自然科学基金等项目的资助。

相关论文信息:https://doi.org/10.1016/j.cell.2023.05.030

希望组NextDenovo助力破译迄今最大的2个动物基因组:南极磷虾(48G)和肺鱼(40G)

目前已知发表的最大的两个基因组: 南极磷虾(48G)和肺鱼(40G)的基因组组装都是由NextDenovo参与协助完成的。NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

(一)The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights

磷虾是磷虾属的软体甲壳类动物,是所有海洋生态系统的重要组成部分。南极磷虾(Euphausia superba)的生物量为3-5亿吨,是地球上最大的野生动物物种。磷虾基因组估计为42–48Gb,其庞大的基因组规模和复杂性阻碍了它的组装,并阻碍了对南极磷虾适应性遗传基础的研究。2023年3月2日,国际顶级期刊Cell上发表题为“The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights”的研究论文,揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。武汉希望组为本研究提供基因组组装服务,武汉希望组首席生信技术官胡江为共同作者。

发表期刊:Cell (IF:66.85)

研究对象:南极磷虾

主要测序技术:Hi-C、PacBio

主要完成单位:中国水产科学研究院黄海水产研究所、青岛华大基因研究院、德国阿尔弗雷德•魏格纳研究所、澳大利亚联邦科学与工业研究组织等机构

希望组贡献:提供NextDenovo组装技术支持

部分研究结果

01染色体水平基因组组装和评估

研究者利用PacBio、Hi-C结合短读长对南极磷虾(图1A)进行测序,使用NextDenovo v2.30 (https://github.com/Nextomics/NextDenovo)组装了48.01Gb的基因组,这是迄今为止报道的最大的动物基因组组装。它比墨西哥蝾螈大约大50%,比两种肺鱼大20%-30%。与120个已经组装的无脊椎动物基因组相比,该组装具有更长的contig N50(178.99kb)(图1B),scaffold N50更是达到了1.08Gb。南极磷虾基因组中的重复DNA异常丰富,使得基因组组装特别具有挑战性。研究发现,基因组组装中含有很大比例的串联重复(TRs)(25.77%),因为TRs很难组装,特别是对于长度大于50bp和高丰度的TRs(图1C)。南极磷虾基因组的重复区密度高于墨西哥蝾螈、肺鱼和两种孔雀石甲壳类动物(图1D)。该基因组组装结果表明,巨大的南极磷虾基因组可以归因于重复序列扩增。72.15%的基因组序列被鉴定为重复序列,在附加重复注释后达到92.45%,略高于报道的澳大利亚肺鱼(90.00%)(图1E)。南极磷虾、凡纳滨对虾和弗吉尼亚磷虾之间的DNA/CMC- EnSpm系统发育树显示,南极磷虾中没有显著扩张的特定分支(图1F)。

图1 南极磷虾基因组图谱及其重复序列特征

02南极磷虾环境适应的基因组基础

南极磷虾与其他真核生物一样,能够产生自我维持的昼夜节律(反馈回路)。这些包括主要的时钟抑制剂PER、TIM和CRY2以及直接调节CLK和CYC表达的三个关键昼夜节律转录因子VRI、PDP1和REV-ERB。该发现提供了磷虾生物钟的分子结构模型,证实了双反馈回路机制可能存在。进一步评估了生物节律反馈回路中基因表达的季节性差异,揭示了四个昼夜节律基因(CLKCRY1NEMOPDP1)在夏季和冬季之间的差异表达。CLKCRY1PDP1在夏季上调,而NEMO在冬季上调(图2A)。研究者在南极磷虾基因组中发现了25个显著扩增的基因家族(图2B)。12个直接参与蜕皮周期(6个家族)和能量代谢(6个家族)(图2C)。这些家族中的大多数基因都有表达,表明额外的基因拷贝具有功能(图2D)。编码卵黄蛋白(VTG)是无脊椎动物中一种重要的蛋黄蛋白,在能量需求旺盛的产卵季节提供营养库,包括CYSCPFKPKLR在内的其他能量代谢相关基因在夏季也表现出上调(图2F),PNLIPRP2的两个同源基因之一(一种消化脂肪酶基因)在冬季上调,此外,促进蜕皮和生长的基因(JHEJHE-like CXECHT10)在食物供应量高的夏季上调,而抑制蜕皮的基因(JHAMTCASP2)在冬季上调(图2F)。

图2 适应南极海洋环境的潜在基因组变化

该研究的主要技术亮点是组装有史以来最大的动物基因组,基因组中超丰富的TR DNA加剧了这一技术挑战,成为主要的生物学发现之一。该发现揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。

(二)African lungfish genome sheds light on the vertebrate water-to-land transition

肺鱼是现存最接近四足动物的近亲,并保留了由水生向陆生过渡相关的祖先特征。现存的6种肺鱼,有4种生活在非洲,1种生活在南美,还有1种生活在澳大利亚。2个不同的研究团队分别以非洲肺鱼和澳洲肺鱼为研究对象在国际顶级期刊CellNature上发表了研究成果。肺鱼基因组是迄今为止报道的最大的动物基因组(约40Gb),基因组中大量的重复序列(>60%)进一步增加组装的难度,希望组凭借领先的ONT Ultra long测序和自主开发的NextDenovo基因组组装技术分别助力两研究团队完成了高水平的基因组组装,其中,为非洲肺鱼文章提供了Nanopore测序和NextDenovo、NextPolish软件的使用,使得该超大基因组的BUSCO评估达到95%以上,武汉希望组生物科技有限公司胡江为本文的共同第一作者。

图3 非洲肺鱼

发表期刊:Cell (IF:66.85)

研究对象:非洲肺鱼

主要测序技术:Nanopore1D、BioNano和Hi-C

主要完成单位:西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室等

第一作者:王堃、王俊、朱成龙、杨连东,任彦栋、阮珏、范广益、胡江(希望组)

希望组贡献:提供基因组测序和NextDenovo、NextPolish软件及组装技术支持

部分研究结果

01非洲肺鱼染色体基因组组装、重复序列与进化分析

研究团队利用Nanopore Ultra long、BioNano和Hi-C测序,采用NextDenovo + wtdbg2 + NextPolish策略组装,最终获得约40.05 Gb的基因组,Contig N50达到1.60 Mb;结合BioNano和Hi-C数据对基因组构建Scaffold和辅助染色体挂载,最终得到17条染色体,Scaffold N50 2.81 Gb,染色体挂载率达到99%以上。BUSCO评估显示该基因组包含了95%以上的脊椎动物完整基因。非洲肺鱼基因组如此巨大主要是由TEs的扩张引起的,非洲肺鱼基因组的61.7%(24.7 Gb)被注释为重复序列。研究团队通过分析Kimura distance估算了TE历史扩张活动,结果表明TEs,特别是反转录转座子,在过去7000万年中一直活跃。基于基因组组装和注释结果,通过对8种脊椎动物的5149个单拷贝基因进行系统发育重建,证实非洲肺鱼是与四足动物最近的姐妹谱系,非洲肺鱼和四足动物的分化时间可追溯到泥盆纪伊始,估算为419 MA。

图4 非洲肺鱼染色体水平基因组组装和进化史

02 基因改变增强了呼吸能力

肺呼吸能力的进化可能经历了三个步骤:第一步是硬骨鱼的共同祖先已具备了最初级的呼吸空气的能力(已有文献支持),本研究中检测到所有硬骨鱼中存在Sftpb同样也证实这一观点。第二步是通过诸如Sftpc的出现和邻近Foxp1的保守非编码元件(CNEs)等基因创新,肉鳍鱼类的共同祖先获得了增强空气呼吸的能力。第三步可能是进一步的基因创新,包括SftpaSftpd的出现以及Foxp2附近保守非编码元件(CNEs)的出现,为四足动物进化出呼吸系统提供了最后的关键基础。

图5 肉鳍鱼类肺呼吸功能的演变

希望组作为三代测序行业的引领者,拥有完备的三代测序平台,强大的生物信息团队,拥有自主研发且在基因组组装领域被广泛应用的NextDenovo系列算法。已为众多科研院所提供优质的测序及分析服务,积累了丰富的项目经验。

欢迎拨打电话153 8703 7487

或联系您身边的科技顾问,

或发邮件至inquiry@grandomics.com咨询!

NextDenovo软件 | 组装领先一步,发文章领先一大步!

自ONT测序数据用于基因组组装以来,适用软件一直很少,且市面上的组装软件要么极其消耗计算资源,要么组装效果非常差,该问题不仅导致大量ONT de novo项目积压、交付困难,更阻碍了高质量基因组组装及其后续科学研究,基于此希望组集团首席生信技术官胡江先生主导开发了NextDenovo软件用于解决上述组装难题。

近日,由希望组、中国科学院昆明动物研究所联合在bioRxiv预发表了题为“An efficient error correction and accurate assembly tool for noisy long reads”一文,介绍了目前广泛使用的组装工具NextDenovo,它能够快速纠正三代高错误率数据并进行后续组装,与其他类似工具相比错误更少,速度更快。

NextDenovo首先进行测序read之间的比对(图1A),然后过滤掉重复比对,同时根据比对深度分割嵌合的reads(图1B)。NextDenovo采用了kmer评分链(KSC)算法执行初始化的矫正,值得说明的是该算法也成功在我们之前发布的polish工具NextPolish中使用(图1C)。最后,从校正的区域中提取低分值区(LSR,对应高错误率区域),做进一步矫正(图1D)。进一步利用人类基因组chr.1的模拟数据和实际的生物样本测序数据,对NextDenovo、Canu(v2.0)和Necat(v0.0.1)的纠错性能进行测试。结果表明就校正速度而言,NextDenovo在模拟数据上分别比Canu和Necat快7.44倍和1.13倍,在实际生物数据上分别快69.25倍和1.63倍。对于校正后的数据大小,NextDenovo可以分别在模拟数据和实际生物数据上校正比Canu多2.21%、4.54%的数据,但比Necat少1.65%、1.00%的数据。重要的是,在模拟数据和实际生物数据上,NextDenovo校正reads的平均错误率分别比Canu低1.82%和1.31%,比Necat低0.35%和0.09%。NextDenovo校正reads的平均精度高于99%,接近PacBio-HiFi reads 准确度,而校正后reads的长度比HiFi reads长得多。总之,NextDenovo不仅纠错速度更快,而且纠错后reads错误率更低、更均匀,嵌合比例更少。

图1 NextDenovo组装示意图

研究者进一步利用NextDenovo对35名不同人种的ONT测序数据进行高质量基因组组装(其中非洲13名,东亚6名,东南亚4名,南亚6名,中东2名,欧洲2名,大洋洲1名,美国1名)(图2A)。基于单核苷酸多态性(SNPs)的主成分分析(PCA)与1000个基因组计划数据集的整合表明,35个基因组共同覆盖了现代人类存在的大部分遗传多样性。研究者首先评估了NextDenovo与Flye在人类基因组组装方面的性能(图2B)。NextDenovo和Flye组装得到的基因组大小相似(2.83 Gb),基因组覆盖率约为90.84%,但与Flye相比,NextDenovo组装覆盖了更多的单拷贝基因,保留了更多的多拷贝基因。此外,与玉米和水稻基因组组装的结果一样,NextDenovo组装比Flye组装包含更长的NGA50(大1.03-1.61倍)和更少的contigs (LGA50的68.18%-96.97%)。更重要的是,NextDenovo组装平均包含388个错误装配,约为Flye组装的70%,而NextDenovo组装的平均QV也略高于Flye组装。

图2 35个人类基因组的从头组装

片段重复(SDs)是复杂的DNA片段,具有几乎相同的序列,很难通过短读长来组装。长读长基因组测序组装技术的发展促进了SDs的检测。本研究通过使用“片段重复进化结构的Brisk推断”(BISER),确定了每个个体平均133.6Mbp的非冗余SD序列,大约相当于人类基因组的4.7%。研究结果表明,总SD大小和基因组大小之间存在显著的相关性(R2=0.9641,p<2.2e-16)。根据非洲和非非洲组装之间的SD频率差异,进一步确定了非洲特定的SD热点。结果表明,高度分化的热点在着丝粒周围区域富集(图3),这与T2T-CHM13中预测的基因组不稳定性热点一致。

长读长组装为全面发现片段重复,特别是涉及SDs的重复基因提供了希望。研究者认为这些高质量的组装应该有助于检测基因重复(图3)。特别是在10个个体(包括8个亚洲人和2个非洲人)中发现了具有开放阅读框和多个外显子的唾液淀粉酶(AMY1)基因拷贝的增加。例如,来自越南和泰国的两个人分别获得了4个和3个额外的AMY1基因,这可能有助于提高他们消化大米等淀粉类食物的能力。事实上,AMY1基因额外拷贝的获得被认为是高淀粉饮食人群的特征,尤其是东亚和东南亚人群。此外,四个基因家族簇,包括优先表达的黑色素瘤抗原(PRAME)、嗅觉受体(OR)、G抗原(GAGE)和黑色素瘤相关抗原(MAGEA),显示出具有同源基因的密集SDs簇(图3)。因此,长读测序使准确组装那些具有高度相似的同源簇特征的基因组区域成为可能,包括那些包含扩展的串联重复基因的基因组区域。

值得一提的是由于纠错步骤所赋予的高准确度,NextDenovo可以得到更多包含错误极低的连续组装。在组装ONT“超长”reads时优势更为明显,因为NextDenovo可以产生部分或接近染色体水平的组装,这不仅适用于人类基因组的组装,也适用于复杂植物基因组的组装。

图3  重复基因和SD热点的分布

总之,本研究介绍了一种高效且准确度高的适配ONT数据的组装工具NextDenovo,该工具在测试数据和真实人类基因组的组装中效果极佳,对比其他软件优势明显,在基因组组装领域应用广泛。NextDenovo软件的使用将为种群规模的长读长数据基因组组装铺平道路,从而促进利用纳米孔长读测序数据进行人类泛基因组的构建。

署名文章 | Cell!NextDenovo助力破译迄今最大动物基因组—48Gb南极磷虾参考序列

磷虾是磷虾属的软体甲壳类动物,是所有海洋生态系统的重要组成部分。南极磷虾(Euphausia superba)的生物量为3-5亿吨,是地球上最大的野生动物物种。磷虾基因组估计为42–48Gb,其庞大的基因组规模和复杂性阻碍了它的组装,并阻碍了对南极磷虾适应性遗传基础的研究。然而,最近对肺鱼和墨西哥蝾螈的研究表明,大型动物基因组组装中固有的巨大技术挑战是可以克服的。

3月2日,国际顶级期刊Cell上发表题为“The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights”的研究论文,揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。武汉希望组为本研究提供基因组组装服务,武汉希望组首席生信技术官胡江为共同作者。

目前已知发表的最大的两个基因组: 南极磷虾(48G)和肺鱼(40G)的基因组组装都是由NextDenovo参与协助完成的。NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

部分研究结果

01. 染色体水平基因组组装和评估

研究者利用PacBio、Hi-C结合短读长对南极磷虾(图1A)进行测序,使用NextDenovo v2.30 (https://github.com/Nextomics/NextDenovo)组装了48.01Gb的基因组,这是迄今为止报道的最大的动物基因组组装。它比墨西哥蝾螈大约大50%,比两种肺鱼大20%-30%。与120个已经组装的无脊椎动物基因组相比,该组装具有更长的contig N50(178.99kb)(图1B),scaffold N50更是达到了1.08Gb。南极磷虾基因组中的重复DNA异常丰富,使得基因组组装特别具有挑战性。研究发现,基因组组装中含有很大比例的串联重复(TRs)(25.77%),因为TRs很难组装,特别是对于长度大于50bp和高丰度的TRs(图1C)。南极磷虾基因组的重复区密度高于墨西哥蝾螈、肺鱼和两种孔雀石甲壳类动物(图1D)。该基因组组装结果表明,巨大的南极磷虾基因组可以归因于重复序列扩增。72.15%的基因组序列被鉴定为重复序列,在附加重复注释后达到92.45%,略高于报道的澳大利亚肺鱼(90.00%)(图1E)。南极磷虾、凡纳滨对虾和弗吉尼亚磷虾之间的DNA/CMC- EnSpm系统发育树显示,南极磷虾中没有显著扩张的特定分支(图1F)。

图1 南极磷虾基因组图谱及其重复序列特征

02. 南极磷虾环境适应的基因组基础

南极磷虾与其他真核生物一样,能够产生自我维持的昼夜节律(反馈回路)。这些包括主要的时钟抑制剂PER、TIM和CRY2以及直接调节CLK和CYC表达的三个关键昼夜节律转录因子VRI、PDP1和REV-ERB。该发现提供了磷虾生物钟的分子结构模型,证实了双反馈回路机制可能存在。进一步评估了生物节律反馈回路中基因表达的季节性差异,揭示了四个昼夜节律基因(CLKCRY1NEMOPDP1)在夏季和冬季之间的差异表达。CLKCRY1PDP1在夏季上调,而NEMO在冬季上调(图2A)。研究者在南极磷虾基因组中发现了25个显著扩增的基因家族(图2B)。12个直接参与蜕皮周期(6个家族)和能量代谢(6个家族)(图2C)。这些家族中的大多数基因都有表达,表明额外的基因拷贝具有功能(图2D)。编码卵黄蛋白(VTG)是无脊椎动物中一种重要的蛋黄蛋白,在能量需求旺盛的产卵季节提供营养库,包括CYSCPFKPKLR在内的其他能量代谢相关基因在夏季也表现出上调(图2F),PNLIPRP2的两个同源基因之一(一种消化脂肪酶基因)在冬季上调,此外,促进蜕皮和生长的基因(JHEJHE-like CXECHT10)在食物供应量高的夏季上调,而抑制蜕皮的基因(JHAMTCASP2)在冬季上调(图2F)。

图2 适应南极海洋环境的潜在基因组变化

03. 南极磷虾种群动态

研究者在大西洋区南乔治亚岛(SG)和南设得兰岛(SSI)、印度洋区Prydz湾(PB)和太平洋区罗斯海(RS)四个生物量较高的南大洋区域收集了75只磷虾,并对其进行了平均深度为17.72X的基因组测序(图3A)。研究者观察到南极磷虾地理组之间的成对FST值较低,最大群体遗传多样性指数(Fst)为1.92×10-3(图3B),然而,PCA(图3C)、MDS和NJ表明,南极磷虾的遗传结构是可识别的,特别是在SG和PB-RS之间。环境隔离(IBE)分析表明,遗传分化与环境距离显著相关(图3D)。387个自适应SNP的等位基因频率揭示了SGSSI和PB-RS组之间的不同遗传模式(图3E)。该结果表明,环境选择可能在驱动南极磷虾不同群体的遗传结构中发挥重要作用。研究者使用PSMC和PopSizeABC推断过去的有效种群规模(Ne),发现Ne从大约1千万年前急剧减少,种群规模的总体峰值约为1千万年,还观察到南极磷虾群从10万年前开始扩张(图3F)。磷虾的栖息地可能会转移到高纬度地区,但气候变化将如何影响磷虾种群规模,进而影响依赖磷虾的南极生态系统,是迫切需要解决的关键问题。

图3 南极磷虾种群动态

该研究的主要技术亮点是组装有史以来最大的动物基因组,基因组中超丰富的TR DNA加剧了这一技术挑战,成为主要的生物学发现之一。该发现揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。