科研动态 – 第3页 – GrandOmics|希望组

项目文章 | 首个绞股蓝T2T基因组，解析达玛烷型三萜皂苷生物合成机制

2024-05-11/0 评论/在 /通过 zu

绞股蓝（Gynostemma pentaphyllum），一种葫芦科的多年生藤蔓植物。在医学上有超过600年应用历史，它是超过200种达玛烷型皂苷的宝贵自然来源，具有显著的生物活性，如抗癌、心脏保护、肝脏保护、神经保护和抗糖尿病作用。

研究发现，尽管绞股蓝与人参（Panax ginseng）在进化关系上相距甚远，但其含有人参皂苷和其他结构类似的达玛烷三萜类化合物，同时绞股蓝在获取难度和达玛烷型皂苷含量方面相比人参具有优势。因此，绞股蓝在开发达玛烷型皂苷衍生药物方面，具有极大的应用前景。

2024年4月30日，中国医学科学院药用植物研究所郭宝林/孙超团队在Plant Communications期刊上在线发表了题为“Insights into the dammarane-type triterpenoid spaonin biosynthesis from the telomere-to-telomere genome of Gynostemma pentaphyllum”的研究论文。该论文组装完成了葫芦科绞股蓝的高质量从端粒到端粒（T2T）基因组，初步探究了绞股蓝中达玛烯二醇-II合酶的催化机制，并揭示了绞股蓝和人参中的达玛烯二醇合酶为独立进化而来。希望组为本研究提供了ONT超长、Bionano测序和T2T组装服务。

1.高质量绞股蓝T2T基因组组装

组装使用了30.54 Gb（~51x）的PacBio HiFi数据，103.71 Gb（~173x）的ONT超长数据，65.63 Gb（~109x）的Hi-C以及Bionano数据，最终生成了一个高质量绞股蓝端粒到端粒（T2T）基因组（Gp_T2Tv1.0），其总长度为599.38 Mb，成功识别了11条染色体的所有22个端粒（CAATAAn）和11个着丝粒。

通过多种方法对Gp_T2Tv1.0的准确性和完整性进行评估，BUSCO评估基因组完整性达到98.70%，LAI值为14.89，11条染色体的平均Qv值达到36.57，这些表明了基因组组装碱基水平的准确性和完整性。Illumina、HiFi、ONT超长reads的比对率均超过99%，且Bionano光学图谱在所有组装染色体上均显示出高度一致性。在基因组中预测了26,003个蛋白编码基因，平均编码序列大小为4,567 bp，平均每个基因有5.38个外显子。此外，着丝粒区域主要由68%的转座子元件和32%的串联重复序列组成，这些区域在11条染色体之间的长度和结构组成上存在显著差异。

2.GpOSC1通过环化催化2,3-氧化鲨烯形成达玛烯二醇-II的机制

在萜类化合物生物合成中，由氧化鲨烯环化酶（OSCs）催化的2,3-氧化鲨烯的环化是萜类化合物合成的第一个关键的分支点。在对绞股蓝的T2T基因组分析中，一共注释了十一个OSCs。通过酵母表达系统、本氏烟草的瞬时基因表达系统以及相色谱-质谱（GC-MS）分析证明，GpOSC1能够通过环化催化2,3-氧化鲨烯形成达玛烯二醇-II（dammarenediol-II）。

为了更深入地了解GpOSC1（下文称为GpDS）的催化机制，基于GpOSC1的3D结构与达玛烯二醇-II的分子对接结果和保守序列（图1D），构建了GpDS的氨基酸残基Y259H、W418A、D485N、C564A、S412F、H479N和C486A突变体。单点突变体D485N、S412F、W418A导致活性完全丧失，而C486A、C564A、H479N、Y259H突变体的活性显著降低（图1E）。结果表明，GpDS活性位点的几个残基在酶活性中起着至关重要的作用，可能是通过与底物相互作用和塑造整体构象来实现的。这些发现与之前关于人参（P. ginseng）中的达玛烯二醇-II合成酶（DS，ID: ACZ71036.1）的报道相一致，表明GpDS与PgDS具有相似的催化机制。总的来说，我们推测酸性残基D485通过作为质子供体来启动2,3-氧化鲨烯的环化，而C486和C564通过与D485形成氢键来增加其酸性。在VWCYFR motif中的Y259残基对于稳定中间阳离子和促进达玛烯二醇-II的形成至关重要。

3.探寻达玛烯二醇-II合成酶（DS）的起源和进化轨迹

为了研究开花植物中DS的起源和进化轨迹，结合系统发育和共线性分析提出了一个OSC进化的模型（图1F）。通过对来自115个植物的428个OSC序列进行全面的系统发育分析，发现基础被子植物无油樟（Amborella trichopoda）含有一个单独的OSC，它与在蕨类和裸子植物中发现的环阿屯醇合成酶（CASs）具有同源性，表明被子植物中的所有OSC都是从祖先CAS-like蛋白进化而来的。剩余的OSC最初被分为两个主要分支，分别命名为分支A和分支B。每个分支都包含了来自被子植物主要分类群的物种衍生的OSC，这表明大多数被子植物在A. trichopoda分化后共享了一个共同的OSC基因复制事件。复制事件之后，在核心真双子叶植物中，同源OSC基因A和B呈现出了三分支的进化模式，亚分支A1、A2和A3从分支A进化而来，而亚分支B1、B2和B3则从分支B进化而来。OSCs的系统发育分析表明，B2亚分支经历了显著的新功能化，其中葫芦科家族的GpDS位于该亚分支的β-香树脂合成酶（bAS）基因内。相反，在B3亚分支中，来自五加科的PgDS的多功能OSC聚类在一起。因此推测在G. pentaphyllum和P. ginseng中，DS是独立进化的。

总之，该研究完成了绞股蓝的高质量T2T基因组组装，并对基因组中鉴定出的11个候选OSCs基因中的一个DS进行了功能表征，为解析达玛烷型三萜皂苷生物合成机制提供了参考意义，有利于绞股蓝在达玛烷型皂苷衍生药物方面的开发应用。

项目文章 | 基因组所解析首个康乃馨T2T基因组

2024-05-11/0 评论/在 /通过 zu

康乃馨（Dianthus caryophyllus）属石竹科石竹属多年生植物。因其花色绚丽，花型独特，瓶插寿命长，深受世界各地人民的喜爱，被称作世界‘四大切花’之一，具有极高的观赏价值和经济价值。实践过程中发现，高质量的基因组是分子靶向育种的重要基石，目前已报道的康乃馨基因组仍存在大量的间隙（gap）和组装错误，在一定程度上影响了后续基因功能及相关研究。

2024年1月，Horticulture Research （IF=8.7）杂志在线发表了由中国农业科学院深圳农业基因组研究所（岭南现代农业科学与技术广东省实验室深圳分中心），莫道克大学和佛山鲲鹏现代农业研究院等单位联合完成的研究论文，题为“The haplotype-resolved telomere-to-telomere carnation (Dianthus caryophyllus) genome reveal the correlation between genome architecture and gene expression”。该研究对呈现白色花瓣的康乃馨（D. caryophyllus ‘Baltico’）进行了多平台高深度测序和“端粒至端粒”级别的高质量组装，助力康乃馨分子育种。

研究团队综合利用Pacbio HiFi（Sequel II平台）、ONT ultra-long和Hi-C等测序技术，成功组装出两个单倍体hap1和hap2的端粒到端粒（T2T）康乃馨基因组，其基因组大小分别为564.5Mb、568.3Mb，N50的分别为37.6Mb、38Mb，二代数据的比对率、LTR组装指数（LAI>=23）和BUSCO值（97%以上）等评估均支持了该基因组组装的高连续性和完整性。该端粒到端粒基因组首次为康乃馨的端粒和着丝粒区域的分析提供了信息，揭示了康乃馨中可能具有较为特殊的着丝粒结构特征，大部分的着丝粒区域无法通过鉴定HOR（high order repeat）区域进行确认。

图一端粒到端粒康乃馨基因组（A）及其通过HOR区域鉴定的潜在的着丝粒位置（B）

基于高质量组装的端粒到端粒基因组，利用根、叶、花三种组织的转录组数据分析了基因组结构特征与基因表达和等位基因差异表达（ASE）之间的关联。结果发现基因、编码区（CDS）和内含子的长度，外显子数量和转座子的插入与否，都与基因的表达相关，并且转座子的插入在表达调控网络的总体水平上呈现抑制基因表达的作用。该成果提供了更加完整的康乃馨基因组及基因资源，为推动康乃馨分子育种奠定坚实的研究基础。

图二探究不同基因组结构特征与基因表达之间的关联度

项目文章 | 武大朱玉贤院士团队王坤教授破解洪山菜薹颜色和美味的基因密码

2024-05-11/0 评论/在 /通过 zu

不结球白菜(Brassica campestris L. ssp. chinensis Makino)，又称小白菜、小油菜，原产我国，生长周期短、适应性广、产量高，在我国中部及以南地区周年栽培种植，占春、秋、冬菜播种面积的30％～50％，是全年播种面积最大的蔬菜之一，在我国的蔬菜周年供应中有着重要的地位。不结球白菜是人们生活中不可缺少的一种重要蔬菜，味道鲜美可口，营养丰富，百吃不厌，为广大群众所喜爱。其以柔嫩的莲座叶（普通白菜，俗称小白菜）或花径（菜薹）供食用，种类和品种繁多，其中最具传统特色、素有“金殿御菜”之美誉的洪山菜薹，具有独特的口感和风味与丰厚的历史文化。然而，同为白菜类蔬菜，红菜薹的薹茎独为红色，且其口感风味独特等表型和品质的机制尚不清楚。

近日，武汉大学联合武汉市农业科学院和湖北省农业科学院在科学通报Science Bulletin (影响因子18.9) 发表了题为“The complexity of structural variations in Brassica rapa revealed by assembly of two complete T2T genomes”的研究论文，该研究利用了高深度超长读长ONT测序与高精度长读长HiFi测序，结合Bionano染色体光学图谱构建技术，构建了两个白菜类蔬菜—普通白菜(B. rapa ssp. chinensis)和红菜薹(B. rapa ssp. purpuraria)的端到端无缺口完整基因组，揭示了红菜薹薹茎红色表型的关键基因。脂肪族硫代葡萄糖苷的大量生物合成和向薹茎的高效运输，可能是菜薹作为薹用蔬菜特殊风味的遗传基础。希望组为此研究提供PacBio HiFi测序、ONT超长测序以及Bionano测序服务。

基于完整的基因组，研究者详细解析了白菜类蔬菜的高复杂区域—着丝粒和rDNA的序列特征。白菜着丝粒由大量176-bp的单体形成的卫星序列组成，在不同亚种间，着丝粒的演化速率要显著高于其它区域。与其它植物不同的是，白菜的45S rDNA区域呈现出松散且显著扩张的特征，而大量特殊类型转座子的插入是扩张的主要原因。值得注意的是，白菜的45S rDNA区域与先前研究所报道的白菜次着丝粒区域完全重合，预示着白菜45S rDNA的扩张可能与次着丝粒的形成有着一定关系。

1.菜薹特异的结构变异终导红菜薹紫红色薹茎的表型

洪山菜薹因含有大量的原花青素而呈紫红色。原花青素是一类具有保健功能的生物活性成分，有助于清除人体内自由基，具有抗氧化、预防心脑血管疾病、保护肝脏等生理功能。通过与其它20个白菜类蔬菜的基因组比较，研究者发现一个位于7号染色体上、紫菜薹特异的结构变异最终导致了其紫红色薹茎的表型。该结构变异位于紫菜薹的一个驯化位点中，转录因子BrMYB2上游245bp处的启动子区域内。后续验证表明，该结构变异使得BrMYB2在紫菜薹薹茎中的表达量显著上调，并最终使其呈现紫红色。该变异在多个不同的紫菜薹品系中均得到了验证。

2.洪山菜薹的脂肪族硫代糖苷促进了其独特风味品质的形成

洪山菜薹作为一种具有特色的高档时令蔬菜，深受人们喜爱，其特性在于优良的品质。前期研究表明，芸薹属作物的风味往往来自于一类存在于十字花科植物中的次生代谢产物：硫代葡萄糖苷(GSL)。该研究结合基因组与转录组的比较，指出脂肪族硫代葡萄糖苷合成通路上的一些基因在菜薹叶片中有显著的上调，说明其在菜薹体内的合成可能有显著的提高；另外，控制硫代糖苷自叶片向薹茎转运的GTR1基因在菜薹中产生了额外的拷贝，这使得GTR1在菜薹中的表达量产生了几十倍的上调。脂肪族硫代葡萄糖苷的大量生物合成和向薹茎的高效运输，可能是菜薹作为薹用蔬菜特殊风味的遗传基础。

该研究首次发表了白菜类蔬菜完整的基因组，加强了我们对白菜基因组中高复杂区域的认识，同时也揭示了洪山菜薹的紫红色薹茎和特殊风味性状的遗传基础。这项研究的结果在白菜的功能研究中具有宝贵的参考价值，也为进一步的分子育种设计和新品种选育奠定了基础。

武汉大学生命科学学院博士研究生周一凡、叶瀚哲和刘恩纬为该文的共同第一作者，武汉大学生命科学学院王坤教授、武汉市农业科学院蔬菜研究所汪爱华研究员、湖北省农业科学院聂启军研究员为该文的共同通讯作者。武汉大学朱玉贤院士在该研究项目的启动、组织和实施过程中提供了强有力的支持和指导。该研究得到湖北省重点研发计划、湖北省杰出青年基金和武汉国家现代农业产业科技创新中心的支持。

项目文章 | 希望组助力青石斑鱼基因组染色体水平组装和注释

2024-05-11/0 评论/在 /通过 zu

青石斑鱼(Epinephelus awoara)是一种重要的经济海洋鱼类。然而，对其遗传结构和进化历史的研究相对较少。研究团队利用 PacBio 单分子测序技术和 Hi-C 技术，组装了青石斑鱼的高质量染色体级的基因组。青石斑鱼染色体级基因组大小为984.48Mb，contig N50 长度为 39.77Mb，scaffold N50 长度为 41.39Mb。在 Hi-C 测序的辅助下，99.76% 的组装序列被锚定到 24 条假染色体上。此外，研究发现大约 41.17% 的基因组由重复元件组成。通过基因预测，共预测了 24,541 个编码蛋白质的基因，其中 22,509 (91.72%) 个基因进行了功能注释。这项工作提供了青石斑鱼高精度、染色体级参考基因组的组装和注释，将有助于理解青石斑鱼的种群遗传结构、适应性进化和物种形成。

近期，该论文《Chromosome-level genome assembly and annotation of the yellow grouper, Epinephelus awoara》在scientific data发表。中山大学生命科学学院蒙子宁副教授为通讯作者，在读博士生张维炜为第一作者。希望组为该研究提供PacBio Revio、Hi-C测序等服务。

图1 青石斑鱼染色体水平基因组装与注释流程图

研究结果

1. 青石斑鱼基因组组装和注释

经过scaffolding程序，974.86Mb成功锚定在24条染色体上，挂载率为99.02%，染色体长度从23.08Mb到48.78Mb不等。在Hi-C scafolding之后，组装了984.48Mb染色体水平的青石斑鱼基因组，contig N50长度为39.77Mb，scaffold N50长度为41.39Mb。此外，研究人员还评估了基于Hi-C的假染色体构建的结果，24条骨架在热图中清晰可见，对角线周围的相互作用信号非常明显（图2a），表明假染色体的组装质量较高。青石斑鱼基因组共鉴定出405.30Mb序列为重复元件，占基因组的41.17%(图2b)。其中，串联重复组成约占基因组的0.73%，包括基因组中0.18%的SSR和0.56%的串联重复(图2b)。转座子约占基因组的35.68%（图2b），其中DNA转座子是最主要的类型，占基因组的20.08%(197.69Mb)。

图2 青石斑鱼染色体水平的基因组组装和注释

2.基因组共线性分析

研究团队使用MCScan工具进行基因组线性分析和可视化分析，通过线性图展示了青石斑鱼基因组与其他石斑鱼物种之间的线性关系。结果显示，青石斑鱼基因组与同属内的相关物种（鞍带石斑鱼和棕点石斑鱼）以及不同属的驼背鲈（C. altivelis）之间具有很强的线性关系（图3a、b）。然而，相较于豹纹鳃棘鲈（P. leopardus），青石斑鱼基因组中出现更多染色体重组的情况（图3b）。

图3 青石斑鱼与其他石斑鱼的基因组同源性分析。(a) 属内同源性分析。(b) 属间同源性分析。

总之，高度准确的染色体水平参考基因组对支持基础遗传学研究至关重要，并将有助于青石斑鱼的遗传结构、进化研究和种质资源保护。

项目文章 | 重磅NG！中科院昆明植物所李德铢研究员团队揭示竹类植物生活史转变和物种多样化遗传机制

2024-05-11/0 评论/在 /通过 zu

多倍化（基因组加倍）是进化的关键力量，然而，在亚基因组水平上，对于多倍化如何促进植物适应性演化和物种多样性形成的认识仍然不足。竹类植物属于禾本科竹亚科（Bambusoideae），包括二倍体草本竹子（126种）和三种多倍体木本竹子（1576种），其中木本竹类包括温带木本分支、新热带木本分支（均为四倍体）和古热带木本分支（六倍体）。先前研究表明：木本竹子中大约在20百万年前发生的两次独立四倍体化和一次六倍体化事件。木本竹子的染色体数通常保持稳定（例如，四倍体的2n=（40）46-48，六倍体的2n=70-72），这表明组成亚基因组可能一直保持不重排。因此，竹子为研究古老多倍体植物中亚基因组优势的演化提供了一个理想的模型。

2024年3月15日，中国科学院昆明植物研究所李德铢研究员团队在国际顶级期刊《Nature Genetics》（IF=30.8）上在线发表了题为“Genome assemblies of 11 bamboo species highlight diversification induced by dynamic subgenome dominance”的研究论文。该研究选择竹属（禾本科：竹亚科）内11种具有不同倍性的竹子样本，涵盖二倍体（草本植物）到四倍体和六倍体（木本植物），将其从头组装至染色体水平获得这11种竹子的高质量参考基因组，结合比较基因组学、转录组学以及甲基化等进行联合分析，发现木本竹子的亚基因组具有惊人的核型稳定性，两个四倍体谱系中表现出平行的亚基因组优势，并在六倍体谱系中逐渐转移优势。异源多倍体化和亚基因组优势塑造木本竹子的木质茎，快速生长和同步开花等特征的演化。此项工作提供了对多倍体系统中基因组优势的见解，包括其依赖于基因组环境以及其能够随着演化时间改变哪些亚基因组处于优势地位。希望组为本研究提供部分ONT和Hi-C基因组测序服务。

该研究选择了11种具有代表性的竹子为研究对象，包括2个草本竹子（HBs、2x）和9个木本竹子（WBs），其中木本竹子包括3个分支：温带（TWBs、4x）、新热带（NxWBs、4x）和古热带（PWBs、6x），利用ONT+Hi-C的策略从头组装了这11个物种的高质量参考基因组，基因组大小平均分别为625.9 Mb（二倍体）、1,628.3 Mb（四倍体）和1,122.4 Mb（六倍体），Contig N50的平均值和最大值分别为5.3 Mb和17.5 Mb。二代数据的比对率、LTR组装指数（LAI>=10）和BUSCO值（93.2~99.0%）等评估均支持了这些基因组组装的高连续性和完整性。

图1 11种竹子基因组特征和共线性图谱

基于系统发育和序列相似性来确定竹子的亚基因组，研究组建了两个同源基因数据集（456个“完美拷贝”和13891个“低拷贝”同源基因）用于系统发育分析，WB中的A、B、C、D和HB中的H亚基因组均能在两个数据集中的到验证。由于基因树之间存在广泛的拓扑结构不一致，研究推断系统发育网络和假定的渗入事件，推断存在杂交事件，如B和C祖先之间的杂交导致A和D祖先的形成，同时还表明了H和A祖先之间的杂交。古老的HBs 和WBs 祖先之间也发生过杂交。总而言之：该研究提出了竹类起源和多倍化的模型，包括不同时间点的分化和多倍化事件，最终形成了不同的竹类群体。

图2 竹类植物主要谱系大的起源与演化

木本竹类展现出非常保守的核型演化特征，尤其是A、B和D亚基因组维持了禾本科祖先的12条染色体状态。大多数裂变和融合事件发生在H和C亚基因组中，HB中的这些事件在很大程度上具有物种特异性，但在C亚基因组中的许多基因分别由热带和温带分支中的不同物种共享，这表示多倍体化在诱导基因组重排中可能起了作用。从亚基因组大小、重复基因丢失、转座子和甲基化等方面研究各个亚基因组间的差异，研究发现：C亚基因组在WB的四个亚基因组中展现出显著不同，其大小与D亚基因组接近，但较小于A和B亚基因组，与TE含量密切相关。多倍体化后，亚基因组和多倍体化后的四六倍体之间存在TE动态多样性。基因进化受多倍体化影响，WBs中观察到全基因组复制丧失。上述分析结果证明：两个四倍体分支中C亚基因组占主导，六倍体中A亚基因组的加入改变了这种主导优势。

图3 竹类基因组的结构特征与进化

为研究多倍体化后转录图谱的变化，对11个竹子的不同组织在各个发育阶段的476个转录组样本进行测序分析，发现在WBs中的基因其表达丰度较低，与WBs中其他三个亚基因组相比，C亚基因组具有更高比例的表达基因和最高平均表达水平。主成分分析显示跨组织和物种的同源基因之间呈现出一致的基因表达上调和下调模式，而在六倍体（PWBs）中差异较大。同源基因进一步聚类为不同组别，结果显示C亚基因组比D或B亚基因组存在更多的上调基因。基于WGCNA分析探究有偏向性的亚基因组的基因是否更有可能存在共表达，结果显示在四倍体中C亚基因组有更多的共表达基因和hub 基因，而六倍体中A亚基因组拥有更多hub 基因，表明在不同类群中亚基因组的表达模式和共表达关系存在差异。上述结果进一步支持C亚基因组在四倍体分支演化过程中可能具有优势。

图4 多倍体竹子中的同源基因表达模式

在禾本科中，WBs演化出了包括木质化茎秆和不频繁开花在内的独特性状。为揭示WBs独特性状起源的基因基础，在其演化过程中研究了基因家族大小、新基因和在其演化过程中受到正向选择的基因（PSGs）。三个多倍体谱系中共享了183个PSGs家族，其中C亚基因组的PSG富集。此外，经历两次或更多基因组变化的基因在C亚基因组中占有更高比例。其中许多基因可能参与竹子独特的生命周期，如调控开花的关键因子GI和SPL7，均来自C亚基因组。

功能富集分析表明，在全基因组和亚基因组水平上，特别是C亚基因组的扩张基因家族主要与植物营养生长和发育有关（例如，“植物激素信号转导”和“苯丙素生物合成”）。

进一步研究竹子中木质素生物合成途径中的基因组变化，结果发现，相对于HBs，WBs中几乎所有的木质素相关基因都通过多倍化产生出多拷贝，且COMT 和F5H1 出现串联重复。该途径中检测到有31个基因，其中大多数经历了基因组变化，其中重点关注的COMT，在巨型竹子D. sinicus 的木质化发挥关键作用，其主要负责S型单木质素的生物合成，对与禾本科植物的茎杆强度至关重要。

图5 WBs演化的基因组基础

该研究首次提出在多倍体植物类群中可能存在亚基因组优势转移现象，为研究竹类植物物种多样化和独特性状的起源提供了多组学证据，也为深入理解多倍化在植物演化中的重要作用提供了一个难得的案例。

项目文章 | NC！华中农业大学付新华教授团队揭示萤火虫发光之谜

2024-05-11/0 评论/在 /通过 zu

萤火虫是鞘翅目萤科的昆虫，成虫个体一般较小，大多数体长1厘米，少数种类可以达到3厘米。雌性个体要略微大于雄性个体。萤火虫最独特的特征是腹部具有特化的发光器，不同萤火虫之间发光器区别很大，这也是萤火虫分类的重要特征之一。世界上已知萤火虫有2000多种，全世界仅发现了8种水栖萤火虫，原先都隶属于萤科第一大属——熠萤属。付新华教授与合作者以武汉萤为模式种，确立了一个新属——水萤属。

图1 雷氏萤A. leii的发育阶段。幼虫期1天至成虫期2天，白色箭头表示幼虫的发光器，红色箭头表示成虫的发光器

希望组与华中农业大学植物科学技术学院付新华教授的首次合作在2017年，基于PacBio Sequel（～73X）平台测序，完成了首个萤科物种胸窗萤（Pyrocoelia pectoralis）的高质量基因组测序组装，发表了《Long-read sequence assembly of the firefly Pyrocoelia pectoralis genome》文章[未来组项目文章] 三代萤火虫基因组文章发表。随着测序技术的不断升级，希望组与付新华教授再次合作，通过单分子纳米孔测序（ONT，～170X）与Hi-C挂载组装了染色体水平的水栖萤火虫雷氏萤（Aquatica leii）基因组。付新华和朱馨蕾依托高质量的雷氏萤基因组，结合不同发育阶段的蛹的比较转录组学，成功筛选出调节A. leii 成虫发光器发育的两个关键转录因子AlABD-B和AlUNC-4，于2024年3月5日在《Nature Communications》上发表题为《Key homeobox transcription factors regulate the development of the firefly’s adult light organ and bioluminescence》的研究成果！

这篇论文研究了水栖萤火虫成虫发光器发育和生物发光的分子调控机制。通过单分子纳米孔测序（ONT）和高通量染色体构象捕捉测序技术组装了水栖萤火虫雷氏萤（Aquatica leii）的染色体水平基因组，并发现了两个关键的Homeobox转录因子AlABD-B和AlUNC-4调节着萤火虫成虫发光器的发育和生物发光。干扰这两个关键基因的表达会导致成虫发光器发育不完整或不发光。此外，AlAbd-B 和 AlUnc-4 激活了 AlLuc1 基因的表达以及一些过氧化物酶跨膜转运蛋白的表达。四个过氧化物酶转运蛋白参与将荧光素酶转运到过氧化物体内。这项研究为了解萤火虫成虫发光器的发育和生物发光提供了重要的研究基础。希望组为本项研究提供ONT等基因组测序、基因组组装、Hi-C挂载、注释和比较基因组分析等服务。

雷氏萤（Aquatica leii）组装基因组大小为1.04G，杂合度3.2%，包含222条contig，其中scaffold 和 contig 的 N50 值分别为 125.64 Mb 和 10.81 Mb。此研究分析了染色体数目和核型（2n = 14 + XY），并对基因组进行 Hi-C 挂载，挂载出 8 条染色体，同时统计了基因组的GC 含量、重复密度、基因密度、转录因子密度、Homeobox 家族基因（图2D）。与胸窗萤（Pyrocoelia pectoralis）的高质量基因组（基因组大小760.4Mb，contig N50为3.04Mb，杂合度2%～3%）相比，基因组组装质量有了显著提升！

结合转录组数据，对雷氏萤（A. leii）进行基因组注释，共鉴定出16,472个基因。其中，14,874个基因（占90.30%）在至少一个公共数据库（Swissprot、NR、KEGG、GO和KOG）中进行了功能注释。为了推断 A. leii 的进化历史和系统发育关系，该研究使用了四个已发表的其他萤火虫基因组和六个鞘翅目昆虫基因组以及一个果蝇基因组作为外群，使用 OrthoMCL 进行了基因家族聚类分析。在这十二种物种中鉴定出了1,633个单拷贝同源基因用于构建系统发生树（图2E）。系统发生推断表明，A. leii和边褐端黑萤Abscondita terminalis是姐妹群，同属于熠萤亚科，根据 mcmctree 计算的分歧时间表明，A. leii在大约57.38百万年前从该亚科的其他成员的共同祖先中分离出来（图2E）。

图2 雷氏萤A. leii 基因组特征圈图。红色标记基因在后续实验中被验证功能。

该研究使用AnimalTFDB(v3.0) 数据库比较了所有的 A. leii 蛋白，并获得了相应的A. leii 转录因子家族。在 A. leii 基因组中鉴定出了 914 个转录因子。根据功能域特征，将转录因子超家族成员分为 45 个不同的类型。其中，Homeobox 转录因子类型是A. leii 中除“锌指”转录因子类型之外最常见的转录因子类型，并且Homeobox 基因家族中的大量基因编码了在动物胚胎发育中细胞分化和发育中起关键作用的DNA结合同源域。结合转录组数据来分析Homeobox基因的表达模式，发现在蛹化过程中，只有六种homeobox基因（AlAbd-B、AlAntp、AlUnc-4、AlShox2、AlRepo和AlAp2）持续上调（p <0.05），而其他基因下调或其调控从上调变为下调。运用基因敲除技术研究发现，AlAbd-B 和 AlUnc-4 的敲除导致了不发光和过氧化物酶体空腔，这两个基因可能是萤火虫成虫发光器发育所必需的关键调节因子（图3）。

图3. A. leii 中与发光器发育和发光相关的6个homeobox基因的功能验证

萤火虫成虫发光器发育和发光存在两个关键步骤：一个是荧光素酶基因的表达，另一个是荧光素酶被转运到发光器，即生物发光发生的细胞器。该研究假设干扰荧光素酶基因表达或荧光素酶运输导致过氧化物酶体空腔。为验证这一假设，该研究对在蛹期敲除 AlAbd-B 和 AlUnc-4 的 1 日龄雄萤的转录组与对照组（Gfp 注射）进行了比较。结果表明，在 dsAlAbd-B 和 dsAlUnc-4 敲除组中，AlLuc1 的表达显著降低（图3A）。转录组测序分析和实时荧光定量PCR验证表明：(1)AlAbd-B 和 AlUnc-4基因的干扰，导致 AlLuc1、AlPx11c.2、AlPex5 和 AlPxmp2 的表达水平显著降低；(2) AlAbd-B 基因的敲除，导致AlPex1、AlPex13、AlPex14 和 AlPex16 的表达水平显著降低；(3)有趣的是，AlAbd-B 基因的敲除导致AlUnc-4 的表达水平显著降低。在这些基因中，该研究选择了AlLuc1 和其同源基因 AlLuc2 以及七个过氧化物酶基因AlPx11c.2、AlPxmp2、AlPex5、AlPex13、AlPex14、AlPex16、和 AlPex1 进行详细的功能研究（图4）。

图4 AlAbd-B RNAi和AlUnc-4 RNAi表型与对照组相比转录组的差异基因表达分析

在AlLuc2敲除后，只有蛹的发光器发出荧光，表明成虫发光器的发育与 AlLuc2无关，因此该研究重点关注了 AlLuc1。dsAlAbd-B 和 dsAlUnc-4 组的转录组中，AlLuc1 的表达水平显著降低。通过 JASPAR 数据库分析，识别出每个转录因子的两个潜在 DNA 结合域。该研究假设 AlABD-B 和 AlUNC-4 与 AlLuc1 启动子相互作用并上调其活性，并进行了酵母单杂交 (Y1H)、电泳迁移率shift 实验（EMSA）、双荧光素酶报告基因检测、Western 蛋白印迹和免疫荧光 (IF) 检测来验证这一假设。最终揭示AlABD-B和AlUNC-4是发光器中AlLUC1表达所必需的（图5）。

图5 Alluc1的基因组位点（顶部）和包含七个外显子的基因结构（底部）

萤火虫的荧光素酶AlLUC1在过氧化物酶体中起作用，这表明AlLUC1需要某些过氧化物酶体运转蛋白才能进入过氧化物酶体。该研究进行了RNAi分析，以验证筛选出的过氧化物酶（AlPX11C.2、AlPXMP2、AlPEX5、AlPEX13、AlPEX14、AlPEX16 和 AlPEX1）是否参与了ALLUC1 的导入。结果表明，AlPEX13、AlPEX14、AlPEX5和AlPXMP2蛋白参与了A.leii 中AlLUC1进入过氧化物酶体的过程（图6）。

图6 参与AlLUC1转运至过氧化物酶体的pex基因的验证

总之，该研究揭示了两个关键的Homeobox转录因子调控萤火虫成虫发光器发育和生物发光的一系列新机制。AlABD-B 调控 AlUNC-4，它们相互作用。过氧化物酶 AlPex13 和 AlPex14 受到 AlABD-B 的调控。AlLuc1、AlPex5 和 AlPxmp2 同时受到 AlABD-B 和 AlUNC-4 的调控，但 AlABD-B 至关重要。AlUNC-4 提高了 AlABD-B 的转录活性，从而极大地激活下游基因的表达。AlPEX13 和 AlPEX14 相互作用，协助 AlPEX5 将 AlLUC1 运入过氧化物酶体。AlPXMP2 和 AlLUC1 相互作用，并参与将 AlLUC1 转运过氧化物酶体（图 7）

超大基因组研究集锦——植物篇

2023-10-25/0 评论/在 /通过 zu

上篇为大家带来了超大基因组动物的项目文章，本文主要为超大基因组植物项目文章。如需了解更多，请咨询当地科技顾问~

01. Reference genome assemblies reveal the origin and evolution of allohexaploid oat

目标物种：燕麦（Avena sativa）
发表时间：2022.08
发表期刊：Nature Genetics（IF=41.307）
合作单位：四川农业大学、白城市农业科学院、四川大学和中国科学院遗传与发育生物学研究所
测序策略：Nanopore Ultra-long、Illumina、Hi-C
基因组大小：10.76 Gb
基因组Contig N50：75.27Mb

燕麦作为重要的粮饲兼用型作物，由于其基因组为异源六倍体组成，基因组大（~11G）、重复序列含量高（~87%）且亚基因组间存在大量的交换，导致其基因组组装难度较大。研究者首先选择来自裸燕麦起源中心的传统地方品种“三分三”为材料，基于1028Gb的三代超长序列，并使用650 Gb的二代数据进行校正，组装了10.76 Gb的燕麦基因组，基于1296 Gb的Hi-C数据将99.06%的基因组序列挂载到燕麦21条染色体上。基因组组装从Contig N50（75.27Mb），LAI（18.34）、BUSCO（99.44%）以及与来自六倍体燕麦一致性图谱标记的共线性等多方面进行质量评估，均显示了所组装基因组的高质量。随后研究者进行了主要禾谷类作物的系统进化基因组学分析，通过与以水稻为代表的祖先核型和普通小麦的三个亚基因组进行比较，明确燕麦不同亚基因组的核型进化历史并发现在燕麦中存在大量染色体重排。研究者为了研究燕麦多倍化过程中发生的染色体结构变异，对二倍体、四倍体和六倍体物种进行了共线性分析。结果表明，在燕麦多倍化过程中发生了多次大的易位和倒位事件，并通过荧光原位杂交证实了这些染色体结构变异。希望组参与组装注释以及部分分析工作。

论文链接：https://doi.org/10.1038/s41588-022-01127-7

02. The Cycas genome and the early evolution of seed plants

目标物种：苏铁（Cycas）
发表时间：2022.04
发表期刊：Nature Plants（IF=17.352）
合作单位：深圳华大生命科学研究院、深圳市仙湖植物园、中国科学院昆明植物研究所、兰州大学、中国环境科学研究院
测序策略：Nanopore、MGI-SEQ、Hi-C
基因组大小：10.5 Gb
基因组Contig N50：12Mb

该研究选取苏铁类的基部类群，完成基因组测序和组装。基于Nanopore长读测序、MGI-SEQ测序及Hi-C测序技术，基因组组装大小为10.5 Gb，Contig N50为12Mb，结合Hi-C数据，挂载到11条染色体上。共注释得到32，353个蛋白编码基因，BUSCO评估完整度为91.6%，是目前裸子植物中最高质量的基因组图谱。研究者采用对重复基因同义替代分析和系统发育基因组学方法，并使用基因组内共线性区域进行比较验证，发现现存裸子植物的最近共同祖先可能经历了一次古老的全基因组复制事件。最显著扩张的种子生理相关家族是cupin蛋白家族。研究者通过对源于四川攀枝花苏铁国家级保护区62株雌雄苏铁群体测序，表达差异分析，和雄性Y染色体的组装，找到雌雄表达差异最大的一个基因来自雄株的Y染色体，该基因编码一个MADS-box转录因子，推测其调控雌雄苏铁的性器官发育，该转录因子的同源基因也仅能在雄株基因组中检测到，说明了该性别决定机制在苏铁类植物中的保守性。早期维管植物的精子都是有鞭毛，可以游动的。随着演化，鞭毛丢失。在现生种子植物中仅苏铁和银杏保留精子具鞭毛的特征，进一步证实了苏铁在种子植物演化中古老的地位。希望组参与了本研究项目中攀枝花苏铁的测序、组装及初步注释服务。

论文链接：https://doi.org/10.1038/s41477-022-01129-7

03. The Larix kaempferi genome reveals new insights into wood properties

目标物种：落叶松（Larix kaempferi）
发表时间：2022.07
发表期刊：Journal of Integrative Plant Biology（IF=9.106）
合作单位：中国林业科学院、国家林业和草原管理局林木栽培重点实验室
测序策略：PacBio CLR、Illumina、BioNano
基因组大小：10.97 Gb
基因组Contig N50：1.09Mb

研究者基于1.30Tb三代测序和0.52Tb二代测序数据，组装完成了大小为10.97Gb的落叶松基因组，Contig N50为1.09Mb，注释了45828个蛋白质编码基因，发现落叶松基因组66.8%由重复序列组成，其中LTR-RT占69.86%。基因组进化分析表明，落叶松与花旗松物种分化大约发生在65.9个百万年前，1139个基因家族在物种分化后发生扩张，而581个基因家族发生收缩。团队从31年生的落叶松全同胞家系中筛选出两组木质素含量显著差异的群体，基于群体转录组学，发现落叶松中的木质素含量差异主要由木质素单体聚合过程决定，且六个基因（LkCOMT7、LkCOMT8、LkLAC23、LkLAC102、LkPRX148和LkPRX166）的表达量与木质素含量呈显著正相关。希望组为该研究合作单位之一，提供超长测序服务并参与组装、注释及部分后续分析工作，李净净及全伟鹏等参与该项研究工作。

论文链接：https://doi.org/10.1111/jipb.13265

希望组项目文章—药用植物研究集锦

2023-10-25/0 评论/在 /通过 zu

药用植物一直以来被广泛应用于人类医疗保健领域，并为许多疾病的治疗提供了有效的方案。药用植物所含的天然产物具有丰富的生物活性成分，这些成分可以影响细胞代谢、调节免疫反应等。随着高通量测序技术的快速发展，药用植物测序不仅可以帮助科学家们深入了解药用植物的遗传多样性和进化历史，揭示药用植物所含活性成分的合成途径和调控机制，同时对研究药用植物的育种栽培、代谢产物、功能调控和药理属性提供大量生物信息和遗传信息数据。这一研究领域不仅有助于推动现代医药领域的创新发展，还能为药用植物的可持续利用和资源保护提供科学依据。

希望组作为三代测序大数据技术和应用的开拓者，早于2012年将三代测序技术应用于药用植物研究中，为了解药用植物的基因组特征和生物活性成分提供了新的视角。希望组10年+的三代测序经验，能够为进一步深入开展药用植物测序研究的专家学者们提供高质量的测序、组装及生信分析服务，为推动现代医药的发展贡献属于希望组的力量。

01. 阳春砂和海南砂中挥发性萜类差异的遗传基础
Comparing genomes of Fructus Amomi-producing species reveals genetic basis of volatile terpenoid divergence

海南砂(Wurfbainia longiligularis)和阳春砂(Wurfbainia villosa)都富含挥发性萜类化合物，是用于治疗肠胃疾病的砂仁的两种主要植物来源。代谢组学分析表明，与二磷酸硼酯(BPP)相关的萜类化合物在阳春砂的种子中含量较高，而在海南砂的组织中分布较广。为了探索挥发性萜类化合物差异背后的遗传机制，该研究组装了高质量的海南砂染色体水平基因组(2.29 Gb，contig N50 为 80.39 Mb)。对17个萜烯合成酶(WlTPSs)的功能分析发现，WlBPPS与具有二磷酸硼酯合成酶(BPPS)活性的WlTPS 24/26/28一起，促成了BPP相关萜类化合物在海南砂中更广泛的组织分布。此外，转基因烟草(Nicotiana tabacum)的研究表明，GCN4-motif元件正向调节WvBPPS的种子表达，从而促进 BPP 相关萜类化合物在阳春砂种子中的富集。对来自16个科的29种单子叶植物中候选TPS的系统鉴定和分析表明，姜科植物中TPS-a和TPS-b亚家族基因的大量扩张可能驱动了挥发性萜类化合物的多样性和产量的增加。BPPS基因的进化分析和功能鉴定表明，BPP相关的萜类化合物可能仅分布在单子叶植物的姜科植物中。本研究为选育和改良具有药食两用价值的砂仁提供了宝贵的基因组资源，并为姜科植物萜类化合物生物合成的进化提供了参考。希望组为本研究提供了基因组、转录组和Hi-C测序服务。

原文链接：https://doi.org/10.1093/plphys/kiad400

02. 楝科基因组为木材发育和柠檬苦素生物合成提供了见解
Meliaceae genomes provide insights into wood development and limonoids biosynthesis

楝科是一个有价值的植物家族，它有优质的木材和许多具有药理和生物活性的柠檬苦素。尽管楝科物种的一些基因组已被报道，但关于其独特的家族特征，即木材品质和天然产物，许多问题尚未得到解答。该研究中提供了[苦]楝树的全基因组序列(237.16 Mb，contig N50为8.07 Mb)，以及印度苦楝树的改良基因组序列(223.66 Mb，contig N50为8.91 Mb)。此外，对基因组脱脂数据、转录组和其他已发表的基因组进行综合分析，以确定产生优质木材和有价值的柠檬苦素的基因和蛋白质。叶绿体基因组、单拷贝基因家族和单核苷酸多态性的系统发育分析表明，楝科应归为2个亚家族：洋春亚科(Cedreloideae) 和楝亚科(Melioideae)。虽然楝科物种没有经历额外的全基因组复制事件，但与印楝A. indica 和苦楝M. azedarach 相比，洋春亚科(Cedreloideae)木本植物香椿( Toona sinensis )的次生壁生物合成基因显著扩张，尤其是下游转录因子和纤维素/半纤维素生物合成相关基因。此外，扩大的特殊氧化鲨烯环化酶目录可以帮助无患子目骨架多样化，调节萜类链延长、环化和修饰的聚集基因将支持它们在柠檬苦素生物合成中的作用。萜类合成酶、O-甲基转移酶和细胞色素P450家族的扩张，主要来自串联重复，负责物种间不同的柠檬苦素类。这些结果有利于进一步研究木材发育和柠檬苦素生物合成。希望组为本研究提供测序、组装和注释服务。

原文链接：https://doi.org/10.1111/pbi.13973

03. 盾叶薯蓣的基因组揭示了有重要药用价值的薯蓣皂苷的生物合成、起源和进化
The genome of Dioscorea zingiberensis sheds light on the biosynthesis, origin and evolution of the medicinally important diosgenin saponins

从姜叶薯蓣等薯蓣属植物中分离得到的薯蓣皂苷元具有广泛的药理活性。薯蓣皂苷元是薯蓣皂苷素的苷元，是生产甾体类药物的重要原料。然而，植物是如何产生薯蓣皂苷素的，以及薯蓣皂苷素生物合成途径的起源和进化仍然是一个谜。该研究报道了一个高质量的629Mb的盾叶薯蓣基因组(2n = 20)，contig N50为 1.2Mb，杂合率为1.56%，固定在10条染色体上，包含30322个蛋白质编码基因。我们发现，薯蓣皂苷素在叶片(“源”)中合成，然后转化为薯蓣皂苷，最后运输到根状茎(“库”)储存在植物中。通过对薯蓣属植物中薯蓣皂苷素的分布和进化模式的分析，我们发现含薯蓣皂苷素可能是薯蓣的一种祖先特征，并被选择性保留。比较基因组分析结果表明，串联复制和全基因组复制事件为姜叶薯蓣皂苷素生物合成途径提供了关键的进化资源。此外，通过对13种薯蓣属植物的转录组和代谢产物的比较分析，表明途径基因的特定基因表达模式促进了薯蓣属植物薯蓣皂苷元生物合成途径的差异进化。本研究为进一步了解薯蓣皂苷素等植物特化代谢产物的生物合成、进化和利用提供了重要的见解和宝贵的资源。希望组为本研究提供测序及NextDenovo软件组装服务，并参与了基因组组装、注释及后续分析工作。希望组计算中心总监孙宗毅为共同作者。

原文链接：https://doi.org/10.1093/hr/uhac165

04. 染色体水平和单倍型分辨的基因组提供了对广藿香四倍体杂交起源的见解
Chromosome-level and haplotype-resolved genome provides insight into the tetraploid hybrid origin of patchouli

广藿香为唇形科唇形科植物，是一种重要的芳香植物，在医药、香料等方面有着广泛的应用。该研究报道了广藿香基因组(contig N50 = 7.97 Mb)的一个1.94 Gb的染色体组装。基因注释表明倍半萜生物合成基因的串联重复可能是广藿香生物活性成分生物合成的主要贡献者。研究者进一步将基因组分为两个明显不同的亚基因组(A和B)，并鉴定了它们之间发生的染色体替换事件。进一步的研究表明，A亚基因组中普遍存在的LTR-RTs的爆发导致了两个亚基因组之间的分歧。但未检测到明显的亚基因组优势。最后，研究者追踪了广藿香的进化场景，包括全基因组四倍化、亚基因组分化、杂交和染色体替换，这些都是决定广藿香基因组复杂程度的关键力量。该研究揭示了广藿香的进化历史，为广藿香的基础研究和优异种质的开发提供了前所未有的基因组资源。希望组为本研究提供测序服务。

原文链接：https://doi.org/10.1038/s41467-022-31121-w

揭开虾蟹类基因组之谜，突破复杂组装难题！

2023-10-25/0 评论/在 /通过 zu

虾、蟹类作为重要养殖经济物种，养殖产量约占中国水产养殖总量的约60%以上，可谓是水产界的半壁江山。然而，由于缺乏高质量的基因组信息，虾、蟹类的种质资源创新利用一直受到限制，分子育种进展缓慢。通过深入研究虾蟹类基因组，我们可以更好地理解其生长发育、抗病性以及适应环境的机制，从而为育种和养殖管理提供科学依据。加强对虾蟹类基因组的研究和解析对于推动水产养殖行业的可持续发展具有重要意义。

虾蟹类是世界上公认的高复杂基因组，原因在于其基因组杂合度高、重复序列多、染色体数目多，对基因组组装造成了较大的困难。其次，虾蟹组织样本中蛋白含量较高，在前端实验提取DNA时容易堵孔、污染DNA造成提取困难，因此高质量的虾蟹类基因组DNA获取极为困难。

希望组深耕长读长测序领域十数年，通过结合多平台的测序数据，将SMRT、Nanopore、NGS、Hi-C/Pore-C、Bionano等多种形式的测序数据通过生物信息学技术有机结合，完成了多个虾蟹类基因组组装的合作项目，发表了多篇高分论文。希望组愿与您一起破解虾蟹基因组组装难题，推动水生生物基因组学的蓬勃发展，为水产领域科研增光添彩！

希望组在虾蟹类基因组研究具有极大优势：

01 PacBio测序、NextDenovo组装助力破译迄今最大动物基因组—48Gb南极磷虾参考序列

摘要
该研究完成了迄今为止最大动物基因组参考序列——南极磷虾基因组组装，并揭示了南极磷虾适应极端环境和群体历史演化的分子基础。研究者利用PacBio、Hi-C结合短读长对南极磷虾进行测序，使用NextDenovo v2.30 组装了48.01Gb的基因组。研究发现，南极磷虾重复序列含量高达92.45%，这源于南极磷虾基因组重复序列的两次爆发式扩张。在该研究中，研究人员对极昼极夜环境的适应性进行了研究。结果发现，在磷虾基因组里鉴定得到的25个显著扩张的基因家族中，分别有6个基因家族与磷虾蜕壳及能量代谢相关。这表明，蜕壳和能量代谢相关基因的改变是南极磷虾对南大洋不稳定食物供应的适应。另外，研究团队还发现，虽然分布在不同的区域，但南极磷虾的遗传序列组成没有明显区别，这就意味着不同地域群体之间没有实质性差异，并且气候变化影响着南极磷虾种群的规模。武汉希望组为本研究提供基因组组装服务，武汉希望组首席生信技术官胡江为共同作者。

技术亮点
这项研究的主要技术亮点是组装有史以来最大的动物基因组测序。基因组中过度丰富的转座子重复序列加剧了这一技术挑战，这成为该研究的主要生物学发现之一。研究者仔细分析了导致巨大基因组大小的重复序列，提供了由重复元件活性引起的基因组大小扩张的一个最佳例子。组装后的基因组使得能够全面分析整个基因组中涉及光周期的基因。对南极高度变化的光照条件的生理反应是磷虾生物学的核心，研究者所组装的基因组资源对这种适应能力进行了极大的详细研究。

参考文献
Shao C, Sun S, Liu K, et al. The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights. Cell. 2023 Mar 16;186(6):1279-1294.e19. doi: 10.1016/j.cell.2023.02.005. Epub 2023 Mar 2. PMID: 36868220.

02 中华绒螯蟹“断臂再生”

摘要
中华绒螯蟹(Eriocheir sinensis)，俗称大闸蟹，是我国高经济价值的水产甲壳动物，全国28个省市区养殖，产业规模大，文化底蕴深厚。由于中华绒螯蟹染色体数目多（2n=146），基因组重复序列高，组装困难，且不同水系群体表现出较为明显的环境适应性和生物学特征。同时，中华绒螯蟹断肢现象在生产上较为普遍，影响了其产业应用性和经济价值。本研究利用第三代测序技术，并结合BioNano光学图谱和Hi-C高通量染色体构象捕获技术，对长江水系中华绒螯蟹的全基因组测序和组装，获得染色体水平的精细基因组图谱。该研究还发现中华绒螯蟹断肢再生早期受表观遗传学的调控，其中SMYDA基因家族只存在于节肢动物，在中华绒螯蟹断肢早期下调表达，而在肢芽生长时期表达回复至未断肢时的水平。进一步分析发现，该基因家族还在中华绒螯蟹从大眼幼体到仔蟹的变态过程中整体差异表达，表明节肢动物特异的SMYDA基因家族在中华绒螯蟹涉及明显形态发生，如变态发育、再生的生物学过程中发挥重要的表观修饰作用。该研究为开展中华绒螯蟹的分子育种提供了重要的基因组资源和平台，为提升养殖生产与管理水平提供了有益指导。武汉希望组提供三代测序组装注释，Hi-C挂载和Bionano光学图谱服务。

参考文献
Wang J, Chen X, Hou X, et al. “Omics” data unveil early molecular response underlying limb regeneration in the Chinese mitten crab, Eriocheir sinensis. Sci Adv. 2022 Sep 16;8(37):eabl4642. doi: 10.1126/sciadv.abl4642. Epub 2022 Sep 16. PMID: 36112682; PMCID: PMC9481118.

03 重要商品蟹——三疣梭子蟹

摘要
三疣梭子蟹(Portunus trituberculatus)是中国重要的商业蟹种，广泛分布于亚太国家沿海水域。研究者结合MGI、Nanopore和Hi-C数据，组装了三疣梭子蟹的第一个染色体水平参考基因组。该基因组大小为1.00 Gb, Contig N50为4.12 Mb，BUSCO达到94.7%，重复序列为54.52%，共有16796个蛋白质编码基因被注释。研究者通过Hi-C数据成功将基因组挂载到50条染色体上，Scaffold N50长度为21.80 Mb。该染色体水平的基因组组装不仅可以促进三疣梭子蟹基本发育和进化的研究，还可以为三疣梭子蟹的繁殖提供重要的资源。武汉希望组提供Nanopore三代测序服务。

参考文献
Tang B, Zhang D, Li H, et al. Chromosome-level genome assembly reveals the unique genome evolution of the swimming crab (Portunus trituberculatus). Gigascience. 2020 Jan 1;9(1):giz161. doi: 10.1093/gigascience/giz161. PMID: 31904811; PMCID: PMC6944217.31904811; PMCID: PMC6944217.

04 红螯螯虾基因组

摘要
研究人员使用108X的PacBio CLR数据、58X的PE100 DNA二代测序数据组装了一个红螯螯虾染色体级基因组，大小为5.26 Gb，Contig N50为144.33 Kb。使用105X的Hi-C数据辅助挂载，将近90%的序列被锚定到100条染色体上，这是迄今报道的染色体数目最多的高质量甲壳动物基因组。该基因组含有78.69%的重复序列和20,460个蛋白编码基因，其中82.40%具有功能注释。这个染色体级基因组将成为其他复杂基因组的组装和甲壳动物进化研究的有价值的参考。

参考文献
Chen H, Zhang R, Liu F, et al. The chromosome-level genome of Cherax quadricarinatus. Sci Data. 2023 Apr 17;10(1):215. doi: 10.1038/s41597-023-02124-z. Erratum in: Sci Data. 2023 May 23;10(1):313. PMID: 37062798; PMCID: PMC10106460.

05 青虾全基因组图谱组装

摘要
日本沼虾，俗名青虾，是我国重要的经济虾类。雄性对虾比雌性对虾生长更快，体积更大，因此培养全雄性种群是实践中水育种繁育的重要目标，为此揭示日本沼虾的性别分化和生殖发育机制对实现遗传改良具有重要的支撑意义。该研究采用65.2X的Illumina数据、90X的PacBio数据和195X的Hi-C数据进行测序组装。通过survey分析，估计日本沼虾的基因组大小约为4.6 Gb。组装得到的日本沼虾染色体水平的基因组大小为4.5 Gb，Contig N50为231.2 Kb，基因组的完整度为92.6%。共构建了49条染色体，使用Hi-C测序数据辅助挂载至染色体水平，有94.7%的基因组数据被挂载到染色体上，scaffold N50长度达86.8 Mb。全基因组共预测到44,086个蛋白编码基因，其中39,317个基因被功能注释。此外，研究者还采集了生殖期和非生殖期的日本沼虾雄性个体样本，进行转录组测序和分析。

参考文献
Jin S, Bian C, Jiang S, et al. A chromosome-level genome assembly of the oriental river prawn, Macrobrachium nipponense. Gigascience. 2021 Jan 18;10(1):giaa160. doi: 10.1093/gigascience/giaa160. PMID: 33459341; PMCID: PMC7812440.

06 克氏原螯虾染色体水平参考基因组

摘要
克氏原螯虾(Procambarus clarkii)（俗称小龙虾）是一种重要的生态和经济甲壳类动物。研究者基于146.93X PacBio数据、112.95X Illumina测序数据和142.23X Hi-C进行denovo组装。研究者得到的染色体水平小龙虾基因组，基因组大小为2.75 Gb，Contig N50为216.75 kb。共构建了94条单倍型染色体，使用Hi-C数据进行辅助挂载，91.22%的基因组数据被挂载到染色体上，scaffold N50长度为17.01Mb。在克氏原螯虾基因组中鉴定出超过2.26 Gb的重复序列，占总基因组序列的82.42%。在这些重复序列中，转座因子（TEs）占多数（约79.61%）。

参考文献
Xu Z, Gao T, Xu Y, et al. A chromosome-level reference genome of red swamp crayfish Procambarus clarkii provides insights into the gene families regarding growth or development in crustaceans. Genomics. 2021 Sep;113(5):3274-3284. doi: 10.1016/j.ygeno.2021.07.017. Epub 2021 Jul 22. PMID: 34303807.

虾蟹类基因组的复杂性无疑给科学家们带来了许多挑战，但是希望组正努力突破这些难题，致力于为大家提供高质量、可靠的虾蟹类基因组组装解决方案，为科学研究和海洋生物保护做出贡献。

最新虾蟹类物种组装结果展示

超大基因组研究集锦——动物篇

2023-10-25/0 评论/在 /通过 zu

“Why are some genomes so big and others very small?”这是Science杂志发布的125个前沿科学问题之一。物种的基因组大小不尽相同，造成这一现象的原因十分复杂。研究表明，基因组大小的差异不仅与生物体的复杂性有关，还与其生活史特征、环境适应性、基因家族的扩增和基因重组等因素密切相关，如此复杂重要的问题吸引了无数研究者深入探索这一领域。

相较于易于研究的小型基因组生物，具有超大型基因组的生物种类繁多、保守的遗传变异丰富，这为比较基因组学研究提供了极好的材料。然而，由于超大基因组中高重复序列的存在以及广阔的基因间区，传统二代测序技术难以为这些生物构建Gap-free级别的的参考基因组。

近年，单分子实时测序等三代长读长技术的出现为超大基因组组装提供了转机。三代测序以其长读长的优势（ONT Ultra-long测序技术N50可达100-150Kb），破解了重复区组装中的难题，使得研究人员能够通过三代数据进行染色体水平的整体组装。此外，三代测序超长读长的reads能够贯穿基因组中的基因间区。这使得非编码RNA、调控元件以及结构变异都能被准确检测。因此，通过单分子实时测序技术，研究人员能够更好地探究超大基因组的复杂性和结构，揭示其中的重复序列、基因间区和功能元件。这为研究人员深入理解基因组大小差异的形成机制、进化过程以及生物体的适应性提供了重要的工具和方法。

希望组着眼于三代测序技术应用于超大基因组研究中所带来的革新与价值，为有志于研究超大基因组物种的研究人员提供专业的测序、组装、分析服务。希望组以其优质的测序服务质量和遥遥领先的基因组组装技术受到了各位专家老师的认可，非常荣幸能够参与多个超大基因组的研究之中，为生命科学领域做出了独属于希望组的贡献。

下面是希望组合作的几篇超大基因组动物篇的优秀文章：

01. The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights
目标物种：南极磷虾（Antarctic krill）
发表时间：2023.05
发表期刊：Cell（IF=64.5）
合作单位：中国水产科学研究院黄海水产研究所、德国阿尔弗雷德·魏格纳研究所、澳大利亚联邦科学与工业研究组织
测序策略：PacBio HiFi、Illumina、Hi-C
基因组大小：48.01 Gb
基因组Contig N50：178.99Kb

该研究完成了迄今为止最大动物基因组参考序列——南极磷虾基因组组装，并揭示了南极磷虾适应极端环境和群体历史演化的分子基础。研究者利用PacBio、Hi-C结合短读长对南极磷虾进行测序，使用NextDenovo v2.30 组装了48.01Gb的基因组。研究发现，南极磷虾重复序列含量高达92.45%，这源于南极磷虾基因组重复序列的两次爆发式扩张。在该研究中，研究人员对其抗饿和对极昼极夜环境的适应性进行了研究。结果发现，在磷虾基因组里鉴定得到的25个显著扩张的基因家族中，分别有6个基因家族与磷虾蜕壳及能量代谢相关。这表明，蜕壳和能量代谢相关基因的改变是南极磷虾对南大洋不稳定食物供应的适应。另外，研究团队还发现，虽然分布在不同的区域，但南极磷虾的遗传序列组成没有明显区别，这就意味着不同地域群体之间没有实质性差异，并且气候变化影响着南极磷虾种群的规模。武汉希望组为本研究提供基因组组装服务，武汉希望组首席生信技术官胡江为共同作者。

论文链接：https://doi.org/10.1016/j.cell.2023.02.005

02. African lungfish genome sheds light on the vertebrate water-to-land transition
目标物种：非洲肺鱼（African lungfish）
发表时间：2021.03
发表期刊：Cell（IF=64.5）
合作单位：西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室
测序策略：Nanopore Ultra-long、BioNano、Hi-C
基因组大小：40.05 Gb
基因组Contig N50：1.60 Mb

研究团队利用Nanopore Ultra-long、BioNano和Hi-C测序，采用NextDenovo + wtdbg2 + NextPolish策略组装，最终获得约40.05 Gb的基因组，Contig N50达到1.60 Mb；结合BioNano和Hi-C数据对基因组构建Scaffold和辅助染色体挂载，最终得到17条染色体，Scaffold N50 2.81 Gb，染色体挂载率达到99%以上。BUSCO评估显示该基因组包含了95%以上的脊椎动物完整基因。非洲肺鱼基因组如此巨大主要是由TEs的扩张引起的，非洲肺鱼基因组的61.7%（24.7 Gb）被注释为重复序列。研究团队通过分析Kimura distance估算了TE历史扩张活动，结果表明TEs，特别是反转录转座子，在过去7000万年中一直活跃。基于基因组组装和注释结果，通过对8种脊椎动物的5149个单拷贝基因进行系统发育重建，证实非洲肺鱼是与四足动物最近的姐妹谱系，非洲肺鱼和四足动物的分化时间可追溯到泥盆纪伊始，估算为419 MA。希望组为研究提供基因组测序和NextDenovo、NextPolish软件及组装技术支持，希望组首席生信技术官胡江参与本研究。

论文链接：https://doi.org/10.1016/j.cell.2021.01.047

03. Giant lungfish genome elucidates the conquest of land by vertebrates
目标物种：澳洲肺鱼（Giant lungfish）
发表时间：2021.01
发表期刊：Nature (IF=64.8)
合作单位：德国康斯坦茨大学生物系、德国维尔茨堡大学生物中心
测序策略：Nanopore 1D 、Ultra-long、Hi-C
基因组大小：37 Gb
基因组Contig N50：1.86Mb

研究者利用Nanopore 1D 和Ultra-long技术对澳洲肺鱼进行了全基因组测序组装，最终组装出37Gb，Contig N50达1.86Mb的澳洲肺鱼基因组。之后利用271Gb Hi-C 数据，对基因组进行染色体级别组装，最终得到Scaffold N50 1.75Gb，组装出了17条大染色体和10条小染色体。BUSCO评估组装的基因组包含67%的脊椎动物完整基因。肺鱼是属于肉鳍鱼类中的一类，肉鳍鱼的叶状鳍在进化中最终形成了适于陆地爬行的足趾。通过比较基因组分析，研究者对保守的四足动物肢体增强元件的分析表明，有31种起源于肉鳍类。与sall1相关的hs72增强子驱动掌部区域基因表达。sall1在肺鱼胚胎中高表达，并呈现类似于四足动物的表达模式，但在斑马鱼的鳍发育过程中不表达。这表明该基因功能和肺鱼的肉鳍类叶状鳍发育相关。hoxc基因在双鳍和四肢中的表达仅在与甲床相关的哺乳动物中报道过，而RNA-seq分析发现在肺鱼幼体鳍部hoxc基因有表达。研究者还发现hoxc13在蝾螈肢中表达，在辐鳍鱼的胸鳍中不表达，转录本定位显示hoxc13也在肺鱼胚胎远端鳍表达。这表明在四足动物中，该基因结构域可能调控肢体元素生成，如指甲、蹄和爪。hoxc与sall1一起，证明了早期肉鳍类起源的四肢样基因表达促进了鳍肢过渡。希望组为本研究提供Nanopore Ultra-long测序服务。

论文链接：https://doi.org/10.1038/s41586-021-03198-8

项目文章 | 首个绞股蓝T2T基因组，解析达玛烷型三萜皂苷生物合成机制

项目文章 | 基因组所解析首个康乃馨T2T基因组

项目文章 | 武大朱玉贤院士团队王坤教授破解洪山菜薹颜色和美味的基因密码

项目文章 | 希望组助力青石斑鱼基因组染色体水平组装和注释

项目文章 | 重磅NG！中科院昆明植物所李德铢研究员团队揭示竹类植物生活史转变和物种多样化遗传机制

项目文章 | NC！华中农业大学付新华教授团队揭示萤火虫发光之谜

超大基因组研究集锦——植物篇

希望组项目文章—药用植物研究集锦

揭开虾蟹类基因组之谜，突破复杂组装难题！

超大基因组研究集锦——动物篇

联系我们

关于我们

官方微信公众号