第4页 – GrandOmics|希望组

项目文章 | 基因组所解析首个康乃馨T2T基因组

2024-05-11/0 评论/在科研动态 /通过 zu

康乃馨（Dianthus caryophyllus）属石竹科石竹属多年生植物。因其花色绚丽，花型独特，瓶插寿命长，深受世界各地人民的喜爱，被称作世界‘四大切花’之一，具有极高的观赏价值和经济价值。实践过程中发现，高质量的基因组是分子靶向育种的重要基石，目前已报道的康乃馨基因组仍存在大量的间隙（gap）和组装错误，在一定程度上影响了后续基因功能及相关研究。

2024年1月，Horticulture Research （IF=8.7）杂志在线发表了由中国农业科学院深圳农业基因组研究所（岭南现代农业科学与技术广东省实验室深圳分中心），莫道克大学和佛山鲲鹏现代农业研究院等单位联合完成的研究论文，题为“The haplotype-resolved telomere-to-telomere carnation (Dianthus caryophyllus) genome reveal the correlation between genome architecture and gene expression”。该研究对呈现白色花瓣的康乃馨（D. caryophyllus ‘Baltico’）进行了多平台高深度测序和“端粒至端粒”级别的高质量组装，助力康乃馨分子育种。

研究团队综合利用Pacbio HiFi（Sequel II平台）、ONT ultra-long和Hi-C等测序技术，成功组装出两个单倍体hap1和hap2的端粒到端粒（T2T）康乃馨基因组，其基因组大小分别为564.5Mb、568.3Mb，N50的分别为37.6Mb、38Mb，二代数据的比对率、LTR组装指数（LAI>=23）和BUSCO值（97%以上）等评估均支持了该基因组组装的高连续性和完整性。该端粒到端粒基因组首次为康乃馨的端粒和着丝粒区域的分析提供了信息，揭示了康乃馨中可能具有较为特殊的着丝粒结构特征，大部分的着丝粒区域无法通过鉴定HOR（high order repeat）区域进行确认。

图一端粒到端粒康乃馨基因组（A）及其通过HOR区域鉴定的潜在的着丝粒位置（B）

基于高质量组装的端粒到端粒基因组，利用根、叶、花三种组织的转录组数据分析了基因组结构特征与基因表达和等位基因差异表达（ASE）之间的关联。结果发现基因、编码区（CDS）和内含子的长度，外显子数量和转座子的插入与否，都与基因的表达相关，并且转座子的插入在表达调控网络的总体水平上呈现抑制基因表达的作用。该成果提供了更加完整的康乃馨基因组及基因资源，为推动康乃馨分子育种奠定坚实的研究基础。

图二探究不同基因组结构特征与基因表达之间的关联度

自主创新丨NextDenovo:一种高效且精确的长读长纠错与组装工具

2024-05-11/0 评论/在新闻动态 /通过 zu

ONT平台的测序可产生>100 Kb的超长reads用于填充基因组组装中串联或高度同源的多拷贝重复区域，但其同时伴随着准确度不高的问题。使用ONT数据组装基因组，有两种常使用策略即“先矫正后组装”(CTA）和“先组装后矫正”(ATC)，对于大型植物基因组在组装重复序列时，基于CTA策略通常能产生更准确和连续的组装。对此，希望组自主研发基于ONT数据进行高效纠错和CTA组装的NextDenovo 软件，用于组装出一个完整、准确的基因组。NextDenovo 软件历经多年打磨以及在动植物基因组组装中的成功应用，于2024年4月26日在《Genome Biology》发表题为《NextDenovo：an efficient error correction and accurate assembly tool for noisy long reads》的文章。

NextDenovo 包含五个主要步骤：1、对原始reads进行成对重叠；2、过滤重叠结果避免错误配对以影响纠错的准确性；3、基于过滤后的重叠结果进行纠错；4、需要两步迭代成对矫正reads重叠；5、使用重叠结果构建一个组装图，然后进行图形清理并输出结果。

图1. NextDenovo 组装流程图

在纠错速度方面，NextDenovo与 Consent、Canu 和 Necat 相比，在模拟数据上分别快 3.00 倍、7.44 倍和 1.13 倍；在真实数据上则分别快 9.51 倍、69.25 倍和 1.63 倍。

表1. ONT reads纠错统计

将NextDenovo软件与其他纠错、组装软件在4个非人类基因组（果蝇、拟南芥、水稻、玉米）和35个人类基因组的组装方面进行了比较，结果显示NextDenovo可快速、高效地对ONT数据进行纠错并产生高准确度的基因组组装，特别是对于含有大量重复序列的基因组。

图2. 35个人类基因组的De novo组装

NextDenovo 已成功多次用于大基因组组装，例如约 10.5 Gb 的苏铁(Cycas panzhihuaensis)基因组组装（contig N50 = 12 Mb）、约 10.76 Gb 的六倍体燕麦基因组组装（contig N50 = 75.27 Mb）、约 40 Gb 的非洲肺鱼基因组组装（contig N50 = 1.60 Mb）和约 48 Gb 的南极磷虾基因组组装（contig N50 = 178.99 kb）。

通过使用 ONT超长reads，NextDenovo 可以产生部分或几乎达到染色体水平的组装。在约 4.59 Gb 罂粟基因组中，NextDenovo 使用约 19X ONT超长reads和约 86X ONT常规reads组装了 contig N50 为 65.57 Mb的基因组，最长长度为 178.776 Mb ；类似地，对于 3.69 Gb 的西瓜基因组，NextDenovo 使用约 57X ONT超长reads，组装出11 条最长 contig 表示 11 条染色体；在约 10.76 Gb 的六倍体燕麦基因组中，NextDenovo 使用约 100X ONT超长reads 组装了contig N50 为 75.27 Mb，最长长度为 313.87 Mb的基因组。

总的来说，NextDenovo 是一种针对长读长的高效纠错和组装工具，它可以快速提供高度准确的纠错reads，并从这些reads中产生准确的组装。特别是当使用 ONT 的超长reads进行组装时，NextDenovo 可以生成部分或接近染色体级的组装。ONT测序具有低成本、高通量、周期快的特点，因此NextDenovo 还是一种用于群体规模的ONT长读长测序数据的优秀组装工具。

希望组一直致力于自主创新、开发优质软件以便为客户交付更优质的高质量数据用于后续的科学研究，以助力各位专家学者在基因组学领域取得更多的突破和进展！除NextDenovo外，希望组自研软件NextPolish可高效矫正三代(Nanopore 、Pacbio)下机数据组装得到基因组的单碱基错误，进一步提高单碱基准确性。该工具采用 K-mer 得分链和 K-mer 计数算法，在运行速度、校正精度及消耗资源等方面均优于同类软件，NextPolish 目前已在《Bioinformatics》期刊正式发表《NextPolish: a fast and efficient genome polishing tool for long-read assembly》。

项目文章 | 武大朱玉贤院士团队王坤教授破解洪山菜薹颜色和美味的基因密码

2024-05-11/0 评论/在科研动态 /通过 zu

不结球白菜(Brassica campestris L. ssp. chinensis Makino)，又称小白菜、小油菜，原产我国，生长周期短、适应性广、产量高，在我国中部及以南地区周年栽培种植，占春、秋、冬菜播种面积的30％～50％，是全年播种面积最大的蔬菜之一，在我国的蔬菜周年供应中有着重要的地位。不结球白菜是人们生活中不可缺少的一种重要蔬菜，味道鲜美可口，营养丰富，百吃不厌，为广大群众所喜爱。其以柔嫩的莲座叶（普通白菜，俗称小白菜）或花径（菜薹）供食用，种类和品种繁多，其中最具传统特色、素有“金殿御菜”之美誉的洪山菜薹，具有独特的口感和风味与丰厚的历史文化。然而，同为白菜类蔬菜，红菜薹的薹茎独为红色，且其口感风味独特等表型和品质的机制尚不清楚。

近日，武汉大学联合武汉市农业科学院和湖北省农业科学院在科学通报Science Bulletin (影响因子18.9) 发表了题为“The complexity of structural variations in Brassica rapa revealed by assembly of two complete T2T genomes”的研究论文，该研究利用了高深度超长读长ONT测序与高精度长读长HiFi测序，结合Bionano染色体光学图谱构建技术，构建了两个白菜类蔬菜—普通白菜(B. rapa ssp. chinensis)和红菜薹(B. rapa ssp. purpuraria)的端到端无缺口完整基因组，揭示了红菜薹薹茎红色表型的关键基因。脂肪族硫代葡萄糖苷的大量生物合成和向薹茎的高效运输，可能是菜薹作为薹用蔬菜特殊风味的遗传基础。希望组为此研究提供PacBio HiFi测序、ONT超长测序以及Bionano测序服务。

基于完整的基因组，研究者详细解析了白菜类蔬菜的高复杂区域—着丝粒和rDNA的序列特征。白菜着丝粒由大量176-bp的单体形成的卫星序列组成，在不同亚种间，着丝粒的演化速率要显著高于其它区域。与其它植物不同的是，白菜的45S rDNA区域呈现出松散且显著扩张的特征，而大量特殊类型转座子的插入是扩张的主要原因。值得注意的是，白菜的45S rDNA区域与先前研究所报道的白菜次着丝粒区域完全重合，预示着白菜45S rDNA的扩张可能与次着丝粒的形成有着一定关系。

1.菜薹特异的结构变异终导红菜薹紫红色薹茎的表型

洪山菜薹因含有大量的原花青素而呈紫红色。原花青素是一类具有保健功能的生物活性成分，有助于清除人体内自由基，具有抗氧化、预防心脑血管疾病、保护肝脏等生理功能。通过与其它20个白菜类蔬菜的基因组比较，研究者发现一个位于7号染色体上、紫菜薹特异的结构变异最终导致了其紫红色薹茎的表型。该结构变异位于紫菜薹的一个驯化位点中，转录因子BrMYB2上游245bp处的启动子区域内。后续验证表明，该结构变异使得BrMYB2在紫菜薹薹茎中的表达量显著上调，并最终使其呈现紫红色。该变异在多个不同的紫菜薹品系中均得到了验证。

2.洪山菜薹的脂肪族硫代糖苷促进了其独特风味品质的形成

洪山菜薹作为一种具有特色的高档时令蔬菜，深受人们喜爱，其特性在于优良的品质。前期研究表明，芸薹属作物的风味往往来自于一类存在于十字花科植物中的次生代谢产物：硫代葡萄糖苷(GSL)。该研究结合基因组与转录组的比较，指出脂肪族硫代葡萄糖苷合成通路上的一些基因在菜薹叶片中有显著的上调，说明其在菜薹体内的合成可能有显著的提高；另外，控制硫代糖苷自叶片向薹茎转运的GTR1基因在菜薹中产生了额外的拷贝，这使得GTR1在菜薹中的表达量产生了几十倍的上调。脂肪族硫代葡萄糖苷的大量生物合成和向薹茎的高效运输，可能是菜薹作为薹用蔬菜特殊风味的遗传基础。

该研究首次发表了白菜类蔬菜完整的基因组，加强了我们对白菜基因组中高复杂区域的认识，同时也揭示了洪山菜薹的紫红色薹茎和特殊风味性状的遗传基础。这项研究的结果在白菜的功能研究中具有宝贵的参考价值，也为进一步的分子育种设计和新品种选育奠定了基础。

武汉大学生命科学学院博士研究生周一凡、叶瀚哲和刘恩纬为该文的共同第一作者，武汉大学生命科学学院王坤教授、武汉市农业科学院蔬菜研究所汪爱华研究员、湖北省农业科学院聂启军研究员为该文的共同通讯作者。武汉大学朱玉贤院士在该研究项目的启动、组织和实施过程中提供了强有力的支持和指导。该研究得到湖北省重点研发计划、湖北省杰出青年基金和武汉国家现代农业产业科技创新中心的支持。

项目文章 | 希望组助力青石斑鱼基因组染色体水平组装和注释

2024-05-11/0 评论/在科研动态 /通过 zu

青石斑鱼(Epinephelus awoara)是一种重要的经济海洋鱼类。然而，对其遗传结构和进化历史的研究相对较少。研究团队利用 PacBio 单分子测序技术和 Hi-C 技术，组装了青石斑鱼的高质量染色体级的基因组。青石斑鱼染色体级基因组大小为984.48Mb，contig N50 长度为 39.77Mb，scaffold N50 长度为 41.39Mb。在 Hi-C 测序的辅助下，99.76% 的组装序列被锚定到 24 条假染色体上。此外，研究发现大约 41.17% 的基因组由重复元件组成。通过基因预测，共预测了 24,541 个编码蛋白质的基因，其中 22,509 (91.72%) 个基因进行了功能注释。这项工作提供了青石斑鱼高精度、染色体级参考基因组的组装和注释，将有助于理解青石斑鱼的种群遗传结构、适应性进化和物种形成。

近期，该论文《Chromosome-level genome assembly and annotation of the yellow grouper, Epinephelus awoara》在scientific data发表。中山大学生命科学学院蒙子宁副教授为通讯作者，在读博士生张维炜为第一作者。希望组为该研究提供PacBio Revio、Hi-C测序等服务。

图1 青石斑鱼染色体水平基因组装与注释流程图

研究结果

1. 青石斑鱼基因组组装和注释

经过scaffolding程序，974.86Mb成功锚定在24条染色体上，挂载率为99.02%，染色体长度从23.08Mb到48.78Mb不等。在Hi-C scafolding之后，组装了984.48Mb染色体水平的青石斑鱼基因组，contig N50长度为39.77Mb，scaffold N50长度为41.39Mb。此外，研究人员还评估了基于Hi-C的假染色体构建的结果，24条骨架在热图中清晰可见，对角线周围的相互作用信号非常明显（图2a），表明假染色体的组装质量较高。青石斑鱼基因组共鉴定出405.30Mb序列为重复元件，占基因组的41.17%(图2b)。其中，串联重复组成约占基因组的0.73%，包括基因组中0.18%的SSR和0.56%的串联重复(图2b)。转座子约占基因组的35.68%（图2b），其中DNA转座子是最主要的类型，占基因组的20.08%(197.69Mb)。

图2 青石斑鱼染色体水平的基因组组装和注释

2.基因组共线性分析

研究团队使用MCScan工具进行基因组线性分析和可视化分析，通过线性图展示了青石斑鱼基因组与其他石斑鱼物种之间的线性关系。结果显示，青石斑鱼基因组与同属内的相关物种（鞍带石斑鱼和棕点石斑鱼）以及不同属的驼背鲈（C. altivelis）之间具有很强的线性关系（图3a、b）。然而，相较于豹纹鳃棘鲈（P. leopardus），青石斑鱼基因组中出现更多染色体重组的情况（图3b）。

图3 青石斑鱼与其他石斑鱼的基因组同源性分析。(a) 属内同源性分析。(b) 属间同源性分析。

总之，高度准确的染色体水平参考基因组对支持基础遗传学研究至关重要，并将有助于青石斑鱼的遗传结构、进化研究和种质资源保护。

项目文章 | 重磅NG！中科院昆明植物所李德铢研究员团队揭示竹类植物生活史转变和物种多样化遗传机制

2024-05-11/0 评论/在科研动态 /通过 zu

多倍化（基因组加倍）是进化的关键力量，然而，在亚基因组水平上，对于多倍化如何促进植物适应性演化和物种多样性形成的认识仍然不足。竹类植物属于禾本科竹亚科（Bambusoideae），包括二倍体草本竹子（126种）和三种多倍体木本竹子（1576种），其中木本竹类包括温带木本分支、新热带木本分支（均为四倍体）和古热带木本分支（六倍体）。先前研究表明：木本竹子中大约在20百万年前发生的两次独立四倍体化和一次六倍体化事件。木本竹子的染色体数通常保持稳定（例如，四倍体的2n=（40）46-48，六倍体的2n=70-72），这表明组成亚基因组可能一直保持不重排。因此，竹子为研究古老多倍体植物中亚基因组优势的演化提供了一个理想的模型。

2024年3月15日，中国科学院昆明植物研究所李德铢研究员团队在国际顶级期刊《Nature Genetics》（IF=30.8）上在线发表了题为“Genome assemblies of 11 bamboo species highlight diversification induced by dynamic subgenome dominance”的研究论文。该研究选择竹属（禾本科：竹亚科）内11种具有不同倍性的竹子样本，涵盖二倍体（草本植物）到四倍体和六倍体（木本植物），将其从头组装至染色体水平获得这11种竹子的高质量参考基因组，结合比较基因组学、转录组学以及甲基化等进行联合分析，发现木本竹子的亚基因组具有惊人的核型稳定性，两个四倍体谱系中表现出平行的亚基因组优势，并在六倍体谱系中逐渐转移优势。异源多倍体化和亚基因组优势塑造木本竹子的木质茎，快速生长和同步开花等特征的演化。此项工作提供了对多倍体系统中基因组优势的见解，包括其依赖于基因组环境以及其能够随着演化时间改变哪些亚基因组处于优势地位。希望组为本研究提供部分ONT和Hi-C基因组测序服务。

该研究选择了11种具有代表性的竹子为研究对象，包括2个草本竹子（HBs、2x）和9个木本竹子（WBs），其中木本竹子包括3个分支：温带（TWBs、4x）、新热带（NxWBs、4x）和古热带（PWBs、6x），利用ONT+Hi-C的策略从头组装了这11个物种的高质量参考基因组，基因组大小平均分别为625.9 Mb（二倍体）、1,628.3 Mb（四倍体）和1,122.4 Mb（六倍体），Contig N50的平均值和最大值分别为5.3 Mb和17.5 Mb。二代数据的比对率、LTR组装指数（LAI>=10）和BUSCO值（93.2~99.0%）等评估均支持了这些基因组组装的高连续性和完整性。

图1 11种竹子基因组特征和共线性图谱

基于系统发育和序列相似性来确定竹子的亚基因组，研究组建了两个同源基因数据集（456个“完美拷贝”和13891个“低拷贝”同源基因）用于系统发育分析，WB中的A、B、C、D和HB中的H亚基因组均能在两个数据集中的到验证。由于基因树之间存在广泛的拓扑结构不一致，研究推断系统发育网络和假定的渗入事件，推断存在杂交事件，如B和C祖先之间的杂交导致A和D祖先的形成，同时还表明了H和A祖先之间的杂交。古老的HBs 和WBs 祖先之间也发生过杂交。总而言之：该研究提出了竹类起源和多倍化的模型，包括不同时间点的分化和多倍化事件，最终形成了不同的竹类群体。

图2 竹类植物主要谱系大的起源与演化

木本竹类展现出非常保守的核型演化特征，尤其是A、B和D亚基因组维持了禾本科祖先的12条染色体状态。大多数裂变和融合事件发生在H和C亚基因组中，HB中的这些事件在很大程度上具有物种特异性，但在C亚基因组中的许多基因分别由热带和温带分支中的不同物种共享，这表示多倍体化在诱导基因组重排中可能起了作用。从亚基因组大小、重复基因丢失、转座子和甲基化等方面研究各个亚基因组间的差异，研究发现：C亚基因组在WB的四个亚基因组中展现出显著不同，其大小与D亚基因组接近，但较小于A和B亚基因组，与TE含量密切相关。多倍体化后，亚基因组和多倍体化后的四六倍体之间存在TE动态多样性。基因进化受多倍体化影响，WBs中观察到全基因组复制丧失。上述分析结果证明：两个四倍体分支中C亚基因组占主导，六倍体中A亚基因组的加入改变了这种主导优势。

图3 竹类基因组的结构特征与进化

为研究多倍体化后转录图谱的变化，对11个竹子的不同组织在各个发育阶段的476个转录组样本进行测序分析，发现在WBs中的基因其表达丰度较低，与WBs中其他三个亚基因组相比，C亚基因组具有更高比例的表达基因和最高平均表达水平。主成分分析显示跨组织和物种的同源基因之间呈现出一致的基因表达上调和下调模式，而在六倍体（PWBs）中差异较大。同源基因进一步聚类为不同组别，结果显示C亚基因组比D或B亚基因组存在更多的上调基因。基于WGCNA分析探究有偏向性的亚基因组的基因是否更有可能存在共表达，结果显示在四倍体中C亚基因组有更多的共表达基因和hub 基因，而六倍体中A亚基因组拥有更多hub 基因，表明在不同类群中亚基因组的表达模式和共表达关系存在差异。上述结果进一步支持C亚基因组在四倍体分支演化过程中可能具有优势。

图4 多倍体竹子中的同源基因表达模式

在禾本科中，WBs演化出了包括木质化茎秆和不频繁开花在内的独特性状。为揭示WBs独特性状起源的基因基础，在其演化过程中研究了基因家族大小、新基因和在其演化过程中受到正向选择的基因（PSGs）。三个多倍体谱系中共享了183个PSGs家族，其中C亚基因组的PSG富集。此外，经历两次或更多基因组变化的基因在C亚基因组中占有更高比例。其中许多基因可能参与竹子独特的生命周期，如调控开花的关键因子GI和SPL7，均来自C亚基因组。

功能富集分析表明，在全基因组和亚基因组水平上，特别是C亚基因组的扩张基因家族主要与植物营养生长和发育有关（例如，“植物激素信号转导”和“苯丙素生物合成”）。

进一步研究竹子中木质素生物合成途径中的基因组变化，结果发现，相对于HBs，WBs中几乎所有的木质素相关基因都通过多倍化产生出多拷贝，且COMT 和F5H1 出现串联重复。该途径中检测到有31个基因，其中大多数经历了基因组变化，其中重点关注的COMT，在巨型竹子D. sinicus 的木质化发挥关键作用，其主要负责S型单木质素的生物合成，对与禾本科植物的茎杆强度至关重要。

图5 WBs演化的基因组基础

该研究首次提出在多倍体植物类群中可能存在亚基因组优势转移现象，为研究竹类植物物种多样化和独特性状的起源提供了多组学证据，也为深入理解多倍化在植物演化中的重要作用提供了一个难得的案例。

项目文章 | NC！华中农业大学付新华教授团队揭示萤火虫发光之谜

2024-05-11/0 评论/在科研动态 /通过 zu

萤火虫是鞘翅目萤科的昆虫，成虫个体一般较小，大多数体长1厘米，少数种类可以达到3厘米。雌性个体要略微大于雄性个体。萤火虫最独特的特征是腹部具有特化的发光器，不同萤火虫之间发光器区别很大，这也是萤火虫分类的重要特征之一。世界上已知萤火虫有2000多种，全世界仅发现了8种水栖萤火虫，原先都隶属于萤科第一大属——熠萤属。付新华教授与合作者以武汉萤为模式种，确立了一个新属——水萤属。

图1 雷氏萤A. leii的发育阶段。幼虫期1天至成虫期2天，白色箭头表示幼虫的发光器，红色箭头表示成虫的发光器

希望组与华中农业大学植物科学技术学院付新华教授的首次合作在2017年，基于PacBio Sequel（～73X）平台测序，完成了首个萤科物种胸窗萤（Pyrocoelia pectoralis）的高质量基因组测序组装，发表了《Long-read sequence assembly of the firefly Pyrocoelia pectoralis genome》文章[未来组项目文章] 三代萤火虫基因组文章发表。随着测序技术的不断升级，希望组与付新华教授再次合作，通过单分子纳米孔测序（ONT，～170X）与Hi-C挂载组装了染色体水平的水栖萤火虫雷氏萤（Aquatica leii）基因组。付新华和朱馨蕾依托高质量的雷氏萤基因组，结合不同发育阶段的蛹的比较转录组学，成功筛选出调节A. leii 成虫发光器发育的两个关键转录因子AlABD-B和AlUNC-4，于2024年3月5日在《Nature Communications》上发表题为《Key homeobox transcription factors regulate the development of the firefly’s adult light organ and bioluminescence》的研究成果！

这篇论文研究了水栖萤火虫成虫发光器发育和生物发光的分子调控机制。通过单分子纳米孔测序（ONT）和高通量染色体构象捕捉测序技术组装了水栖萤火虫雷氏萤（Aquatica leii）的染色体水平基因组，并发现了两个关键的Homeobox转录因子AlABD-B和AlUNC-4调节着萤火虫成虫发光器的发育和生物发光。干扰这两个关键基因的表达会导致成虫发光器发育不完整或不发光。此外，AlAbd-B 和 AlUnc-4 激活了 AlLuc1 基因的表达以及一些过氧化物酶跨膜转运蛋白的表达。四个过氧化物酶转运蛋白参与将荧光素酶转运到过氧化物体内。这项研究为了解萤火虫成虫发光器的发育和生物发光提供了重要的研究基础。希望组为本项研究提供ONT等基因组测序、基因组组装、Hi-C挂载、注释和比较基因组分析等服务。

雷氏萤（Aquatica leii）组装基因组大小为1.04G，杂合度3.2%，包含222条contig，其中scaffold 和 contig 的 N50 值分别为 125.64 Mb 和 10.81 Mb。此研究分析了染色体数目和核型（2n = 14 + XY），并对基因组进行 Hi-C 挂载，挂载出 8 条染色体，同时统计了基因组的GC 含量、重复密度、基因密度、转录因子密度、Homeobox 家族基因（图2D）。与胸窗萤（Pyrocoelia pectoralis）的高质量基因组（基因组大小760.4Mb，contig N50为3.04Mb，杂合度2%～3%）相比，基因组组装质量有了显著提升！

结合转录组数据，对雷氏萤（A. leii）进行基因组注释，共鉴定出16,472个基因。其中，14,874个基因（占90.30%）在至少一个公共数据库（Swissprot、NR、KEGG、GO和KOG）中进行了功能注释。为了推断 A. leii 的进化历史和系统发育关系，该研究使用了四个已发表的其他萤火虫基因组和六个鞘翅目昆虫基因组以及一个果蝇基因组作为外群，使用 OrthoMCL 进行了基因家族聚类分析。在这十二种物种中鉴定出了1,633个单拷贝同源基因用于构建系统发生树（图2E）。系统发生推断表明，A. leii和边褐端黑萤Abscondita terminalis是姐妹群，同属于熠萤亚科，根据 mcmctree 计算的分歧时间表明，A. leii在大约57.38百万年前从该亚科的其他成员的共同祖先中分离出来（图2E）。

图2 雷氏萤A. leii 基因组特征圈图。红色标记基因在后续实验中被验证功能。

该研究使用AnimalTFDB(v3.0) 数据库比较了所有的 A. leii 蛋白，并获得了相应的A. leii 转录因子家族。在 A. leii 基因组中鉴定出了 914 个转录因子。根据功能域特征，将转录因子超家族成员分为 45 个不同的类型。其中，Homeobox 转录因子类型是A. leii 中除“锌指”转录因子类型之外最常见的转录因子类型，并且Homeobox 基因家族中的大量基因编码了在动物胚胎发育中细胞分化和发育中起关键作用的DNA结合同源域。结合转录组数据来分析Homeobox基因的表达模式，发现在蛹化过程中，只有六种homeobox基因（AlAbd-B、AlAntp、AlUnc-4、AlShox2、AlRepo和AlAp2）持续上调（p <0.05），而其他基因下调或其调控从上调变为下调。运用基因敲除技术研究发现，AlAbd-B 和 AlUnc-4 的敲除导致了不发光和过氧化物酶体空腔，这两个基因可能是萤火虫成虫发光器发育所必需的关键调节因子（图3）。

图3. A. leii 中与发光器发育和发光相关的6个homeobox基因的功能验证

萤火虫成虫发光器发育和发光存在两个关键步骤：一个是荧光素酶基因的表达，另一个是荧光素酶被转运到发光器，即生物发光发生的细胞器。该研究假设干扰荧光素酶基因表达或荧光素酶运输导致过氧化物酶体空腔。为验证这一假设，该研究对在蛹期敲除 AlAbd-B 和 AlUnc-4 的 1 日龄雄萤的转录组与对照组（Gfp 注射）进行了比较。结果表明，在 dsAlAbd-B 和 dsAlUnc-4 敲除组中，AlLuc1 的表达显著降低（图3A）。转录组测序分析和实时荧光定量PCR验证表明：(1)AlAbd-B 和 AlUnc-4基因的干扰，导致 AlLuc1、AlPx11c.2、AlPex5 和 AlPxmp2 的表达水平显著降低；(2) AlAbd-B 基因的敲除，导致AlPex1、AlPex13、AlPex14 和 AlPex16 的表达水平显著降低；(3)有趣的是，AlAbd-B 基因的敲除导致AlUnc-4 的表达水平显著降低。在这些基因中，该研究选择了AlLuc1 和其同源基因 AlLuc2 以及七个过氧化物酶基因AlPx11c.2、AlPxmp2、AlPex5、AlPex13、AlPex14、AlPex16、和 AlPex1 进行详细的功能研究（图4）。

图4 AlAbd-B RNAi和AlUnc-4 RNAi表型与对照组相比转录组的差异基因表达分析

在AlLuc2敲除后，只有蛹的发光器发出荧光，表明成虫发光器的发育与 AlLuc2无关，因此该研究重点关注了 AlLuc1。dsAlAbd-B 和 dsAlUnc-4 组的转录组中，AlLuc1 的表达水平显著降低。通过 JASPAR 数据库分析，识别出每个转录因子的两个潜在 DNA 结合域。该研究假设 AlABD-B 和 AlUNC-4 与 AlLuc1 启动子相互作用并上调其活性，并进行了酵母单杂交 (Y1H)、电泳迁移率shift 实验（EMSA）、双荧光素酶报告基因检测、Western 蛋白印迹和免疫荧光 (IF) 检测来验证这一假设。最终揭示AlABD-B和AlUNC-4是发光器中AlLUC1表达所必需的（图5）。

图5 Alluc1的基因组位点（顶部）和包含七个外显子的基因结构（底部）

萤火虫的荧光素酶AlLUC1在过氧化物酶体中起作用，这表明AlLUC1需要某些过氧化物酶体运转蛋白才能进入过氧化物酶体。该研究进行了RNAi分析，以验证筛选出的过氧化物酶（AlPX11C.2、AlPXMP2、AlPEX5、AlPEX13、AlPEX14、AlPEX16 和 AlPEX1）是否参与了ALLUC1 的导入。结果表明，AlPEX13、AlPEX14、AlPEX5和AlPXMP2蛋白参与了A.leii 中AlLUC1进入过氧化物酶体的过程（图6）。

图6 参与AlLUC1转运至过氧化物酶体的pex基因的验证

总之，该研究揭示了两个关键的Homeobox转录因子调控萤火虫成虫发光器发育和生物发光的一系列新机制。AlABD-B 调控 AlUNC-4，它们相互作用。过氧化物酶 AlPex13 和 AlPex14 受到 AlABD-B 的调控。AlLuc1、AlPex5 和 AlPxmp2 同时受到 AlABD-B 和 AlUNC-4 的调控，但 AlABD-B 至关重要。AlUNC-4 提高了 AlABD-B 的转录活性，从而极大地激活下游基因的表达。AlPEX13 和 AlPEX14 相互作用，协助 AlPEX5 将 AlLUC1 运入过氧化物酶体。AlPXMP2 和 AlLUC1 相互作用，并参与将 AlLUC1 转运过氧化物酶体（图 7）

署名文章 | “唐尧”基因组：高占成教授团队构建从端粒到端粒中国汉族人全基因组

2024-02-02/0 评论/在新闻动态 /通过 zu

端粒到端粒（T2T）联盟组装的参考基因组T2T-CHM13，是有史以来第一个具有卓越质量的完整单倍体人类基因组。但基因组计划发展到现在，仍没有中国人自己的高质量参考基因组。

日前，北京大学人民医院高占成教授研究团队、中国科学院北京基因组研究所康禹教授研究团队在Genomics, Proteomics & Bioinformatics《基因组蛋白质组与生物信息学报》杂志发表题为“T2T-YAO: A Telomere-to-telomere Assembled Diploid Reference Genome for Han Chinese”的研究成果，首次在世界范围内成功完成从端粒到端粒的中国人全基因组，获得包括Y染色体在内的高质量真实人类二倍体、完整无间隙的全基因组参考序列（44+XY）——“唐尧”基因组，其DNA序列具有明确的汉族中国人遗传特征，构建质量达到世界领先。

中国科学院北京基因组研究所（国家生物信息中心）的楚亚男博士、北京大学人民医院的在读博士生何玉坤、李冉博士、临汾市中心医院郭淑明院长、厦门大学医学院郑雅莉博士、希望组首席生信技术官胡江为该文共同第一作者，中国科学院北京基因组研究所（国家生物信息中心）康禹研究员和北京大学人民医院高占成教授为该文共同通讯作者。本研究得到了临汾软科学研究计划、国家自然科学基金和国家重点研发计划等项目的支持。希望组为本研究提供HiFi、ONT超长、Bionano测序等服务。

据悉，样本来自一名生活在山西省一个古老村庄的健康男性，经核型检测，未见染色体结构异常。研究团队将该参考基因组命名为“T2T-YAO”，因为这个采样点位于几千年前的尧帝遗址附近，这个地区是明代洪洞移民的起点。这场迁徙持续了近半个世纪，大量移民遍布中国各地并进入东南亚。

因此，T2T-YAO基因组有望成为汉族人群的全面代表。根据祖源分析，YAO基因组的大部分来自东亚。其Y染色体单倍群鉴定为O-F2137，是中国主要的Y单倍群O-M122的主要后代群之一。

研究团队使用merqury（评估基因组质量的重要工具）来评估T2T-YAO，并分析其完整性、组装错误和单倍型之间的切换错误。其中T2T-YAO的质量值（QV）达到了参考质量的准确度，母本与父本分别达到了Q70.49和Q72.28，选择父母本中QV较高的常染色体及性染色体组成一套单倍体参考基因组，其质量达到了Q74.69。

研究发现，与基准基因组HG002相比，T2T-YAO表现出较少的错误重复、交换错误和较短的折叠区域，且T2T-YAO拥有更完整的rDNA（核糖体DNA）序列。与CHM13相比，YAO的单倍体间具有更多的序列共享性和更高的同一性。这意味着与汉族人群相比，不同族群之间存在更大的基因组距离。而不同单倍型间有10%的序列是独特的，代表了大部分个体间的基因组多样性。

研究团队还成功完成T2T-YAO的所有十个SAACs（近端着丝粒染色体短臂）区域，SAACs的成对比对揭示了异源染色体上几乎有相同的序列存在，形成了具有大量倒位、重复和易位的同源嵌合体，特别是在chr13、14、21和22之间。对十个SAACs区域的k-mer（一段长度为k的DNA片段）进行聚类，他们发现同源染色体的短臂显示出几乎相同的位置，但不同异源染色体的长臂彼此远离。

研究发现，YAO-Y基因结构与既往报道一致，两端包含伪常染色体区（PARs）、X转座区、扩增序列、异染色质卫星区和X简并区。扩增子存在于扩增区域，与CHM13-Y中观察到的模式相似。

综上，本研究报道了一个完整、准确的中国汉族参考基因组-T2T-YAO，揭示了汉族中国人的基因与高加索人种之间区别，能够应用在未来的医学研究和临床实践中，为精准医疗奠定了夯实的基础。

Nature Genetics封面 | 浙江大学等单位以封面论文发表栽培香蕉基因组

2024-02-02/0 评论/在新闻动态 /通过 zu

2023年12月11日，浙江大学农学院张亮生课题组联合福建农林大学等多家单位在国际著名期刊《Nature Genetics》上在线发表了题为“Origin and evolution of the triploid cultivated banana genome”的研究论文。2024年1月12日该论文作为封面文章正式发表。

福建农林大学植物保护学院李秀秀副教授、中国农科院农业基因组研究所余胜博士、中国热带农业科学院热带生物技术研究所程志号副研究员等是论文共同第一作者。浙江大学农学院张亮生教授、福建农林大学园艺学院吕培涛教授、华南农业大学群体微生物研究中心周筱帆教授、云南省种业实验室王继华研究员、福建农林大学王宗华研究员等为共同通讯作者。福建农林大学是第一单位，浙江大学是最后通讯作者单位。该研究受到国家自然科学基金、福建省高峰学科建设等项目的资助。希望组NextDenovo/NextPolish软件助力野生二倍体香蕉zebrina的高质量基因组(Zebrina v2.0)组装。

市场上90%以上栽培香蕉都属于三倍体巴西蕉(Cavendish，又称华蕉或香牙蕉)和大麦克蕉(Gros Michel)亚群。香蕉(Musa ssp)是全球进出口鲜果贸易量和交易量最大的水果，同时也是热带和亚热带发展中国家重要的粮食作物。该研究组装完成了两个广泛种植的三倍体栽培香蕉(巴西蕉，Cavendish和大麦克蕉，Gros Michel)的高质量染色体水平基因组，还组装了野生二倍体香蕉zebrina的高质量基因组(Zebrina v2.0)(图1)。明确了三倍体栽培香蕉A基因组的祖先来源，其主要来源于Musa acuminata ssp. banksii、malaccensis和zebrina等3个野生二倍体(图1)。对香蕉枯萎病菌Foc race 1和TR4抗性位点进行鉴定和挖掘，巴西蕉抗1号枯萎病可能是从野生zebrina中获得(图2)。香蕉不抗4号枯萎病可能是转座子插入导致抗病基因（RGA）不表达。鉴定了新的调控果实成熟的关键基因(MaNAP4和MaNAP5)(图3)。

图1 两个栽培种香蕉及其起源分析。

图2 巴西蕉和大麦蕉及其野生祖先种中抗1号和4号小种的抗性基因/QTL的比较分析。

图3鉴定果实成熟基因及其靶基因。

文章链接：https://www.nature.com/articles/s41588-023-01589-3

封面链接：https://www.nature.com/ng/volumes/56/issues/1

希望组助力湖北省生物信息学会—微生物信息学专委会成立大会胜利召开！

2023-10-25/0 评论/在新闻动态 /通过 zu

2023年10月22日，筹备已久的“微生物信息学学术会议暨湖北省生物信息学会——微生物信息学专委会成立大会”顺利在汉举办。此次大会是由湖北省生物信息学会主办，华中农业大学、华中科技大学、武汉希望组生物科技有限公司承办，在武汉光谷希尔顿酒店会议中心隆重召开，吸引了省内外共计170余人参与。本次大会开幕式由华中师范大学计算机学院院长蒋兴鹏教授主持，华中农业大学信息学院院长、湖北省生物信息学会理事长张红雨教授参加开幕式并致辞。

张红雨教授参加开幕式并致辞

经过民主表决，大会选举了宁康教授（华中科技大学）为专委会主任委员，蒋兴鹏教授（华中师范大学）、刘红利教授（华中科技大学同济医学院附属协和医院），熊杰研究员（中国科学院水生生物研究所）、郑金水（华中农业大学）、宋婕萍主任（湖北省妇幼保健院）、汪德鹏先生（武汉希望组生物科技有限公司）为副主任委员，大会同时选举产生了专委会秘书长和副秘书长各1名，以及委员17名，选举结束后由湖北省生物信息学会理事长张红雨教授和学会副理事长张晓龙教授、刘森教授和蒋兴鹏教授为以上人员颁发证书。

张红雨教授和张晓龙教授为当选人员颁发证书

在简短而隆重的开幕式后，在宁康教授的主持下，大会进入期待已久的学术报告环节。

宁康教授主持大会学术交流阶段

本次大会邀请了来自香港大学的张彤教授，华中科技大学的余龙江教授和宁康教授、陈卫华教授，武汉大学人民医院的童永清教授，华中农业大学的郑金水教授，复旦大学的吴浩教授，华中科技大学附属同济医学院同济医院陈旭勇医生、中国科学院水生生物研究所熊杰研究员，武汉希望组公司创始人兼CEO汪德鹏先生，北京热心肠研究院院长蓝灿辉先生，共计12位专家从微生物研究的各个前沿领域展开非常精彩的学术报告，并就产业应用和未来发展趋势等议题展开深入讨论。

在经过一天的热烈学术讨论和交流后，中国生物信息学会（筹）核心组专家、浙江大学陈铭教授作会议总结讲话。陈铭教授首先对本次大会的成功举办表示祝贺，对本次大会的成效和收获表示肯定，并鼓励微生物信息学专委会在未来面向社会更多的群体，开展更多的学术活动，为微生物信息学及相关学科的发展做出更大贡献！

陈铭教授作会议总结讲话

参会人员合影

与会人员表示，此次学术会议的学术报告具有跨学科、跨领域、前沿性、重转化等特性，是一场高质量的微生物研究领域的学术盛宴。

与会专家表示，近年来随着生物技术的不断发展，特别是高通量测序和质谱技术的革命性突破，以及生物信息学的快速发展，极大推动了微生物相关的科学研究。但是在微生物的多样性和功能、微生物与人类健康、微生物与环境保护、微生物与绿色农业、微生物组治疗等方面还存在很多亟待解决的问题。本次会议旨在聚焦微生物领域前沿问题，打造了很好的学术交流与合作的新平台。

希望组对参与此次微生物研究领域的学术盛宴合作感到非常荣幸。我们期待与各位专家、合作伙伴和志愿者们共同努力，推动微生物领域的创新，为人类的健康和环境保护作出更大的贡献。再次感谢所有参与此次会议的人员，以及组织者和支持单位的辛勤付出和卓越贡献！

希望组basecalling流程升级：每月2700张Cell数据处理量一骑绝尘！

2023-10-25/0 评论/在新闻动态 /通过 zu

时至今日，三代长读长测序（long-read sequencing）技术在生物领域应用的如火如荼，许多专家都认可了其先进的方法和广泛的应用，《Nature Method》也将三代长读长测序评选为了2022年度最佳方法。

在整个Nanopore 单分子实时测序的流程中，basecalling（碱基识别）环节是测序流程一个重要的步骤，basecalling需要对原始测序数据进行复杂的信号处理和算法计算，这一环节的处理精度决定了测序数据的准确性,其中basecalling的不同处理模式对于计算资源的需求和产出数据的精度不尽相同（详见往期推文）。

希望组一直致力于改进信号处理方法、优化算法模型，并升级硬件计算平台，以提高base calling的准确性和效率。希望组引进的100张全新GPU计算处理器（详见往期推文），通过大规模并行计算架构强有力的提升希望组计算中心的数据处理能力，为了最大程度发挥硬件平台的计算潜力，希望组重新编写了basecalling流程算法，使计算平台数据产出能力产生质的飞跃！

（注：数据产出以Nanopore Ultra-long Super basecalling计）

希望组Nanopore Ultra-long产品本就在reads长度和数据产量上遥遥领先，在结合了希望组basecalling全新流程后，更是如虎添翼，将原本需要花费1-2周的basecalling环节缩减到2-3天，为各位老师们节约大量的科研时间。

希望组作为国内投入三代测序的测序企业，始终致力于推动三代测序技术的不断发展。此次的basecalling流程升级将只是一个起点，希望组将不遗余力的改进测序流程、开拓分析技术、精进分析算法，为客户们带来最顶尖的科技服务产品！

如果您对我们的Nanopore测序产品感兴趣，您可以与当地的销售人员进行联系，我们将会为您提供测序服务的详细资料以及更多信息和支持。

项目文章 | 基因组所解析首个康乃馨T2T基因组

自主创新丨NextDenovo:一种高效且精确的长读长纠错与组装工具

项目文章 | 武大朱玉贤院士团队王坤教授破解洪山菜薹颜色和美味的基因密码

项目文章 | 希望组助力青石斑鱼基因组染色体水平组装和注释

项目文章 | 重磅NG！中科院昆明植物所李德铢研究员团队揭示竹类植物生活史转变和物种多样化遗传机制

项目文章 | NC！华中农业大学付新华教授团队揭示萤火虫发光之谜

署名文章 | “唐尧”基因组：高占成教授团队构建从端粒到端粒中国汉族人全基因组

Nature Genetics封面 | 浙江大学等单位以封面论文发表栽培香蕉基因组

希望组助力湖北省生物信息学会—微生物信息学专委会成立大会胜利召开！

希望组basecalling流程升级：每月2700张Cell数据处理量一骑绝尘！

联系我们

关于我们

官方微信公众号