Nature Genetics! Nature! Science! Cell ! 希望组6月实现科服大满贯

署名文章 | Nature Genetics!希望组携手赖锦盛教授团队再创新里程—大型真核生物玉米T2T无间隙基因组组装

2023年6月15日,中国农业大学国家玉米改良中心、玉米生物育种全国重点实验室赖锦盛教授团队以题为“A complete telomere-to-telomere assembly of the maize genome”在国际知名期刊Nature Genetics《自然·遗传学》上在线发表了玉米全基因组所有染色体端粒到端粒完整无间隙组装结果,在复杂动植物基因组中第一个实现真正意义上的全基因组完整无间隙组装。该研究是复杂基因组组装领域工程技术研究的重大突破,攻克了复杂动植物基因组组装的最后一道难题,是基因组组装和基因组学研究的一个重要里程碑。

赖锦盛教授为该论文通讯作者,中国农业大学陈建副教授、博士研究生王子健为该论文共同第一作者。中国农业大学金危危教授、宋伟彬教授、赵海铭副教授、辛蓓蓓副教授、黄伟老师、史俊鹏博士后(现已出站),爱荷华州立大学Matthew B. Hufford教授、内布拉斯加大学林肯分校James C. Schnable教授、中国科学院遗传与发育研究所韩方普研究员和刘阳博士,以及北京希望组生物科技有限公司为该研究提供了重要帮助,希望组员工(胡江、王超)有幸成为了共同作者。该研究得到了国家重点研发计划、国家自然科学基金、海南崖州湾种子实验室、崖州湾科技城管理局、河南省科技厅以及河南现代种业有限公司的资助。希望组为本研究提供了HiFi、ONT超长测序、NextDenovo(v2.2-beta.0)初步组装和NextPolish(v1.1.0)基因组矫正服务。

玉米是世界范围内的重要作物,其基因组组装对玉米基础研究和分子育种均有重要意义。同时,玉米也是经典的复杂基因组研究的模式植物。自2009年玉米基因组草图公布以来,已有近50个不同玉米自交系基因组被组装。然而,由于玉米基因组大(与人类基因组相近),且拥有超过80%的重复序列,目前已报道的玉米基因组都存在数百或数千个“空白”区域未被解析。

Mo17自交系是经典的玉米杂种优势群Lancaster群的代表。Mo17自交系及其衍生材料在我国玉米生产中被广泛应用。赖锦盛教授团队以Mo17自交系为材料,综合利用了约237×的ONT Ultra-long和约69.4×的PacBio HiFi测序数据,完成了最新的玉米基因组组装,其大小为2,178.6 Mb,每条染色体的端粒到端粒均由一条完整连续的序列组成,碱基精确度超过99.99%。最新的组装不仅在过去高质量组装的基础上增加了1029个基因,还解锁了玉米基因组中结构最为复杂、从未被组装的基因组空白区。这是首个完整的、无间隙的玉米基因组序列,也是首个所有染色体都完整组装的复杂动植物基因组。

图1. Mo17基因组完整组装

最后,作为专门的安排,赖锦盛教授在致谢部分特别标注,用该研究成果的发表来纪念他的博士后研究阶段的导师Joachim Messing (1946—2019)。 Messing教授是国际上分子生物学先驱和“鸟枪法”测序技术的倡导发明者,是美国科学院和德国科学院院士,于2013年获得沃尔夫(Wolf)奖。
本文转载自:国家玉米改良中心

项目文章 | 希望组再次参与Nature论文工作—中国人群泛基因组

由复旦大学、西安交大、中国医学科学院等26家单位联合发布的中国人群泛基因组联盟(CPC)一期研究进展,初步构建了首个中国人群专属的泛基因组参考图谱,为破译中国人群基因密码奠定基础,为“健康中国”“精准医学”战略提供支撑。

6月14日,相关成果以《基于36个族群的中国人泛基因组参考图谱》(“A Pangenome Reference of 36 Chinese populations”)为题发表于《自然》(Nature)主刊。这也是我国学者领导的人群基因组研究首次发表在《自然》主刊。复旦大学徐书华教授、西安交通大学叶凯教授、中国医学科学院褚嘉祐教授和复旦大学陆艳副教授为该文的共同通讯作者,西安交通大学杨晓飞副教授、复旦大学博士后高扬、中国科学院上海营养与健康研究所博士生陈豪、谭昕江、中国医学科学院杨昭庆研究员、复旦大学邓恋青年研究员为论文的并列第一作者。研究工作得到了国家自然科学基金、科技部重点研发计划等项目的资助。希望组为本研究提供了部分样本的HiFi、ONT、Hi-C、Bionano和Iso-seq测序服务。

“基因组结构变异大概是生物进化中从微观到宏观演变的关键遗传基础,也是最有可能连接渐变到跃变这个‘鸿沟’的进化密码。”复旦大学校长、中科院院士金力点评,“我相信通过对基因组结构变异的高精度解析,不但能大幅提升‘基因型-表型’关联分析的功效,而且有可能最终帮助我们理解生命演化中重要性状和功能产生的遗传基础和分子机制。

独立自主完成首个中国人群泛基因组参考图谱

作为人口大国,我国巨大的人口基数和丰富的人群多样性是发展人类基因组学和精准医学的重要优势:西南部高原地区分布着众多藏缅、南亚语系族群,东西方人群在西北部丝绸之路沿线交融,苗瑶语族人群在云贵地区世代繁衍,蒙古、突厥人群曾游牧于北部风沙地,通古斯语族抵抗严寒一路向北,台-卡岱(侗台)族群的先辈亦曾穿梭于南方丛林河谷。悠久的人群历史、丰富的地理气候环境,塑造了中华民族独特的遗传多样性,构成了人类泛基因组研究不可或缺的东方画卷。构建能够代表中华民族遗传多样性的中国人群泛基因组图谱势在必行且迫在眉睫,这将极大提高捕获罕见或低频遗传变异的灵敏度和准确性,支撑服务中国人遗传多样性研究、复杂疾病分子机制研究和精准医学研究与应用。

中国人群泛基因组联盟”一期36个族群画像集

中科院院士、分子微生物学家赵国屏认为:“这一成果表明我国科学家在人类基因组学领域的研究水平得到了显著提升。我相信这项工作对我国的人类基因组学和医学中的复杂疾病遗传基础研究等领域会起到重要的推动作用。

助力遗传学、医学研究,服务人民生命健康

在第一期研究计划中,CPC对代表中国36个族群的58个样本采用最新的第三代高保真基因组测序技术进行了深度测序,结合最新的单倍型基因组组装方法,获取了116个高质量单倍型基因组,并以图基因组的方式构建了高质量中国人群参考泛基因组。该泛基因组图谱总共包含约3.01 Gb个碱基对的序列信息,在现有人类参考基因组的基础上新增了约1.9亿个碱基对的新序列,包含约590万个小变异(单核苷酸多态性变异和小规模插入/缺失变异)和约3.4万个结构变异(Structural variation, SV),涉及至少1367个蛋白编码基因复制事件等。其中,约500万个碱基对新序列存在于95%以上的单倍型中,被视为中国人群基因组核心序列,可能与中国人群特有的较为稳定的生物学功能或表型特征相关。

CPC一期核心样本地理分布及语系、族群、遗传聚类关系

同时,CPC新发现的遗传变异影响了具有潜在功能和经受过适应性进化的基因,这些基因可能与亚洲人群特有的疾病易感性及表型多样性有关,这也证实了将人群专属高质量泛基因组用于基因组学和医学研究的潜力和必要性。此外,研究人员在CPC参考图谱中发现了相当大比例的古人来源基因序列——平均每个族群和每个样本中分别有约15Mb和约9.5Mb的古人来源新序列——这可能是前期开展大量研究却未在现代人基因组中发现的古人基因渗入序列,或将为东亚现代人基因组中的古人基因渗入研究乃至整个古DNA领域提供新的信息资料和线索。

未来,中国人群参考泛基因组不仅有助于中华民族共同体的遗传学研究,还将改变过去依赖主体基于欧洲白人的参考基因组而导致东亚特有罕见变异检出精确度难以提升的困境,应用于我国重大疾病的遗传机制解析,从而提高我国生物医学数据分析的质量和效率,服务人民生命健康。

中国人群泛基因组图谱已公开在线发布:
https://pog.fudan.edu.cn/cpc/#/;https://github.com/Shuhua-Group/Chinese-Pangenome-Consortium-Phase-I
该项研究所涉及的样本信息和数据的公开发表已获得国家人类遗传资源管理部门批准。该项研究得到了国家自然科学基金重点项目、基础科学中心、国家重点研发计划等项目的资助。

论文链接:https://www.nature.com/articles/s41586-023-06173-7
原文转载自:复旦大学

署名文章|Science! 中国科学院昆明动物研究所在灵长类进化遗传领域取得重大突破

人类长期关注灵长类动物的起源和演化。该方向研究不仅有助于回答人类起源问题,也有助于我们更多地了解人类独特身体结构特征的演变历史。非人灵长类动物在生物学、演化学、药理学等领域中扮演着重要角色,但目前仅有不到10%的非人灵长类动物的参考基因组被测序。

浙江大学生命演化研究中心张国捷教授团队联合昆明动物研究所吴东东教授团队、西北大学齐晓光教授团队和其他国内外合作者在Science杂志在线发表题为“Phylogenomic analyses provide insights into primate evolution”(基因组学分析提供了对灵长类演化的洞见)的研究论文。该论文回答了与灵长类演化相关的一系列问题。

灵长类动物演化或受物种大灭绝事件影响

据介绍,此次研究对象覆盖了50个灵长类动物物种,跨越了38个属和14个科,其中包括了之前研究中较少涉及的新世界猴和原猴;研究中有27个新的高质量基因组数据,这些新数据可以提供更多、更准确的遗传信息。全面的数据则有利于更深入地了解灵长类动物的演化历程。专家表示,这个时间距离6550万年前那次造成非鸟恐龙灭绝的白垩纪末期大灭绝事件非常近,大致临近白垩纪与古近纪交界时间。这意味着灵长类动物的演化可能受到了物种大灭绝事件的影响。

此外,研究人员通过重建灵长类的祖先核型演化过程,观察到在染色体水平上核型演化模式总体上是保守的。这表示在不同谱系之间,染色体大多数都保持了类似的结构和数量。

最新研究采用了更多染色体级别的原猴物种进行研究,弥补了之前由于数据不足而导致偏差的问题。这项研究发现,人的8号染色体对应到原猴的两条染色体上。因此,研究人员推测类人猿下目祖先以及所有灵长类祖先中的两条染色体在狭鼻类出现后融合成一条染色体,最终演变成人类8号染色体。这项研究校正了前人对人类8号染色体在灵长类物种中的起源历程的推断。

人类第8号染色体在灵长类起源过程中不同假说的示意图。张国捷课题组供图

灵长类动物大脑经历了快速演化

灵长类动物在演化过程中的大脑体积变化非常引人注目。最初的原猴亚目和眼镜猴,它们的脑容量非常有限,但随着时间的推移,新世界猴及旧世界猴出现后,它们的脑容量不断增大,最终在大猿类和人类的演化过程中,相对脑容量进一步增大。相对脑容量的增大与智力程度密切有关,同时也反映了物种演化适应环境的能力。

研究人员发现了一些基因在灵长类的演化历程中受到了强烈的正选择(即倾向于富集更多氨基酸变化)。这包括一些前人的实验研究已经发现的与大脑发育有关的关键基因,这些基因的突变会导致小鼠的大脑功能受损。此外,研究人员还发现了一些非编码区域在四个关键的灵长类演化节点(类人猿下目的祖先、狭鼻类祖先、大猿祖先和人类)中发生了加速演化。这些区域落在大脑发育相关基因的调控区域,这些结果表明了灵长类动物在漫长的演化过程中通过调节大脑相关基因的表达不断地优化大脑构造。

研究人员认为,这些发现表明在灵长类动物大脑演化成更发达形态的过程中,有很多基因和调控区域参与,这丰富了我们对灵长类大脑演化分子机制的认识。

灵长类物种脑容量演化历程及此过程中基因组上的变化。张国捷课题组和吴东东课题组合作供图

猿类尾巴丢失或与基因调控序列突变有关

尾巴是很多动物的标志性特征之一,尤其是对于一些动作灵敏的灵长类物种,长短不一的尾巴能够帮助它们稳定身体、转向和控制速度。“然而,猿类和人都失去了尾巴,这成为它们区别于其他灵长类的重要特征。研究表明,这一现象可能与一些特定的基因调控序列的突变有关。”周龙说。

在人猿共同祖先中,研究人员检测到多个基因的非编码调控区域积累了大量变异,其中包括KIAA1217。人的KIAA1217基因发生突变可能会导致脊柱和尾椎畸形,影响脊柱的正常发育;而在小鼠中,这个基因的突变则会导致尾椎数量的减少。研究人员发现,这个调控区域落在基因的增强子区域,并且与KIAA1217基因落在同一个拓扑结构关联域中,证明这个区域和基因有很强的交互作用,可能调控了KIAA1217基因的表达。

不同的灵长类有不同的饮食习惯和消化系统,有些灵长类如叶食性的疣猴喜欢吃树叶。为了适应这种饮食,它们演化出独特的前肠系统。此次研究还发现了一些关键的消化基因在疣猴的祖先受到正选择而积累了特殊的氨基酸变异,来适应这种特殊饮食的状态。疣猴演化出能够消化脂肪酸的能力,配合它们独特的前肠和肠道微生物使它们能够应付食叶性饮食。

KIAA1217基因的调控区域在猿类中的快速演化可能导致其丢失尾巴。张国捷课题组和吴东东课题组合作供图

项目文章 | Cell!李家堂团队揭示蛇类的起源与演化机制

北京时间2023年6月19日晚,中国科学院成都生物研究所李家堂团队在《细胞》杂志上在线发表论文“Large-scale snake genome analyses provide insights into vertebrate development”。该论文基于大规模多组学技术与基因编辑等研究手段,全面揭示了蛇类起源及特有表型演化的遗传机制。

中国科学院成都生物研究所博士生彭长军、昆明动物研究所吴东东研究员和成都生物研究所助理研究员任金龙为该论文共同第一作者,成都生物研究所李家堂研究员为该论文的独立通讯作者。希望组为本研究提供了三代测序、NextDenovo(V 1.0)组装、NextPolish (V1.01)矫正和注释服务。

全球蛇类约4000种,广泛分布于除南极洲外的各大洲陆地和海洋,在进化历史上处于脊椎动物演化的关键节点,是脊椎动物的重要类群。蛇类演化出了四肢缺失、身体延长、左右肺不对称发育等特殊表型,揭示这些特殊表型的遗传机制对理解脊椎动物演化历史具有重要意义。

蛇类特有性状的演化遗传机制

基于染色体水平蛇类基因组数据集构建了迄今最有力的蛇类系统发育框架,推断蛇类起源于约1.18亿年前早白垩纪,支持了蛇类是由蜥蜴演化而来的假说。

蛇类四肢缺失、身体延长、内脏器官不对称发育等重要遗传机制

基于谱系基因组与基因编辑等研究发现,蛇类PTCH1蛋白特异性缺失的三个氨基酸残基可能是其四肢缺失的重要遗传机制之一。大量编码及非编码调控元件的快速演化驱动了蛇类身体的延长。为适应身体延长,蛇类的内脏器官发生了不对称发育,如其左肺大多趋近于退化,而右肺则较为发达。蛇类丢失了控制器官对称发育的DNAH11和FXJ1B基因,是其左、右肺不对称发育的重要遗传因素。

此外,研究还探讨了红外感应蛇类和穴居的盲蛇类物种特殊表型的演化遗传机制。研究发现与热响应相关的PMP22基因和与三叉神经发育相关的NFIB基因的非编码调控元件的趋同演化是部分蛇类能够感知红外光谱的重要遗传驱动力。而盲蛇类物种则通过RPGRIP1等基因的丢失及CHIA等基因的快速演化以适应穴居生活,并形成专食蚂蚁及蚂蚁卵的食性。

李家堂团队未来将聚焦开发玉米蛇为模式动物并开展演化发育生物学研究。同时,围绕蛇毒等重要遗传资源的挖掘和运用,为抗蛇毒血清及蛇毒衍生药物的研发提供科学支撑。研究团队将推动从基础科学到应用基础科学的发展,更好地服务国家重大战略需求。

本研究得到中国科学院B类先导科技专项、国家自然科学基金等项目的资助。

相关论文信息:https://doi.org/10.1016/j.cell.2023.05.030

2023 Nature Index公布:希望组再登上榜单

近日,Nature Index官网更新了最新的自然指数排名,希望组再次登上该榜,在生命科学领域大陆测序企业排行榜中名利前茅,更重要的是,FC分值相较上一年增长了228.2%(本次榜单统计自2022年1月1日至12月31日)。

2022年希望组共合作发表文章近50篇,总影响因子700+,其中包含Cell、Nature Genetics、Nature Plants、Molecular Plant、Nature Communications等高质量期刊,涵盖基因组学、转录组学、宏基因组学等研究领域。下面就让我们来回顾一下希望组2022年被收录到自然指数的几篇重要文章吧。

Nature Genetics 燕麦高质量参考基因组组装揭示其生物起源和进化
2022年7月18日,希望组与四川农业大学、吉林省白城市农业科学院等团队合作在Nature Genetics上发表了题为“Reference genome assemblies reveal the origin and evolution of allohexaploid oat”的研究论文,本研究发布了六倍体栽培裸燕麦及其二倍体和四倍体祖先的参考基因组,并进一步选择能代表燕麦属现存所有基因组类型的二倍体、四倍体和六倍体材料结合全基因组测序、叶绿体基因组和转录组分析,深入探究六倍体燕麦的起源与亚基因组进化。(燕麦高质量参考基因组组装揭示其生物起源和进化

Nature Genetics 甘蔗割手密种的近期基因组演化
2022年6月2日,希望组与福建农林大学生命科学学院国家甘蔗工程研究中心、广西甘蔗生物学重点实验室等团队合作在Nature Genetics上发表了题为“Genomic insights into the recent chromosome reduction of autopolyploid sugarcane Saccharum spontaneum”的研究论文,本研究提供了同源四倍体甘蔗割手密的基因组资源,完成了割手密Np-X(2n=4x=40)高质量同源多倍体基因组测序,完整的组装了10组同源染色体的共40条染色体基因组,提出了加速甘蔗改良的新方向,扩展了对同源多倍体进化的认识。(甘蔗割手密种的近期基因组演化

Nature Communications 羊膜选择内在遗传不稳定性来保护种系基因组的完整性
2023年2月13日,希望组与美国罗切斯特大学医学中心生物化学和生物物理学系RNA生物学中心、西北农林科技大学动物科学与技术学院等团队合作在Nature Communications上发表了题为“Amniotes co-opt intrinsic genetic instability to protect germ-line genome integrity”的研究论文,本研究通过对鸡、鸭、小鼠和人类的比较研究,以及对不同品种鸡的长读长纳米孔测序,揭示了粗线期piRNA的功能,以及其快速进化历程。(羊膜选择内在遗传不稳定性来保护种系基因组的完整性

Nature Communications 短读和长读宏基因组学扩展了肠道微生物组的个体结构变异
2022年6月8日,希望组与中国科学院微生物研究所、中国科学院大学等团队合作在Nature Communications上发表了题为“Short- and long-read metagenomics expand individualized structural variations in gut microbiomes”的研究论文,本研究建立了基于三代测序和二代测序的混合组装方式,不仅提高了数据质量,扩大了遗传变异的检测范围,也有利于原噬菌体以及CRISPR spacers等基因元件的发现。SVs调节影响宿主代谢组和健康的细菌功能,要求对细菌对人类健康和疾病的贡献进行更精细的研究,而不仅仅是关注细菌丰度。将长读长(ONT)进一步纳入肠道微生物组研究将有助于深入剖析特定时间的肠道微生物组功能,并加深研究人员对人类各种肠道疾病轴的理解。(https://baijiahao.baidu.com/s?id=1735553124836634087&wfr=spider&for=pc

PLOS Genetics 长读测序确定癌症的新结构变异
2023年2月22日,希望组与华中科技大学同济医学院等团队合作在PLOS Genetics上发表了题为“Long-read sequencing identifies novel structural variations in colorectal cancer”的研究论文,本研究提供了一个示例,说明长读长纳米孔测序在癌症基因组研究中的实用性。这项工作强调了长读长测序作为CRC精确诊断和治疗的新平台的潜力,并描绘了CRC中长读长测序检测到体细胞SVs的第一个图景,这可能是未来生物学和临床研究的有用资源。(长读测序确定癌症的新结构变异

希望组自成立以来一直深耕长读长测序技术与应用开发,凭借多年深厚的技术积累与合作伙伴的充分信任,在科研服务和医学研究等领域不断产出重大科研成果,今年6月更是实现了CNS大满贯。未来希望组将继续专注于长读长测序领域的开发与拓展,迎接新的机遇与挑战,力争与合作伙伴一起取得更好更多的科研成果,推动基因组学的研究与应用,让生命充满希望。

关于Nature Index
自然指数通过追踪机构和国家发表在82种高质量自然科学期刊上的科研论文,呈现全球高质量科研产出及合作情况。

喜讯 | 希望组医学检验实验室满分顺利通过CAP认证

近日,美国病理学家协会(College of American Pathologists,CAP)官网公布了评审结果,希望组医学检验实验室以零不符合项、满分的优异成绩顺利通过审核。此次满分通过CAP,充分证明希望组医学检验实验室优异的检测能力,同时更有力地保障了实验室高标准的检测要求!

 希望组医学实验室CAP证书

在评审过程中专家组通过对实验室现场实地考察、记录抽检、原始资料文件审核以及一对一访谈等方式,分别对实验室的质量管理体系、标准操作规程、记录控制管理、数据分析系统等进行了全面仔细的审核,专家组一致认为实验室总体符合CAP 评审的要求。

希望组医学检验实验室建立了完善的质量管理体系,始终坚持标准化、文件化,严格按照SOP要求运行体系并持续改进,同时通过质量月等方式不断提高全体员工的质量意识和安全意识,更好地保障检测结果的质量。

CAP专家组现场评审及合影留念

希望组医学检验实验室本次以“三代单分子检测DMD基因全长”项目申报CAP评审,该项目采用DMD基因全长捕获和三代单分子测序技术,整个过程包括了实验生产、三代测序、生信分析和数据解读。全流程各个环节,均满分通过。希望组医学检验实验室也是首家以三代项目通过CAP认证的实验室。

由美国病理学家协会组织的临床实验质量认证计划,在全球被公认为是行业的“金标准”,CAP是针对医学实验室开展的一项国际项目认证,也是对实验室技术管理水平的全面认可,通过该认可意味着诊断质量与水准进入国际最高水平行列,并获得国际间各相关机构认同。

希望组医学简介

希望组医学自成立以来,一直专注于三代测序平台的技术开发和应用拓展,在遗传病领域积累了丰富的临床经验,立足于临床和科研的需求,研发的一系列基于三代测序平台的基因检测项目,突破现有测序技术面临的瓶颈和挑战,切实提高遗传病诊断检出性和准确率,以完善的质量管理体系保障检测结果的准确性及稳定性,多次通过国家卫生健康委临床检验中心(NCCL)、美国病理学家协会(CAP)等权威机构组织的室间质评和能力验证项目。

希望组医学检验实验室会秉承“质量为先,标准为本,管理为要,服务为诚”的信念,保持一如既往的超高质量,并不断地探索和研究,提高技术,为客户提供更优质的服务。

第一届CGM线下沙龙在武汉成功举办

2023年7月21-22日,第一届华人基因组学沙龙线下沙龙在武汉光谷希尔顿酒店顺利召开!本次线下沙龙由CGM基因组学沙龙主办,武汉希望组生物科技有限公司、武汉迈特维尔生物科技有限公司、PacBio承办,由上海七牛信息技术有限公司、北京并行科技股份有限公司、北京投必得文化传播有限公司赞助。

华人基因组学沙龙(Chinese Genomics Meet-up,CGM)是国内外目前基因组领域活跃的在线学术交流平台,在分子生物学、遗传学、基因组学、生物信息学、生物统计学、进化生物学相关领域具有一线的关注者与开展最新的学术交流活动。作为由志愿者联合举办的非盈利的学术活动,CGM区别于大多数国内其他学术和杂志宣传平台,沙龙报告以发表文章的第一作者为视角开展交流研讨,主要对象是在读的硕士/博士、博士后、青年研究人员以及一线进行各自项目实际分析和操作的亲为者。

开幕式由CGM基因组学沙龙主席武志强、武汉希望组生物科技有限公司CEO汪德鹏分别致词并宣布第一届CGM线下沙龙正式开始!本次沙龙主题 “一起向未来”,以技术培训、学术报告等形式开展。来自佛山鲲鹏研究所、广东省农业科学院、华南农业大学、华中农业大学、南京农业大学、云南大学、中国科学院动物研究所、中国科学院遗传与发育生物学研究所、中国农科院深圳农业基因组所、中国农业科学院作物科学研究所、浙江大学等(按拼音顺序排序)的专家学者们齐聚一堂,聚焦动植物、微生物以及医学领域的多组学研究,开展为期两天的沙龙学术报告研讨。本次线下沙龙设置2个分会场,共进行技术培训和学术报告46场,现场座无虚席、学术研讨氛围浓厚。本次线下沙龙旨在促进科学工作者们之间的交流与合作,推动各学科的发展创新和转化应用。

南京农业大学程宗明教授做了题为“学术期刊助推青年学者成长”的报告。该报告从《Horticulture Research》和《Plant Phenomics》主编角度讲述了期刊如何助推青年学者成长,青年学者如何参与期刊的发展,共同建设一个健康的学术生态圈和命运共同体。

华中农业大学梁梅教授做了题为“单段种系特异的反向重复序列介导物种形成”的报告。在此报告中,梁梅教授介绍了在猴面花(沟酸浆属)中的一个物种形成位点YELLOW UPPER ( YUP ),它包含一个反向重复区域,该区域以分阶段的方式产生siRNA。虽然反向重复来源于不参与花色素形成的蛋白质编码基因的部分重复,但其中一个siRNAs靶向并抑制了花类胡萝卜素色素形成的主调控因子。YUP在沟酸浆属亚分支中作为一个”超级位点”,与控制花色其他方面的两个蛋白编码基因一起出现,并在后代物种中促进了随后的表型多样化和传粉者介导的物种形成。

武汉希望组生物科技有限公司CEO汪德鹏做了题为“从 T2T 泛基因组育种到长读长多组学”的报告。T2T 基因组组装对单个物种来说是最高标准,但对泛基因组来说是最低标准。希望组在经过杜仲、花生、玉米、小麦、落叶松、百岁兰、肺鱼、南极磷虾等几百种不同大小和难度的基因组组装项目的磨砺后,积累了深厚的经验。对于动植物来说,泛基因组的价值体现在以更全局的角度对动植物进行研究,这也是最能体现出 T2T 基因组价值的地方。如果没有 T2T 基因组为依据,各物种的基因组研究和应用是有一定局限性的。

在轻松愉快的氛围和热情互动的交流探讨中,CGM线下沙龙活动圆满结束。感谢到场的专家老师对本次技术沙龙活动的支持和关注,以及多位报告人的精彩报告。希望这一整天的思想充电,能使大家收获更多学术思路,一起为生物科学的发展添砖加瓦。

第一届CGM线下沙龙-第一轮通知

华人基因组学术沙龙(Chinese Genomics Meet-up,CGM)是国内外目前基因组领域较为活跃的在线学术交流平台,在分子生物学、遗传学、基因组学、生物信息学、生物统计学、进化生物学相关领域具有一线的关注者与最新学术交流。CGM是一群志愿者联合举办的非盈利的学术活动,区别于其他国内的各种学术和杂志宣传平台,CGM以发表文章的第一作者为视角,主要对象是在读的硕士/博士、博士后或者青年研究人员,都是第一线进行各自项目实际分析和操作的亲为者。

目前CGM已举办累计348期在线学术沙龙活动,目前国内区已形成较为稳定的基因组学相关的听众,具有一定的业界影响力。至此疫情开放后,国内相关学术成果丰硕,线下交流便利、学术氛围浓厚、交流兴趣激增。举办系列线下、线上学术分享与交流会恰逢其时。

第一届CGM线下沙龙定于2023年7月21日-22日在湖北武汉召开,将邀请国内外相关领域取得突出成果的专家学者与优秀青年进行学术报告。旨在促进科学工作者们之间的交流与合作,推动各学科的发展创新和转化应用。组委会诚挚邀请国内外同行和相关高校、科研院所研究生参加本次大会。

会议信息

会议主题:一起向未来·武汉CGM基因组学术沙龙专场
会议时间:2023年7月21日-22日
会议形式:线上线下结合(线下100-150人,线上300人)
会议地址:武汉光谷希尔顿酒店(武汉市东湖新技术开发区花山生态新城春和路9号)
主办单位:CGM基因组学术沙龙
协办单位:武汉希望组生物科技有限公司   武汉迈特维尔生物科技有限公司   PacBio
大会主席:武志强 胡冠菁 杨金良 祁新帅
组委会委员(按姓氏拼音顺序):郭士成 胡冠菁 胡海飞 侯壮伟 李方平 庞志强 祁新帅 汪德鹏 武志强 吴勇延 杨金良

会议日程

大会邀请报告人
(首字母排名,排名不分先后)

会议注册报名
线上19元/人,线下99元/人,线上注册截止日期为7月20日,7月21-22日为现场注册

线上注册地址:

(注:线下CGM会议包含午餐,住宿需自理。缴费但未能参会者,注册费不予退回,可由他人代替参会,线下仅限前100名。为鼓励研究生积极参与线下会议交流,本次会议设置研究生奖学金,参加线下会议的研究生可通过邮件申请该奖学金,接收申请邮箱:guochunyan@grandomics.com)

交通指南
武汉希望组生物科技有限公司到光谷希尔顿酒店:步行15min;
武汉天河机场到光谷希尔顿酒店:57公里,驾车约1h;
武汉站到光谷希尔顿酒店:13公里,驾车约13分钟;
汉口站到光谷希尔顿酒店:33公里,驾车约45分钟;
武昌站到光谷希尔顿酒店:33公里,驾车约42分钟。

住宿建议
希尔顿酒店800元/晚;
花山月酒店468元/晚;
斯特莱酒店440元/晚;
泊居精品酒店230元/晚;
谊尚酒店200元/晚。

招商赞助
赞助展位开放中,欢迎积极申请

会务组联系方式
王女士17835424570
郭女士18339689233
武老师13530406763

一峰更比一峰高 | Revio运行突破 100张芯片,产出再创新高!

自PacBio Revio入驻希望组科技服务实验室以来,运行平稳高效,芯片上机测序时间缩短至24h,2台Revio每天可同时运行8张芯片。目前已有100张芯片数据下机,综合现有数据来看,Revio单张芯片的产量大于100Gb的约占35%,QV值平均在Q30以上。希望组在拥有十一年长读长测序经验的基础上,将更加潜心钻研技术,努力提升服务质量,为客户挖掘最有价值的数据!

本次所展示物种包括动物、植物以及鱼类等,让我们一起来看一下部分物种的测序结果:

通过Revio下机数据统计,所有样本产量均达到90Gb以上,QV值均达到Q30以上!

此外,我们还对动物以及植物样本的平均产量进行了统计,发现动物样本的平均产量为100.81Gb,植物样本的平均产量为95.91Gb,总的来说,Revio在产量、时间、准确度等各方面均有较大提升,产量可稳定在90Gb以上,单cell产出最高纪录为118.96Gb,平均碱基质量值达Q30以上,从收样到数据交付7天即可完成,为组装和分析提供了坚实基础,利用Revio平台的优势将其应用价值发挥到极致!

武汉希望组医学检验实验室有限公司 危险废弃物产出明细公示表(2022年度)

武汉希望组医学检验实验室有限公司
危险废弃物产出明细公示表(2022年度)
组织机构代码91420100MA4KXQ2J1P
法定代表人汪德鹏
生产地址武汉市东湖新技术开发区花城大道8号武汉软件新城C11栋17楼
生产经营内容(共1个一级诊疗科目)医学检验科(临床免疫、血清学专业,临床细胞分子遗传学专业)
序号12
危险废弃物类别HW01医疗废物HW49其他废物
危废名称感染性医疗废物其他废物
危废代码841-001-01900-047-49900-041-49900-039-49
处置方式Y10医疗废物焚烧C1水泥窑共处置
主要成分废弃离心管、废吸头、废试剂瓶和废采血管,一次性医用口罩、手套、帽子等实验用品实验室废液、废试剂瓶、废弃滤料、废活性炭等
产废工序一次性医用口罩、手套、帽子等实验用品为检验人员使用后医疗废物,废弃离心管、废吸头、废试剂瓶和废采血管为接触过样本或检验试剂的废弃医疗废物。1.高通量测序技术又称“下一代”测序技术,以能一次并行对几十万到几百万条 DNA 分子进行序列测定和一般读长较短等为标志。主要实验内容包括样品提取、 检测、文库构建及高通量测序。2.荧光定量 PCR 检测的所有样本为外部采血送检或拭子样本,主要实验内容包括样品提取和检测。实验过程中使用试剂盒试剂产生的其他废弃物。
危险特性潜在感染性潜在毒性
安全措施我机构产生的医疗废物统一使用专用医疗垃圾袋密封,经次氯酸钠喷洒、高温高压等消毒措施处理后集中存放于医疗废物暂存间医疗垃圾桶。医废暂存间由专人进行管理,暂存环境使用次氯酸钠和紫外灯照射消毒,医疗废物委托给武汉汉氏环保工程有限公司处置。其他废弃物经专人收集、保存、管理,建立管理台帐,委托给华新环境工程(武穴)有限公司处置。
贮存区域医疗废物暂存间废物暂存间
处置去向武汉汉氏环保工程有限公司华新环境工程(武穴)有限公司
暂存间管理员陈青莲15088774572赵云龙13628692752
紧急联系人陶庆15572523735陶庆15572523735
相关联系人杨婷婷15012731512杨婷婷15012731512
产生量(2022年)(单位:吨)25.8890.247
转运量(2022年)(单位:吨)25.8890.247
库存量(2022年)(单位:吨)00

源代码公开 | 希望组正式公开NextDenovo软件源代码

2013年3月11日,希望组(未来组)开始提供三代测序服务,成为中国首家三代测序服务公司。在不断探索与进化的过程中,公司首席生信技术官胡江团队自主研发了三代测序基因组组装领域著名的组装软件NextDenovo,该软件在极大减少计算资源和运行时间的前提下,仍然能够组装出高质量基因组,具有高纠错、高效率、高准确度的优势。今天,在我们正式提供三代测序服务第十周年,我们向全球公开该软件的源代码,并同时预印发布NextDenovo软件科学论文《An efficient error correction and accurate assembly tool for noisy long reads 》,为整个行业的健康、快速、高质量发展做出自己的贡献。

目前,该软件在论文发表之前已经累计下载11000余次,助力发表文章约500篇,受到国内外众多专家学者的一致认可和好评。


为了让大家更多的了解NextDenovo的一些背景,我们专访了希望组首席生信技术官胡江,内容如下:

1.请问当初你研发这个软件的原因是什么?
大约在2018年初,全世界组装软件做PacBio或Illumina数据的比较多,适用于Nanopore测序(ONT)数据的组装软件很少,因当时ONT测序的错误率非常高,要真正使用这些数据进行组装,要么极其消耗计算资源,要么组装效果非常差,导致我们大量ONT测序的de novo组装项目积压、交付困难,为了解决这个全球性的技术难题,我们专门立项开发NextDenovo。

2.你觉得NextDenovo的优势在哪里?
要说优势的话,可能在某些物种的组装完整度上,比如说像我们做的玉米,我们能组装到60M,现在行业里绝大部分组装软件可能只能装到20M,这个对比还是很明显的。另外一个优势就是我们可以从算法上从底层上去调整、修改,可以大范围的去解决在组装过程中每个物种所特有的个性化问题,这个大部分其他商业公司做不了的,因为大部分其他商业公司都只是使用别人开发的软件,底层的东西没法改变,但是我们可以在遇到困难的时候随时修改。

3.请问你为什么选择公开源代码?软件还会不会进行持续更新,NextDenovo和NextDenovo2有何区别?
公开一方面是为了进一步为科研领域做一点分内贡献,另一方面也是很多用户的需求。NextDenovo是针对PacBio CLR或者ONT这种高错误率的数据开发的,组装出来的结果是一个嵌合体,同时也无法直接组装出近T2T水平。NextDenovo2是针对ONT新数据即长又准的特点开发的,主要是用于组装多套基因组(分型),另外可以用于直接组装T2T水平的基因组。

4.如今科技发展迅速,你觉得未来有没有其他软件超越NextDenovo?对此你怎么看?
对于组装软件来说,每一个软件都有自己的特点,不存在哪个软件绝对好,大部分软件在某些数据或者某些物种上表现优于其他软件,但是在另外一些数据或者物种上表现就会差一些。同时,在内存消耗或者运行时间,组装结果准确度上来说,每个软件都有各自的优势,用户可以基于自己的需求选择合适的软件。作为一个组装软件开发者来说,我们的工作就是基于技术的更新,不断更新自己的软件,同时积极解决用户的问题,帮助用户快速了解、运行软件。我们可能会一直存在的一个优势就是,我们有大量的项目训练,会使NextDenovo软件继续一直的不停升级、迭代,从而大概率持续保持竞争力。

5.给我们一些想学习软件开发的人的一些建议吧?
首先就是去把我们常用的软件的文献看懂,还有一些基础的算法,比如比对算法,都有很多详细的计算一定要看懂。因为生信的算法相对来说还是比较简单的,因为都是学生物的人写的,所以不像谷歌、百度这些公司的写的那么复杂。还有就是要不断地要花时间去研究,沉下心来,总是会有收获的。

6.最后,你能介绍一下NextDenovo软件名字的来由吗?
我们开发这个软件的时候,借鉴了华大基因当年开发二代测序软件取名——SOAPdenovo,我们想,我们是中国第二家真正开发组装软件的公司,我们又是在三代测序新技术上开发的,我们干脆就叫NextDenovo吧,就是Next-Generation Denovo的意思,我们的初心是做下一代的最前沿的组装算法和工具。

西安交通大学 叶凯教授

在基因组领域,常用和好用的软件往往是欧美顶尖实验室开发的,这导致我国在样本资源丰富、数据质量并不落后的情况下,总是落后半拍。NextDenovo的开源发布,为我国基因组研究提供了关键技术支撑,为世界基因组研究贡献中国智慧。希望组作为一家企业,发布自主研发的计算方案,却不限制商用,为领域树立了一个标杆,开启了我国基因组领域企业、科研单位开放合作、交叉创新的新篇章。

中山医院眼科 肖传乐教授

NextDenovo是一套非常优秀的序列校正和组装软件。该软件的校正算法详细设计了针对重复区域的校正方法,相比Canu和NECAT相比,该软件在重复区域的校正方面表现出色。因此,该软件特别适合用于校正含有重复区域的超长读长序列,校正后序列的精度可以高达97%-99%,高精度的重复区域校正使得后续的端到端组装变得容易和简单。高精度超长读长校正数据与HIFI数据能够充分发挥其超长和高精度的优势,从而显著提高了端到端基因组组装的成功率,这也是希望组公司成功组装端到端基因组案例最多的原因之一。此外,各种基因组组装软件性能在不同基因组中表现都不一样,其主要原因是组装软件开发者没有足够的数据对软件进行反复提升,而NextDenovo源于希望组公司,可以很好克服这个问题。NextDenovo经历了各种复杂基因组组装难题的提升,并成功应用于许多超复杂和巨大的基因组组装。这些宝贵的经验将被写入NextDenovo软件算法中,值得我们科研人员学习和借鉴。”

昆明动物所 吴东东研究员

三代基因组测序技术飞速发展,相关研究领域也迎来新的一波助力。NextDenovo软件在三代测序数据方面表现出高纠错、高效率、高准确度的优势,尤其针对价格相对便宜的Nanopore 三代测序数据。软件自从公开后,在行业内引起广泛关注和使用,不乏肺鱼、南极磷虾等超大基因组的组装。 相信NextDenovo系列软件必将助推三代测序技术在人类队列泛基因组、精准医学、肿瘤基因组、遗传疾病诊断、农业基因组辅助育种、保护基因组学等等方方面面的应用。

希望组 CEO汪德鹏

10年前,我们学习Michael Schatz、Evan Eichler、Michael Snyder、Au Kin Fai、Jason Chin等行业领导者文章和报告,在全世界学术开放、合作的环境中成长;今天,10年之后,也应该我们为全世界学术界贡献我们自己的研发成果,为全球学术开放和合作添砖加瓦。

本次NextDenovo公开源代码后,我们将继续研发它的升级版本NextDenovo2,NextDenovo2将主要瞄准三代测序T2T基因组组装。NextDenovo开源之后,将不再限制基因组的大小,也不再限制基于NextDenovo的商业使用,但是,如果需要全方位的技术支持,希望组将继续为全球客户提供技术支持服务。

使用NextDenovo软件组装的基因组已发表文献精选:
01南极磷虾基因组
文章:The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights.
发表期刊:Cell

02非洲肺鱼基因组
文章:African lungfish genome sheds light on the vertebrate water-to-land transition.
发表期刊:Cell

03苏铁基因组
文章:The Cycas genome and the early evolution of seed plants.
发表期刊:Nature Plants

04燕麦基因组
文章:Reference genome assemblies reveal the origin and evolution of allohexaploid oat.
发表期刊:Nature Genetics

05中华绒螯蟹基因组
文章:“Omics” data unveil early molecular response underlying limb regeneration in the Chinese mitten crab, Eriocheir sinensis.
发表期刊:Science Advances

06樱花基因组
文章:Genome assembly, resequencing and genome-wide association analyses provide novel insights into the origin, evolution and flower colour variations of flowering cherry.
发表期刊:The Plant Journal

07红花槭基因组
文章:The chromosome-scale genome provides insights into pigmentation in Acer rubrum.
发表期刊:Plant Physiology and Biochemistry

08水稻基因组
文章:The telomere-to-telomere gap-free genome of four rice parents reveals SV and PAV patterns in hybrid rice breeding.
发表期刊:Plant Biotechnology Journal

09白菜基因组
文章:A near-complete genome assembly of Brassica rapa provides new insights into the evolution of centromeres.
发表期刊:Plant Biotechnology Journal

10西瓜基因组
文章:A telomere-to-telomere gap-free reference genome of watermelon and its mutation library provide important resources for gene discovery and breeding.
发表期刊:Molecular Plant

希望组NextDenovo助力破译迄今最大的2个动物基因组:南极磷虾(48G)和肺鱼(40G)

目前已知发表的最大的两个基因组: 南极磷虾(48G)和肺鱼(40G)的基因组组装都是由NextDenovo参与协助完成的。NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

(一)The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights

磷虾是磷虾属的软体甲壳类动物,是所有海洋生态系统的重要组成部分。南极磷虾(Euphausia superba)的生物量为3-5亿吨,是地球上最大的野生动物物种。磷虾基因组估计为42–48Gb,其庞大的基因组规模和复杂性阻碍了它的组装,并阻碍了对南极磷虾适应性遗传基础的研究。2023年3月2日,国际顶级期刊Cell上发表题为“The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights”的研究论文,揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。武汉希望组为本研究提供基因组组装服务,武汉希望组首席生信技术官胡江为共同作者。

发表期刊:Cell (IF:66.85)

研究对象:南极磷虾

主要测序技术:Hi-C、PacBio

主要完成单位:中国水产科学研究院黄海水产研究所、青岛华大基因研究院、德国阿尔弗雷德•魏格纳研究所、澳大利亚联邦科学与工业研究组织等机构

希望组贡献:提供NextDenovo组装技术支持

部分研究结果

01染色体水平基因组组装和评估

研究者利用PacBio、Hi-C结合短读长对南极磷虾(图1A)进行测序,使用NextDenovo v2.30 (https://github.com/Nextomics/NextDenovo)组装了48.01Gb的基因组,这是迄今为止报道的最大的动物基因组组装。它比墨西哥蝾螈大约大50%,比两种肺鱼大20%-30%。与120个已经组装的无脊椎动物基因组相比,该组装具有更长的contig N50(178.99kb)(图1B),scaffold N50更是达到了1.08Gb。南极磷虾基因组中的重复DNA异常丰富,使得基因组组装特别具有挑战性。研究发现,基因组组装中含有很大比例的串联重复(TRs)(25.77%),因为TRs很难组装,特别是对于长度大于50bp和高丰度的TRs(图1C)。南极磷虾基因组的重复区密度高于墨西哥蝾螈、肺鱼和两种孔雀石甲壳类动物(图1D)。该基因组组装结果表明,巨大的南极磷虾基因组可以归因于重复序列扩增。72.15%的基因组序列被鉴定为重复序列,在附加重复注释后达到92.45%,略高于报道的澳大利亚肺鱼(90.00%)(图1E)。南极磷虾、凡纳滨对虾和弗吉尼亚磷虾之间的DNA/CMC- EnSpm系统发育树显示,南极磷虾中没有显著扩张的特定分支(图1F)。

图1 南极磷虾基因组图谱及其重复序列特征

02南极磷虾环境适应的基因组基础

南极磷虾与其他真核生物一样,能够产生自我维持的昼夜节律(反馈回路)。这些包括主要的时钟抑制剂PER、TIM和CRY2以及直接调节CLK和CYC表达的三个关键昼夜节律转录因子VRI、PDP1和REV-ERB。该发现提供了磷虾生物钟的分子结构模型,证实了双反馈回路机制可能存在。进一步评估了生物节律反馈回路中基因表达的季节性差异,揭示了四个昼夜节律基因(CLKCRY1NEMOPDP1)在夏季和冬季之间的差异表达。CLKCRY1PDP1在夏季上调,而NEMO在冬季上调(图2A)。研究者在南极磷虾基因组中发现了25个显著扩增的基因家族(图2B)。12个直接参与蜕皮周期(6个家族)和能量代谢(6个家族)(图2C)。这些家族中的大多数基因都有表达,表明额外的基因拷贝具有功能(图2D)。编码卵黄蛋白(VTG)是无脊椎动物中一种重要的蛋黄蛋白,在能量需求旺盛的产卵季节提供营养库,包括CYSCPFKPKLR在内的其他能量代谢相关基因在夏季也表现出上调(图2F),PNLIPRP2的两个同源基因之一(一种消化脂肪酶基因)在冬季上调,此外,促进蜕皮和生长的基因(JHEJHE-like CXECHT10)在食物供应量高的夏季上调,而抑制蜕皮的基因(JHAMTCASP2)在冬季上调(图2F)。

图2 适应南极海洋环境的潜在基因组变化

该研究的主要技术亮点是组装有史以来最大的动物基因组,基因组中超丰富的TR DNA加剧了这一技术挑战,成为主要的生物学发现之一。该发现揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。

(二)African lungfish genome sheds light on the vertebrate water-to-land transition

肺鱼是现存最接近四足动物的近亲,并保留了由水生向陆生过渡相关的祖先特征。现存的6种肺鱼,有4种生活在非洲,1种生活在南美,还有1种生活在澳大利亚。2个不同的研究团队分别以非洲肺鱼和澳洲肺鱼为研究对象在国际顶级期刊CellNature上发表了研究成果。肺鱼基因组是迄今为止报道的最大的动物基因组(约40Gb),基因组中大量的重复序列(>60%)进一步增加组装的难度,希望组凭借领先的ONT Ultra long测序和自主开发的NextDenovo基因组组装技术分别助力两研究团队完成了高水平的基因组组装,其中,为非洲肺鱼文章提供了Nanopore测序和NextDenovo、NextPolish软件的使用,使得该超大基因组的BUSCO评估达到95%以上,武汉希望组生物科技有限公司胡江为本文的共同第一作者。

图3 非洲肺鱼

发表期刊:Cell (IF:66.85)

研究对象:非洲肺鱼

主要测序技术:Nanopore1D、BioNano和Hi-C

主要完成单位:西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室等

第一作者:王堃、王俊、朱成龙、杨连东,任彦栋、阮珏、范广益、胡江(希望组)

希望组贡献:提供基因组测序和NextDenovo、NextPolish软件及组装技术支持

部分研究结果

01非洲肺鱼染色体基因组组装、重复序列与进化分析

研究团队利用Nanopore Ultra long、BioNano和Hi-C测序,采用NextDenovo + wtdbg2 + NextPolish策略组装,最终获得约40.05 Gb的基因组,Contig N50达到1.60 Mb;结合BioNano和Hi-C数据对基因组构建Scaffold和辅助染色体挂载,最终得到17条染色体,Scaffold N50 2.81 Gb,染色体挂载率达到99%以上。BUSCO评估显示该基因组包含了95%以上的脊椎动物完整基因。非洲肺鱼基因组如此巨大主要是由TEs的扩张引起的,非洲肺鱼基因组的61.7%(24.7 Gb)被注释为重复序列。研究团队通过分析Kimura distance估算了TE历史扩张活动,结果表明TEs,特别是反转录转座子,在过去7000万年中一直活跃。基于基因组组装和注释结果,通过对8种脊椎动物的5149个单拷贝基因进行系统发育重建,证实非洲肺鱼是与四足动物最近的姐妹谱系,非洲肺鱼和四足动物的分化时间可追溯到泥盆纪伊始,估算为419 MA。

图4 非洲肺鱼染色体水平基因组组装和进化史

02 基因改变增强了呼吸能力

肺呼吸能力的进化可能经历了三个步骤:第一步是硬骨鱼的共同祖先已具备了最初级的呼吸空气的能力(已有文献支持),本研究中检测到所有硬骨鱼中存在Sftpb同样也证实这一观点。第二步是通过诸如Sftpc的出现和邻近Foxp1的保守非编码元件(CNEs)等基因创新,肉鳍鱼类的共同祖先获得了增强空气呼吸的能力。第三步可能是进一步的基因创新,包括SftpaSftpd的出现以及Foxp2附近保守非编码元件(CNEs)的出现,为四足动物进化出呼吸系统提供了最后的关键基础。

图5 肉鳍鱼类肺呼吸功能的演变

希望组作为三代测序行业的引领者,拥有完备的三代测序平台,强大的生物信息团队,拥有自主研发且在基因组组装领域被广泛应用的NextDenovo系列算法。已为众多科研院所提供优质的测序及分析服务,积累了丰富的项目经验。

欢迎拨打电话153 8703 7487

或联系您身边的科技顾问,

或发邮件至inquiry@grandomics.com咨询!

NextDenovo软件 | 组装领先一步,发文章领先一大步!

自ONT测序数据用于基因组组装以来,适用软件一直很少,且市面上的组装软件要么极其消耗计算资源,要么组装效果非常差,该问题不仅导致大量ONT de novo项目积压、交付困难,更阻碍了高质量基因组组装及其后续科学研究,基于此希望组集团首席生信技术官胡江先生主导开发了NextDenovo软件用于解决上述组装难题。

近日,由希望组、中国科学院昆明动物研究所联合在bioRxiv预发表了题为“An efficient error correction and accurate assembly tool for noisy long reads”一文,介绍了目前广泛使用的组装工具NextDenovo,它能够快速纠正三代高错误率数据并进行后续组装,与其他类似工具相比错误更少,速度更快。

NextDenovo首先进行测序read之间的比对(图1A),然后过滤掉重复比对,同时根据比对深度分割嵌合的reads(图1B)。NextDenovo采用了kmer评分链(KSC)算法执行初始化的矫正,值得说明的是该算法也成功在我们之前发布的polish工具NextPolish中使用(图1C)。最后,从校正的区域中提取低分值区(LSR,对应高错误率区域),做进一步矫正(图1D)。进一步利用人类基因组chr.1的模拟数据和实际的生物样本测序数据,对NextDenovo、Canu(v2.0)和Necat(v0.0.1)的纠错性能进行测试。结果表明就校正速度而言,NextDenovo在模拟数据上分别比Canu和Necat快7.44倍和1.13倍,在实际生物数据上分别快69.25倍和1.63倍。对于校正后的数据大小,NextDenovo可以分别在模拟数据和实际生物数据上校正比Canu多2.21%、4.54%的数据,但比Necat少1.65%、1.00%的数据。重要的是,在模拟数据和实际生物数据上,NextDenovo校正reads的平均错误率分别比Canu低1.82%和1.31%,比Necat低0.35%和0.09%。NextDenovo校正reads的平均精度高于99%,接近PacBio-HiFi reads 准确度,而校正后reads的长度比HiFi reads长得多。总之,NextDenovo不仅纠错速度更快,而且纠错后reads错误率更低、更均匀,嵌合比例更少。

图1 NextDenovo组装示意图

研究者进一步利用NextDenovo对35名不同人种的ONT测序数据进行高质量基因组组装(其中非洲13名,东亚6名,东南亚4名,南亚6名,中东2名,欧洲2名,大洋洲1名,美国1名)(图2A)。基于单核苷酸多态性(SNPs)的主成分分析(PCA)与1000个基因组计划数据集的整合表明,35个基因组共同覆盖了现代人类存在的大部分遗传多样性。研究者首先评估了NextDenovo与Flye在人类基因组组装方面的性能(图2B)。NextDenovo和Flye组装得到的基因组大小相似(2.83 Gb),基因组覆盖率约为90.84%,但与Flye相比,NextDenovo组装覆盖了更多的单拷贝基因,保留了更多的多拷贝基因。此外,与玉米和水稻基因组组装的结果一样,NextDenovo组装比Flye组装包含更长的NGA50(大1.03-1.61倍)和更少的contigs (LGA50的68.18%-96.97%)。更重要的是,NextDenovo组装平均包含388个错误装配,约为Flye组装的70%,而NextDenovo组装的平均QV也略高于Flye组装。

图2 35个人类基因组的从头组装

片段重复(SDs)是复杂的DNA片段,具有几乎相同的序列,很难通过短读长来组装。长读长基因组测序组装技术的发展促进了SDs的检测。本研究通过使用“片段重复进化结构的Brisk推断”(BISER),确定了每个个体平均133.6Mbp的非冗余SD序列,大约相当于人类基因组的4.7%。研究结果表明,总SD大小和基因组大小之间存在显著的相关性(R2=0.9641,p<2.2e-16)。根据非洲和非非洲组装之间的SD频率差异,进一步确定了非洲特定的SD热点。结果表明,高度分化的热点在着丝粒周围区域富集(图3),这与T2T-CHM13中预测的基因组不稳定性热点一致。

长读长组装为全面发现片段重复,特别是涉及SDs的重复基因提供了希望。研究者认为这些高质量的组装应该有助于检测基因重复(图3)。特别是在10个个体(包括8个亚洲人和2个非洲人)中发现了具有开放阅读框和多个外显子的唾液淀粉酶(AMY1)基因拷贝的增加。例如,来自越南和泰国的两个人分别获得了4个和3个额外的AMY1基因,这可能有助于提高他们消化大米等淀粉类食物的能力。事实上,AMY1基因额外拷贝的获得被认为是高淀粉饮食人群的特征,尤其是东亚和东南亚人群。此外,四个基因家族簇,包括优先表达的黑色素瘤抗原(PRAME)、嗅觉受体(OR)、G抗原(GAGE)和黑色素瘤相关抗原(MAGEA),显示出具有同源基因的密集SDs簇(图3)。因此,长读测序使准确组装那些具有高度相似的同源簇特征的基因组区域成为可能,包括那些包含扩展的串联重复基因的基因组区域。

值得一提的是由于纠错步骤所赋予的高准确度,NextDenovo可以得到更多包含错误极低的连续组装。在组装ONT“超长”reads时优势更为明显,因为NextDenovo可以产生部分或接近染色体水平的组装,这不仅适用于人类基因组的组装,也适用于复杂植物基因组的组装。

图3  重复基因和SD热点的分布

总之,本研究介绍了一种高效且准确度高的适配ONT数据的组装工具NextDenovo,该工具在测试数据和真实人类基因组的组装中效果极佳,对比其他软件优势明显,在基因组组装领域应用广泛。NextDenovo软件的使用将为种群规模的长读长数据基因组组装铺平道路,从而促进利用纳米孔长读测序数据进行人类泛基因组的构建。