项目文章 | 希望组异源四倍体组装案例——象草

象草超“能”,原因几何?

%、13%的木素,是生产高生物量、多种素素、草料和多种植物的重要植物。的炭原料,约45吨/公顷。理想下可收获3-4次。拥有如此巨大的量,但其本身却是天然生物基因的四倍体基因。的不同来源,却是四体基因。基因组组合,而不同的不同源头四种资源实现也分配。

近期,齐鲁源、齐鲁涛生物大学(山东省鲁涛生物大学)志课题组以及夏大学热带科学决策学院发表海南课题组于分子生态资源杂志上题为“染色体组长组合提供了不同的对科学院课题组”四倍体上确定了草草基础的鉴定和大象草的生物质(生物质积分)。研究和进化、基因家族分析、在项目中提供了新的视觉检测技术组合图谱、ONT超象草技术、ONT超象素基因组图技术、PacBio纳米技术、PacBio全长药物组合技术、Hi-D C技术以及下一个诺组件服务。

01 研究思路

02 研究结果

1. 源四倍体象草基因组的从头组件及注释

通过K-mer分析和流式细胞仪,象草的基因组排列预测为2.0 Gb和2.13 Gb。另外,通过K-mer分析的综合比例为1.3%。最终为2.22 Gb的组成序列当中,N50组合为 25 Mb8con。4N5M 组合 25 Mb。去 Gbtig 获得 N.46 组合后,con2.2.4 组合 N587 组合谱。90 Mb。10 倍的 Bioscaffold 以及 2.0.0 辅助的组合组合,通过了 N50 的基因组列表。 。 加载系数为 6.88% 的 N50146.844,BUSCO 97.8% M-9% 的评估为 C 77,19 帮助预测的一个。

图1 异源象草基因组圈图

2.异源四倍体象草的进化分析

禾本科植物和树种基因有不同的来源和类似的基因系统(图2)。三。禾本科植物的组合中线发生融合22马,植物形成组中线(图2b)。 2的编码基因’B亚的重建和染色体家族的后裔,1条染色体家族的共同支持,母体之间有2个基因组之间的关系。一个“基因组基因组整合”的源体组合(图2c和)似乎出现了3次多倍组化事件。中,一个亚组11492显着发现,1719个组,而象草B亚0031这些基因家族有2个发现有1个下来)。在进化过程中保留家族链(图)基因家族的家族基因组丰富的或能力亚基具有重要的分析能力。以及过氧化物的家族基因。

图2 狼蛛相关的尾草进化属中象草

3. 象草的生物量特性相关分析

在A’和B亚组中(图3b)的两个结果中,组和B亚组中的两个和三个重复分别出现的结果,A’B亚组的基因组序列相同。积分。

图3 象草的合成基因表达和速热图

136个基因的基因发现的木质素合成相关,个数源可能是由于对四象体形成了5亚种的加成。(图4b,通过WGCNA分析)鉴定了664个木质素合成的有加。

图4 象草和木素热合成的基因表达图

03 小结

本文利用三代长基因组基因技术以及辅助组件技术,象草生物量巨大的潜在成分组,为研究象草组的提供了组合、组合、组合、组合、多种组合化的重要和进化也为等方面提供了基础,其他开发利用的资源。

项目文章 | Nature Plants封面-苏铁基因组发布

种子植物包括裸子植物(gymnosperms)和被子植物(angiosperms),裸子植物分为四大类,即苏铁类(cycads)、银杏类(Ginkgo)、松柏类(conifers)和买麻藤类(gnetophytes)。裸子植物基因组较大,重复序列含量高,结构复杂,迄今为止,现存最原始种子植物苏铁分支尚缺少完整的基因组图谱。

2022年4月18日,由22个机构65位科学家联合在Nature Plants发表了题为“The Cycas genome and the early evolution of seed plants”的封面文章,报道了现存最原始种子植物苏铁参考基因组,填补了种子植物基因组研究的空白。苏铁基因组的发布,代表着种子植物基因组演化研究中的最后一块拼图完成,为后续比较基因组学的开展奠定了基础。希望组参与了本研究项目中攀枝花苏铁的测序、组装及初步注释服务。

苏铁基因组测序材料选取苏铁类的基部类群、也是整个苏铁类分布纬度最北的种类攀枝花苏铁(Cycas panzhihuaensis)。基于长片段测序与MGI-SEQ测序,苏铁基因组组装大小为10.5 Gb,contig N50为12Mb,结合Hi-C数据,挂载为11条染色体。其中共注释32,353个蛋白编码基因,BUSCO评估完整度为91.6%,是目前裸子植物中最高质量的大基因组图谱。

裸子植物具有4大分支,1118种,关于裸子植物内部大分支之间的系统演化关系一直有不同的学术观点。基于15个维管植物基因组3282个直系同源低拷贝核基因、90个种子植物转录组1569个直系同源基因、72种维管植物叶绿体和线粒体基因组数据的系统分析结果表明,苏铁单独(线粒体数据)、或和银杏一起(核基因、叶绿体数据)构成其它所有裸子植物的姐妹群。

基因组加倍是植物演化适应的重要驱动力,关于裸子植物共同祖先是否经历了全基因组加倍事件一直存在争议。研究者采用对重复基因同义替代分析和系统发育基因组学方法,并使用基因组内共线性区域进行比较验证,发现现存裸子植物的最近共同祖先可能经历了一次古老的全基因组复制事件(命名为ω,图一a)。伴随着种子植物起源,许多关键创新性状如种子发育、花粉、次生生长相关的基因家族均发生了创新或扩张。在种子植物的祖先节点共发现663个新获得的基因家族和368个扩张的基因家族。其中,106个新获得和55个显著扩张的基因家族与种子生理发育有关,包括调控胚胎早期发育、种子休眠和萌发、种子能量和营养代谢,种皮形成以及种子的免疫和应激反应等(图一b)。

图一、a) 基于系统发育关系推断种子植物的全基因组加倍事件;b) 种子植物的基因家族创新和扩张。

最显著扩张的种子生理相关家族是cupin蛋白家族。攀枝花苏铁编码一类新的vicilin-like贮藏蛋白 vicilin-like antimicrobial peptides(v-AMP),在基因组中呈串联基因阵列分布,多在授粉胚珠后期和受精胚珠时期表达,而后逐渐降低,暗示v-AMP基因在种子发育过程特定时期发挥重要作用。LAFL家族(LEC1ABI3LEC2FUS3)是种子发育核心调控基因,苏铁等裸子植物的FUS3LEC2基因可构成一个新的进化枝,定义为FUS3 / LEC2-like类型,与被子植物的FUS3LEC2形成姐妹分支关系。FUS3 / LEC2-like类别是裸子植物特有的。在攀枝花苏铁授粉后,其会表现出明显的表达,表明可能在裸子植物胚胎发生早期发挥特定作用 。

苏铁类起源于古生代二叠纪早期,距今已有至少2亿7千万年历史。在经历大量灭绝以后,现代苏铁多是近期几次辐射演化的后代。如今苏铁具有2科10属。研究者基于现存苏铁目339种植物的转录组数据,重建了苏铁类自身的系统发育关系。分子钟分析表明,现存苏铁的多样化同步发生于距今1100至2000万年之间,是中新世以来气候剧烈变化的结果(图二)。

图二、苏铁目系统发育树支持现存苏铁是辐射演化的结果

雌雄性别分化是一种进化性状。裸子植物已报道的1118个物种中,65%的种类都是雌雄异株, 而在被子植物中雌雄异株只占到6%。苏铁类植物均为雌雄异株(图三),由于其生长缓慢,以往只能在开花时才能判断性别,而成株树龄多在十年以上以及在适宜的环境才会开花。研究苏铁性别决定的分子机制,可以在植株进入花期前就确定性别,对于苏铁类植物的就地和迁地保护和园林培育具有重要意义。苏铁的性别控制基因一直困扰科学界。研究者通过对源于四川攀枝花苏铁国家级保护区62株雌雄苏铁群体测序,表达差异分析,和雄性Y染色体的组装,找到雌雄表达差异最大的一个基因来自雄株的Y染色体,该基因编码一个MADS-box转录因子,推测其调控雌雄苏铁的性器官发育,揭示了苏铁性别决定的遗传机制。该转录因子的同源基因也仅能在雄株基因组中检测到,说明了该性别决定机制在苏铁类植物中的保守性。

图三、a) 攀枝花苏铁;b) 攀枝花苏铁雄株和雌株的孢子体。

早期维管植物的精子都是有鞭毛,可以游动的。随着演化,鞭毛丢失。在现生种子植物中仅苏铁和银杏保留精子具鞭毛的特征。研究人员发现,苏铁和银杏均保留了大量鞭毛组装所需基因,但与苏铁相比,银杏中RSP类基因有一定的丢失(RSP2RSP3RSP 9, 和RSP11等)。此外,与鞭毛行使功能密切相关的外周致密纤维合成基因(ODFs),只在苏铁和银杏基因组中存在,在其它种子植物中则全部丢失。进一步证实了苏铁在种子植物演化中古老的地位。
水平基因转移泛指不同物种间的基因交流,在陆生植物适应性进化过程中起到推动作用。研究者在攀枝花苏铁基因组中发现一种细胞毒素蛋白基因(fitD),这种基因起源于细菌,通过水平基因转移的方式转移到真菌和苏铁中(图四a)。基于苏铁类339个物种转录组数据,研究人员发现该毒素蛋白只在苏铁属物种中存在。同时,fitD基因在种子和根部高表达,这可能也是苏铁种子和根部具有毒性的原因之一。基于基因重组技术,在大肠杆菌表达的毒素蛋白产物对小菜蛾和棉铃虫有显著致死性(图四b-f),显示出毒素蛋白具有一定的农业应用前景。

 图四、a)苏铁水平转移毒蛋白基因的演化历史。b-f) 苏铁毒蛋白基因表达,及对昆虫毒性实验。

该研究由深圳华大生命科学研究院、深圳市仙湖植物园、中国科学院昆明植物研究所、兰州大学、中国环境科学研究院、河南大学和南京林业大学等22个机构65位科学家联合完成。该论文第一作者为深圳华大生命科学研究院刘阳、王思博、李林洲、杨婷、魏桐,深圳仙湖植物园董珊珊,兰州大学武生聃等为共同第一作者,分别在基因组不同的领域贡献了自己的专业力量。深圳仙湖植物园张寿洲,深圳华大生命科学研究院刘欢,中科院昆明植物所龚洵,美国佛罗里达大学Douglas E. Soltis,比利时根特大学Yves Van de Peer为文章共同通讯作者。该项目得到深圳市城市管理和执法局科研专项、国家重点研发计划、生态环境部生物多样性调查与评估等基金支持。

项目文章 | 华中农大联合深圳基因所组装康乃馨染色体级别基因组并结合多组学数据解析花色、花型和花香等重要性状调控密码

康乃馨(Dianthus caryophyllus)是石竹科石竹属多年生植物。因其花色绚丽,花型独特,香气馥郁,深受世界各地人民的喜爱,被称作世界‘四大切花’之一,具有极高的观赏价值和经济价值。

2022年3月5日,华中农业大学园艺林学学院傅小鹏研究团队,联合中国农业科学院农业基因组研究所(简称‘基因组所’)武志强研究团队,在国际著名学术期刊Plant Biotechnology Journal上发表了题为“Integrated multi-omic data and analyses reveal the pathways underlying key ornamental traits in carnation flowers”的研究论文。希望组在本文章中提供了基因组测序及Hi-C测序服务!

该研究首次组装了康乃馨染色体级别的基因组,并结合比较基因组,转录组,代谢组等方法,系统地研究了康乃馨基因组的进化,并对康乃馨的花色,花型和花香等重要观赏性状的分子机理进行解析,鉴定了参与这些性状形成的关键基因。本研究的开展为定向改良康乃馨的观赏性状,培育康乃馨新品种奠定了基础。

研究团队利用第三代ONT、二代Illumina和HIC技术,对康乃馨栽培品种‘斯嘉丽’( D. caryophyllus, cultivar ‘Scarlet Queen’)进行了全基因组测序和组装。康乃馨(2n=30)的基因全长为636.30 Mb,重复序列占70.62%,共注释到43,925个基因,Contig N50 和Scaffold N50分别为14.67 Mb和38.55M。研究发现康乃馨与藜科在~64.07 MYA发生了分化,并经历了一次近期的WGT事件,这次加倍事件促进了康乃馨特殊香气丁香酚合成相关的基因的扩张。

图1.康乃馨基因组的组装与进化

基于本基因组,对康乃馨红边花瓣进行代谢组分析,发现天竺葵素的积累促使花瓣红边的成色,叶黄素和多个类黄酮物质的共同积累,促使花瓣基部成黄色;结合转录组分析,筛选到几个MYBs, bHLHs 和WRKY44等基因共同作用于ANS调控康乃馨复色的形成。同时,利用GC_MS以及转录组,对香石竹丁香酚在不同时期花瓣的积累过程进行解析,发现EGS基因存在外显子上的结构变异,其提前终止可能是康乃馨丁香酚丢失的原因。另外,研究发现康乃馨汇总A、C类基因的异位表达可能是影响重瓣型康乃馨形成的重要因素。

图2. 康乃馨花瓣花边颜色的形成

图3.潜在的康乃馨中丁香酚合成通路

 图4.康乃馨重瓣花形成的遗传机制

本研究为开展康乃馨重要观赏性状的调控和遗传改良提供了宝贵的数据信息和坚实的理论基础,对推动康乃馨分子育种育种具有里程碑式的意义。

华中农业大学博士张晓妮(现为基因组所武志强组博士后)为论文第一作者,华中农业大学傅小鹏教授和基因组所武志强研究员为共同通讯作者。该研究是在包满珠教授和BENDAHMANE教授全程指导和帮助下完成的。同时,该研究得到了国家自然基金、国家青年科学基金、深圳市科创委以及基因组所启动基金等的支持。

原文链接:https://onlinelibrary.wiley.com/toc/14677652/0/ja

文章来源:植物生物技术Pbj公众号

进展迅速丨高质量人类二倍体基因组组装策略来临

自T2T联盟于2021年5月在BioRixv预印版上发表了首个人类基因组完成图及相关文章之后,近日人类泛参考基因组联盟紧跟步伐在BioRixv预印版上发布了题为“Automated assembly of high-quality diploid human reference genomes”的文章。

样本来源

目前常用的人类参考基因组GRCh38,是科研团队花费20多年的努力而完成的高质量的人类基因组。该基因组极大程度上推进了生命科学相关领域的发展。但是它仍然存在着许多gaps(gap数已从原来的150,000个降低至了现今的995个)和错误。因为GRCh38是20位匿名志愿者的混合样本,所以并不代表单个个体的人类基因组。2021年,T2T联盟利用最新的长读长技术与自主研发的生信算法组装出了高质量端粒到端粒的参考基因组CHM13(首个人类基因组完成图)。由于它来源于一个带有重复基因的葡萄胎细胞系,因而几乎是纯合基因组。在组装难度上,纯合基因组比二倍体基因组组装相对较低。为了解决这些原有人类基因组序列的局限性,研究团队成立了人类泛参考基因组联盟(Human Pangenome Reference Consortium,HPRC)。该联盟旨在整合高质量、低成本、二倍体人类基因组,用以构建代表人类遗传多样性的人类泛参考基因组。

人类泛参考基因组联盟使用的是二倍体基因组,组装难度会更高。在样本选择上,选择了广泛使用的HG002的永生化淋巴细胞GM24385,用于ONT测序和Bionano光学图谱测序。二代illumina测序和PB测序数据使用的样本是由大量GM24385细胞而来的NIST标准样本8391 DNA样本。父系样本HG003和母系样本HG004分别来源于公开的GM24149和GM14143细胞系,并通过二代illumina测序对NIST标准样本8392(含HG002、HG003和HG004)的DNA进行测序。

组装策略及结果

本文是以HPRC的名义发表的首篇文章,该文章确定了当前基因组测序和automated组装方法的组合可以在人工干预最少的情况下产生最完整、最准确和最经济的二倍体基因组组装。在组装过程中,团队选择了最优的高精度长读长reads和父母本及子代数据进行单倍体分型组装(trio-based assembles)的方法。第一个高质量二倍体人类参考基因组(XY型),平均每条染色体仅有~4个Gaps(范围在0-12),大多数染色体长度和CHM13相比仅有±1%的差异。将近四分之一的蛋白编码基因在单倍型间存在同义氨基酸变化,而其中着丝粒区域变异的密集度最高。该研究为构建涵盖从单个核苷酸到大型结构重排的所有遗传变异的人类泛参考基因组奠定了基础。

测序及组装方法的测试总结

HPRC Trio pipeline v1.0组装流程图

小结

使用目前已有的方法和技术,研究者们可将二倍体HG002基因组的组装达到整体完整度的98.5%。利用这些方法组装不同的二倍体人类基因组,构建人类泛参考基因组,将会更全面地了解人类遗传多样性,提高精准医疗的准确性,并对生物基因组学有更深入的了解。

美国学者Erich D. Jarvis为论文的第一作者,中南大学王建新团队、中山医眼科肖传乐团队、中国农科院阮珏团队、昆明动物所张国捷团队以及华大基因杨琛涛团队均参与该项项目研究。

希望组一直致力于推动各个物种基因组完成图的组装及应用。近期还为动植物基因组完成组量身定制包含测序及组装在内的全套解决方案,敬请期待!

原文链接:https://doi.org/10.1101/2022.03.06.483034

PJ | 中南林科大、华中农大等联合破译狭叶油茶基因组,为解析油茶自交不亲和、油脂合成等重要性状的形成与调控提供重要参考

2022年3月20日,中南林业科技大学袁德义/张琳油茶科研创新团队,联合华中农业大学金双侠课题组等单位,在经典的国际植物学TOP期刊The Plant Journal上发表了题为“Chromosome-level genome of Camellia lanceoleosa provides a valuable resource for understanding genome evolution and self-incompatibility”的研究论文。希望组在本文章中提供了基因组测序及Hi-C测序服务!

油茶是我国重要的木本食用油料树种,在推进地方经济绿色增长、维护国家食用油安全和乡村振兴中占有十分重要的地位。茶油中不饱和脂肪酸含量达90%以上,还含有丰富的角鲨烯、维生素E、谷甾醇等物质,具有软化血管、降低血脂和血压的作用,是目前国内外最优质的植物食用油。目前,油茶主栽品种主要为多倍体的普通油茶(Camellia oleifera),由于油茶基因组大且亚基因组间的同源异源构成非常复杂,使得多倍体油茶基因组的解析非常困难,严重阻碍了油茶的分子遗传改良。狭叶油茶(Camellia lanceoleosa)是油茶组唯一的二倍体野生种,和多倍体普通油茶亲缘关系最近,破译狭叶油茶基因组不仅可以深入挖掘油茶资源中的优异性状,而且为油茶重要功能基因挖掘利用奠定了坚实基础,使得油茶育种不再是盲人摸象,从而开启了油茶分子育种育种时代。

研究团队利用三代Nanopore、二代Illumina和HIC技术,获得了狭叶油茶(2n=30)高质量染色体水平基因组。基因组大小约为3.00 Gb,杂合率高达2.2%,91.85%的序列被挂载到15条染色体上,共注释到54,172个基因。狭叶油茶重复序列占基因组的80.63%,其中转座子占比78.53%。深入分析发现,长末端反转录转座子家族长期而缓慢的扩增及在过去2百万年内的爆发式扩张,加之缺少快速有效的DNA删除机制,最终导致狭叶油茶基因组变得庞大。狭叶油茶与茶叶均为山茶科山茶属二倍体植物。比较基因组研究发现,狭叶油茶与茶叶共享最近的一次WGD事件,并在6-7百万年前发生分化,2号和11号染色体在狭叶油茶与茶叶间存在较大的倒位,这可能是油茶和茶叶在基因组结构上的一个重要变异。

图1 狭叶油茶基因组的组装

图2 狭叶油茶转座子的插入与移除

图3 狭叶油茶比较基因组分析

基于狭叶油茶基因组,结合GC_MS以及转录组分析,发现油脂合成的关键基因ACC的扩张及DGAT、GPD、SAD在种子的偏向性表达是狭叶油茶高油脂和高油酸含量的重要原因。儿茶素、茶氨酸、咖啡碱是茶叶品质的重要组成成分,基于UPLC-MS/MS技术的代谢组检测到狭叶油茶叶片也富含儿茶素和茶氨酸,而咖啡碱主要富集在种皮和根中,多组学分析结果表明,SAM-dependent N-methyltransferases与咖啡碱的积累与分布密切相关。细胞学分析显示,狭叶油茶也是后期自交不亲和植物。结合亲和性相关基因的表达、结构特征及染色体定位,解析了狭叶油茶的自交不亲和性特征。狭叶油茶的油脂含量、脂肪酸比例以及次生代谢物分布与含量都与普通油茶类似,以上性状的解析为理解普通油茶油脂合成等重要经济性状的形成与调控提供了重要参考。

图4 狭叶油茶自交不亲和特征解析

中南林业科技大学龚文芳副教授、肖诗鑫讲师及在读硕士生王林凯为论文共同第一作者,中南林业科技大学袁德义教授、张琳教授和华中农业大学金双侠教授为论文共同通讯作者,黄冈师范学院朱华国教授、胡孝明教授及中国农业科学院农业基因组研究所廖振阳博士后也参与了本项研究。本研究得到了国家重点研发计划项目(2018YFD1000603)、湖南省自然科学基金(2020JJ5968)的联合资助。

原文链接:

https://onlinelibrary.wiley.com/doi/epdf/10.1111/tpj.15739

技术突破丨希望组“10X+ONT-Q20+”长读长单细胞测序实测通过!!!

2021年ONT在科研团体大会(Nanopore Community Meeting)上发布了”Q20+”试剂产品。这是利用包含最新“Q20+”化学试剂并支持“双链”(Duplex)测序的新试剂盒LSK112和最新芯片R10.4相结合的测序技术,可以实现>99%的原始reads(单链)准确度,或约Q30的双链(Duplex)准确度。

希望组(GrandOmics)作为中国最早开展ONT测序服务的公司之一,一直走在技术应用的前沿,率先将高通量单细胞分选平台10X和ONT最新技术进行组合创新,给火热的单细胞测序领域,提供了全新的技术解决方案。

测试背景

2020年8月于Nature Communication杂志发表的题为“High throughput, error corrected Nanopore single cell transcriptome sequencing”的研究论文,将单细胞与Nanopore全长转录组进行了技术整合,使得在单细胞水平上检测差异RNA剪接和RNA编辑成为可能。利用Illumina对10X Genomics文库进行短读长测序,为每个基因和基因组区域定义相关的Cell Barcode,随后为每个细胞、基因或基因组区域定义相关的UMIs组合。进而利用上述信息指导Cell Barcode和UMI分配到已比对至基因组上的Nanopore reads,通过对相同UMI的reads进行分组,校正和拆分Nanopore测序reads,用于开展下游的isform分析和RNA编辑。考虑到ONT-Q20+测序即将成为行业新的长读长测序技术标准,我们迫不及待的进行了新的尝试。

测试方式

10X单细胞平台获得的全长cDNA分成两份,一份进行常规二代测序,另外一份进ONT Q20+R10.4测序,利用二代测序数据的UMI指导进行 ONT测序的数据拆分。

测试样本

某人类PBMC样本,采用最新GPU进行Super高精准度Basecalling。尽管大大提高了计算消耗,但预期可以得到最佳的单碱基质量。

测试结果

一、下机数据统计

下机数据质控统计表

Reads长度分布图

单张测序芯片的产量为36.7Gb,pass产量为29Gb。尽管产量仍有提升空间,但通过芯片及算法的升级,basecalling的准确度有了大幅度的提升,reads平均分可达到15.98,最终获得了20 Mb的reads进行下游分析,和其他长读长平台所产生的reads数相比,有着明显的产量优势。该芯片样本为单链测序样本,相信在”Duplex”的模式下,样本的测序准确度会有更进一步的提升。

2. 与参考基因组比对identity

左图Q20+R10.4的比对identity分布图,右图为LSK110 R9芯片的比对identity分布图

从图中可以发现,同个样本不同的测序试剂和芯片,对于最终比对identity的准确性有着显著的差异。LSK110 R9 base-calling fast模式的比对identity中位值在87.1%,Q20+R10.4的比对identity中位值达到了97.9%。整体数据的准确度有了明显的提升。

3.数据分解率

随着数据准确性的不断提高,利用二代UMI数据指导拆分三代全长转录组数据的比例也会有相应的提升空间,内部数据表明二代UMI数据指导拆分三代全长转录组数据的拆分率可达70%,远远高于Nature Communication文章里50%的拆分率。相信在“Duplex”模式下的数据表现会有更加亮眼。敬请关注希望组后续的相关报道!

当10x单细胞样本遇上Oxford Nanopore Q20试剂及R10.4芯片,有效提升UMI的数据拆分率,拥有更多有效数据进行下游分析。尽管“Q20+”目前处于试测阶段,但相信未来在基因组、转录组上的应用场景会不断增加。希望组早在2020年年底已经推出了利用纳米孔平台进行单细胞全长转录组的产品SCAN-seq。现在有了Q20试剂的加持,拓宽了单细胞全长转录组的应用场景和需求,可以为广大科研工作者提供更好、更优质、更前沿的技术!

项目文章丨PNAS封面!李家堂团队等揭示“飞蛙”滑翔的遗传机制

近日,中国科学院成都生物研究所李家堂研究团队等以云南西双版纳地区的“飞蛙”——黑蹼树蛙为研究对象,通过多维度研究手段,阐明了其攀爬和滑翔行为相关表型的遗传机制。相关研究在《美国科学院院刊》以封面论文形式发表。希望组在本研究中提供了三代测序组装、注释以及Hi-C测序、挂载服务。

动物复杂性状是动物长期适应演化的结果,是动物多样性形成的重要基础。自然界物种采取各种各样的进化策略以适应不同的栖息地,如高原、海洋、荒漠等。部分类群通过演化出了特殊的表型以适应树栖生活。树栖生活拓展了这些物种对垂直空间资源的利用,有助于它们躲避天敌,获取丰富的食物资源等。但森林环境复杂的立体结构也对动物的运动能力提出了严苛的要求。

在白垩纪末期大规模物种灭绝事件后,无尾目多个科的物种独立演化出了攀爬和滑翔的相关表型,并成功拓殖树栖生态位,黑蹼树蛙就是其中的代表性物种。黑蹼树蛙隶属于树蛙科,常年生活在热带雨林树冠层,是典型的树栖蛙类。据报道,其最高栖息高度达57米,为目前树栖蛙类停留高度的最高记录。黑蹼树蛙具有强大的滑翔能力,因此又被称为“飞蛙”,为揭开两栖动物树栖适应之谜提供了良好的动物模型。

 黑蹼树蛙,饶涛绘

近日,中国科学院成都生物研究所李家堂研究团队等以云南西双版纳地区的“飞蛙”——黑蹼树蛙为研究对象,通过多维度研究手段,阐明了与攀爬和滑翔行为相关表型的遗传机制。

研究团队选择了蹼发达的黑蹼树蛙(满蹼)和宝兴树蛙(微蹼)开展行为学实验。研究人员分别设置了1,1.5和2米的高台,让两种树蛙分别落下并记录运动轨迹。

结果发现
黑蹼树蛙在下降过程中会尽力撑开四肢,依靠满蹼维持空气动力学平衡,使其身体与水平面夹角始终小于宝兴树蛙。而宝兴树蛙则更像是在“跳楼”。这一结果提示树蛙的蹼在滑翔过程中起到重要作用,是支撑滑翔行为的重要性状。

两种树蛙形态学比较与行为学实验

两种树蛙蝌蚪发育时期的肢体形态学比较提示两者之间存在不同的发育模式。以两种树蛙高质量基因组为基础,结合蝌蚪四肢发育过程中的转录组数据,通过时序基因共表达网络分析,发现黑蹼树蛙蝌蚪肢体在发育阶段特异共表达一系列与Wnt信号通路和血管重构相关的基因。这种发育时期特异表达模式可能通过参与指和指间区域生长速率的调控对蹼足的形成起到关键作用。

两种树蛙蝌蚪肢体发育过程形态学比较与时序基因共表达网络分析

树蛙中调控角蛋白和细胞骨架形成的PPL基因受到正选择,且存在树蛙属内保守的氨基酸替换,这可能有助于树蛙攀爬相关性状——吸盘的形成。壁虎的刚毛主要由β角蛋白扩张形成,而树蛙指/趾尖吸盘的主要结构蛋白为α角蛋白,而α角蛋白同样是哺乳动物和人类毛发纤维最主要的成分之一。

“这些祖先角蛋白可能在早期四足动物需要皮肤强化的区域中表达,而随后分化为支持两栖动物和哺乳动物不同的适应性结构”。

本研究通过前期大量的野外观察,整合形态学、行为学和组学等学科研究手段,系统解析了“飞蛙”滑翔的遗传机制,为人类认识动物有趣行为提供新的视角,对动物特殊功能的仿生研究及人类并指症等相关疾病的防治有重要基础科学价值。

该研究成果以“Genomic adaptations for arboreal locomotion in Asian flying treefrogs”为题在《美国科学院院刊》以封面论文形式发表(点击左下角阅读原文)。本研究得到中国科学院B类先导科技专项、国家自然科学基金等项目的资助。

项目文章 | 中-非中心科研团队“百岁兰”基因组研究成果在Nature Communications上发表

背景资料
百岁兰(Welwitschia mirabilis)又名千岁兰,是买麻藤类单种科百岁兰科孑遗植物,系裸子植物中唯一的草状木本,是一种十分罕见的植物。化石记录百岁兰曾经广泛分布于巴西、葡萄牙等地。随着大陆板块分裂,气候骤变,自然居群幸存于如今的安哥拉与纳米比亚沙漠(纳米比亚国花)。是《濒危野生动植物种国际贸易公约》(CITES)附录Ⅱ保护植物,被国际植物学会列为世界八大珍稀植物之一。百岁兰一生只有两片叶子,持续生长不脱落,叶子寿命为植物界最长,其个体在原产地可存活达3000年之久,故此得名。
自2017年开始,在中国科学院中-非联合研究中心的组织下,中国科学院武汉植物园王青锋研究员团队、深圳中科院仙湖植物园万涛研究员团队以及纳米比亚Gobabeb研究中心、英国Kew皇家植物园、中国科学院植物研究所、英国伦敦玛丽女王大学、比利时根特大学等十余个合作单位的科学家联合启动了百岁兰基因组与适应性进化机制的研究工作。经过连续三年多次的野外观察和取样,采用第三代测序技术和Hi-C技术辅助组装注释获得了百岁兰6.8G的基因组全长序列,Scaffold N50达295.50 Mbp, 93.65%的序列锚定到了21条染色体上,结合RNA-seq、Bisulphite-seq、sRNA-seq、核磁共振、激素测定等分析,对百岁兰的演化历史和生态适应性进行了研究。希望组为本项目提供了基因组测序、组装、注释和标准分析服务。

图1,百岁兰形态、生境及其分布

研究发现,百岁兰物种分化产生之后约8千6百万年发生了一次独立的全基因组加倍(WGD),基因组在近1-2个百万年内经历了剧烈的转座子爆发,但高频的非同源重组抵消了大部分扩增的转座子序列。上述变化发生的时间和百岁兰所处纳米比亚沙漠的形成历史(约至少八千万年前形成的地球上最古老沙漠)具有很强的关联性。

图2. 百岁兰基因组演化动态和历史

通过对百岁兰原始分生组织和新老叶段的甲基化测序和比较,发现百岁兰基因组整体呈现极端重度甲基化,并通过CHH位点甲基化动态差异来特异性调节沉默转座子,以维持分生组织细胞基因组完整性,避免DNA的有害突变。有意思的是,重度的甲基化似乎加速了百岁兰基因组脱氨基的速率,使得其G-C含量异常低。在漫长的极端干旱和贫营养的条件下,百岁兰基因组演化朝着小且‘低能耗’的方向演化。

图3\4. 百岁兰甲基化图谱,重度甲基化百岁兰基因组脱氨基导致的低GC

通过与其他代表性陆地植物的比较分析,相关抗性基因(HSP,LRR,WRKY,bHLH等)在百岁兰中发生了明显扩增,涉及细胞稳态、细胞生长速率、DA修复的诸多转录因子的表达式样,尤其是调控植物分生组织分生能力的ARPKNOX1共表达模式与其他种子植物区别明显,使得百岁兰能持续不断的获得新分化的叶片细胞,保证两片叶子的持续伸长。研究还发现脱落酸ABA合成限速酶NCED4在百岁兰不同组织差异表达可能是由启动子区CHH差异甲基化调控引起的。

图5/6/7. 百岁兰特性扩张基因家族及新老叶段基因家族的差异表达

相关研究表明,百岁兰的基因组演化与其近1亿年以来经历的地质环境剧变和持续高温干旱影响有较强的关联性,趋向小且‘低能耗’。重度甲基化和CHH位点调节,有效的保证了百岁兰基因组在世代交替过程中的完整性;调控初生分生组织发育转录因子表达模式的变化很可能影响了该物种现今的形态建成式样,特异性降低的细胞生长速率、细胞内稳态建成使得百岁兰的两片叶子缓慢而健康的生长,而抗热、高度木质化的叶片进一步助其适应极度干旱的环境。
相关研究成果以The Welwitschia genome reveals unique biology underpinning extreme longevity in deserts为题,于2021年7月12日发表在Nature Communications上。研究工作得到中国科学院中-非联合研究中心研究专项、国家自然科学基金等的支持。

完成图里程碑丨首个完整人类基因序列发布

基因组完成图一直以来都是组学研究领域的前沿,近期发表的人类X染色体完成图8号染色图完成图极大地推动了人们对基因组完成图的认知及研究。近日,T2T联盟(端粒到端粒联盟小组)研究人员几乎同时在bioRxiv杂志上公开3篇文章,宣布完成首个无gap的人类基因组完成图,并首次解锁了基因组完成图级别的结构变异和表观遗传。这些研究成果将会成为人类测序史上里程碑事件!下面跟着组学君一起学习下这3篇文章吧。

The complete sequence of a human genome
2001年,Celera Genomics和国际人类基因组测序联盟公布了人类基因组草图,自此掀起了基因组学的一场革命。这些草图和随后更新的基因组序列,尽管有效地覆盖了基因组全染色质部分,但异染色质区域以及许多复杂区域仍然未能测通或者存在错误序列。为了解决这悬而未决的8%基因组部分,T2T联盟(染色体端粒到端粒联盟)开始了相关工作,完成了首个真正完整人类基因组测序,共计30.55亿bp的人类基因组序列。这是自人类参考基因组首次发表以来至今,最大的飞跃。新的T2T-CHM13参考基因组包括了所有22条常染色体和x染色体的无GAP组装,纠正了许多错误序列,并引入了近2亿bp(即200Mb)的新序列,其中包含有2,226个同源基因拷贝序列以及115个蛋白质编码区域。最新完成的区域还包含所有着丝粒卫星阵列(centromeric satellite arrays)以及所有5个端粒染色体(acrocentric chromosomes)的短臂区域。首次解锁的这些基因组复杂区域,以便于进行结构变异以及功能相关的研究。

在过去6年的时间里,研究者们采用了多种技术对CHM13进行测序,包括了30x PacBio CCS(HiFi)测序,120x Oxford Nanopore ultra-long测序,100x Illumina PCR-Free测序,70x Hi-C测序,以及Bionano光学图谱和Strand-seq。为了更好的利用这些数据集,研究者们开发了新的组装、校正以及验证的方法。和T2T联盟组装出的第一个X染色体(依赖于ONT测序reads搭建骨干,之后利用其它技术进行校正)相比,研究者们采用了新的组装策略,综合利用HiFi reads的准确性和读取长度,完成了高度重复着丝粒卫星阵列以及密切相关的重复片段的组装。

T2T-CHM13人类完整基因组序列与GRCh38的比较

T2T-CHM13v1.1组装包括了22条人类常染色体和x染色体的端粒到端粒的无GAP组装,由3,054,815,472bp的核DNA16,569bp的线粒体基因组组成(CHM13没有Y染色体)。和GRCh38相比,这个完整组装的参考序列增加或修正了238Mb的序列。该序列的大部分是由着丝粒卫星序列(180Mb)、重复片段(68Mb)和rDNAs10Mb)组成,表明在着丝粒和重复片段确定区域之间存在重叠。在这些区域中有182Mb的序列是首次发现,因此对CHM13组装而言是全新区域。最终发现T2T-CHM13v1.1组装版本显著增加了人类基因组中的已知基因数目和重复序列数量。T2T-CHM13共注释出63,494个基因和233,615个转录本,其中有19,969个基因和86,245个转录本预测为蛋白质编码区域。

Segmental duplications and their variation in a complete human genome
大片段复制(segmental duplications,以下简称SDs)在人类疾病和进化中具有重要意义;但由于其结构的复杂性,这些高度相同的大片段重复(SDs)是人类参考基因组(GRCh38)中最后完成的区域之一。基于完整的 T2T人类基因组(T2T-CHM13),研究者们呈现了一个综合的人类SD结构组织。在染色体级别的scaffolds中鉴定了218Mbp的SDs,其中1/3(81.3 Mbp)的SDs为新发现的或其结构与GRCh38中是不同的,将人类基因组片段复制的占比预估值从5.4%提高到了7.0%,发现近端着丝粒染色体的63%(35.11/55.7Mbp)由SDs组成,且SDs长度比其他SDs长1.75倍(p=0.00034)。使用DupMasker对所有T2T-CHM13 SDs进行注释,鉴定了30个在T2T-CHM13和GRCh38之间拷贝数变化最大的复制子,而这也是基因注释最有可能改变的区域,然后,研究者们集中关注了这30个SDs结构组织的验证,将来自人类fosmid基因组文库(25)的可用末端序列数据比对到T2T-CHM13组装结果中选择合适的探针以确认高同一性(>95%)SDs的模式,结果显示所有30个基于T2T-CHM13预测的SDs都得到了验证。与独特区域相比,SDs有更丰富的单核苷酸变异多样性,而基于T2T-CHM13和GRCh38参考基因组的高质量和单倍型性质,研究者分析比较了全基因组模式的单核苷酸变异,同时基于GRCh38 and T2T-CHM13的共有区域,研究者预估了unique regions 的单核苷酸变异(SNV)密度为0.95SNVs/kbp,而当加上SDs区域时,密度上升为1.47 SNVs/kbp,这50%的增加可能是因为SDs突变率的增加(例如,由于中间基因转换的作用),或是重复序列的平均聚合程度加深。此外,研究者关注了重复基因转录相关的甲基化特征,发现SD区块通常作为一个整体被甲基化或非甲基化,分析预测了182个新的蛋白质编码候选基因,其中许多代表扩张的串联重复(例如,X染色体上的GAGE基因家族成员)或大的散布重复(例如,β-防御素基因座),将几乎相同的基因的额外拷贝添加到人类基因组中。比较了其他人类(n=12)和非人灵长类(n=5)基因组的长读长组装结果,使用T2T-CHM13基因组系统地重建了在人类额叶皮质扩张中重要的生物医学相关(LPA、SMN)和重复基因(TBC1D3、SRGAP2C、ARHGAP11B)的进化和结构单倍型多样性。此项研究揭示了人类及其近亲在SD结构中前所未有的结构杂合度模式和巨大的进化差异。

T2T-CHM13GRCh38SD的统计

T2T-CHM13基因组中的SD占比

Epigenetic Patterns in a Complete Human Genome
人类第一个端粒到端粒基因组T2T-CHM13的完成,使人们能够探索完整的表观基因组,消除之前参考序列缺失所带来的限制。现有的表观遗传研究忽略了未组装和无法定位的基因组区域(如着丝粒、着丝粒附近、端粒臂、亚端粒、片段重复、串联重复)。利用人的基因组完成图,我们能够通过k-mer辅助绘图方法测量表观遗传标记的富集。这使得阵列级富集信息能来表征这些卫星重复的表观遗传调控。利用Nanopore测序数据,我们生成了迄今为止最完整的人类甲基化基因组。我们分析了卫星DNA的甲基化模式,并揭示了沿单个分子有序的甲基化模式。在探索着丝粒表观基因组时,我们发现了一个与着丝粒组装的活性位点一致的着丝粒甲基化的显著下降。并且发现低甲基化区域极其难以接近,并与CENP-A/B结合配对。利用长读长,我们研究了复杂的大卫星阵列(如X染色体失活)中特异等位基因的大范围表观遗传模式。利用单分子测序,可以基于甲基化状态区分表观遗传异质性和均质区来聚类。该研究应用长读长和短读长技术为表观遗传调控提供了新的见解,为研究人类基因组最难以捉摸的区域提供了一个框架。

 

2001年人类基因组计划完成,使人们不仅能够了解编码序列,而且能够了解基因组的其他部分如何通过表观基因组调控基因表达。但表观基因组只能通过生成人类基因组的完整基因组才有机会来探索最后的前沿——基因组的重复区域。在T2T-CHM13中,绝大多数新序列位于着丝粒间、着丝粒和端中心区域(+180.5 Mb)和片段重复区域(+44.2 Mb)。基因组的表观遗传调控不仅控制基因表达,而且通过调控异染色质提供基因组的稳定性。

长读长生成人类染色体完全甲基化图谱

利用T2T-CHM13基因组,我们已经开始探索新完整区域的表观基因组。通过k-mer辅助制图,我们利用现有的短读数据来探索重复阵列水平的表观遗传图景。为了检测重复区域,我们应用Nanopore的长读长表观遗传学分析。与合成测序策略不同,Nanopore测序直接探测DNA,可以同时测序碱基序列和表观遗传状态,长读长提供了对单个分子表观遗传模式的更深入的了解。结合T2T-CHM13组装和来自同一CHM13细胞系的超长读长CpG甲基化数据,我们生成了迄今为止最完整的人类甲基化组。染色体臂上的着丝粒卫星和大卫星的高分辨率甲基化图谱揭示了这些区域的新机制和表观遗传特征。纳米孔测序的单分子读取特性允许进一步了解表观遗传细胞间的异质性和单倍型甲基化。随着对完整基因组组装的大规模改进和超长Nanopore数据的可定位性的结合,研究大范围卫星阵列的表观遗传调控在技术上成为可能,并可揭示新的机制和调控事件。

项目文章 | 基因组研究解析波纹唇鱼进化历史并分析与性别反转相关的视蛋白基因

波纹唇鱼是一种具有较高经济和生态价值的濒危物种,主要特点雌鱼能向雄鱼的性反转,其中的分子机制尚不清楚。近日,上海海洋大学海洋动物分类与进化重点实验室唐文乔团队及其合作者在国际知名期刊Molecular Ecology Resources上以“Chromosome-level genome assembly of the endangered humphead wrasse Cheilinus undulatus: Insight into the expansion of opsin genes in fishes”为题目报道了波纹唇鱼基因组研究成果,组装得到的波纹唇鱼基因组大小1.17Gb,Contig N50 16.5 Mb。研究者对该基因组进行了注释和进化分析工作,并对影响性别反转的视蛋白基因进行了挖掘。本文章的研究成果为鱼类的保护、进化和行为研究提供了宝贵的资源。希望组为研究的顺利进行提供了基因组测序、组装和标准分析服务。
基因组组装注释
研究团队利用Illumina、Nanopore和Hi-C测序,采用NextDenovo +SMARTdenovo + NextPolish策略组装,初步获得大小约1,173.4Mb的基因组,Contig N50达到16.5 Mb,BUSCO评估96.36%,单碱基准确性99.99%;然后利用145.8 Gb Hi-C数据辅助染色体挂载,最终得到24条染色体,Scaffold N50 51.5 Mb,挂载率99.98%;之后,通过同源比对预测并结合RNA-seq数据集,共预测基因22,286个,其中,22,218 (99.69%)个基因得到了功能注释;重复序列注释共鉴定重复序列540.85 Mb,占基因组大小的46.07%,其中,转座子占基因组大小的39.88%。
波纹唇鱼染色体大小和基因密度
基因家族和进化分析
为了分析波纹唇鱼的进化历史,研究者对波纹唇鱼和其它14种近缘物种进行基因家族比较分析,共鉴定出15,688个基因家族和560个单拷贝基因。接着,采用单拷贝基因家族构建系统发育树,波纹唇鱼与娇扁隆头鱼和贝氏隆头鱼亲缘关系最密切,同属于隆头鱼科。在约95.32 Mya,波纹唇鱼与三刺鱼和花鲈共同祖先发生分化。进一步的基因家族分析共鉴定出567个扩张基因家族和1,826个收缩基因家族以及46个显著正选择基因。
波纹唇鱼的基因家族、系统发育树和分化时间
视蛋白基因分析
颜色匹配性伴侣的吸引力很大程度上是通过视觉线索来识别的。然而,关于波纹唇鱼性沟通和性选型交配的潜在机制却知之甚少。研究者通过比较基因组学检测到数个视蛋白SWS2BLWS1Rh2基因的数量以串联方式扩增,并在关键位点上出现氨基酸替换,这可能加强了基因重复后的功能变化,导致视觉色素最大吸光度的光谱偏移,以捕捉功能变化。SWS2A基因丢失,而SWS2B基因拷贝数的增加是由于基因转换引起的非等位同源重组,这是由特定基因组区域的转座因子引起的。视蛋白的表达在促进鱼类交配行为和进化中起着关键作用。转录组聚类分析也表明波纹唇鱼视蛋白基因有表达差异,SWS2B-3SWS2B-4Rh1在视网膜中表达,其中Rh1在视网膜中表达量最高,而SWS1SWS2B-2Rh2b在其他区域而不在视网膜中表达。这说明基因复制后的变化使得这些基因获得了新的功能。
基于560个单拷贝同源性物种树基因组中视蛋白基因的共线性和定向性
总之,本研究团队利用Illumina+Nanopore+Hi-C技术组装注释了高质量的染色体级别波纹唇鱼基因组,阐明了波纹唇鱼的进化,并通过比较基因组和转录组分析了影响波纹唇鱼发生性别转换的视蛋白基因。本研究的数据和结果为研究波纹唇鱼的行为、基因流动和进化提供了宝贵的资源。