Science Advances |昆明动物研究所等多单位的合作研究揭示 脊椎动物异源多倍体亚基因组演化的动态历史

以下内容转载自 动物进化与遗传前沿交叉卓越中心,作者 罗 静
多倍化现象在脊椎动物中极为罕见;多倍体脊椎动物在多倍化发生和其后的二倍化进程中可能经历基因组休克效应。但对于相关演化遗传机制是什么、机制是否相同等问题,存在不同假说和许多尚待澄清的问题(PNAS 2016及其他文献)。在张亚平院士领导下,云南大学省部共建云南生物资源保护与利用国家重点实验室罗静教授、中科院昆明动物研究所吕雪梅研究员、湖南师范大学刘少军院士、南京农业大学陈增建教授、中国农业科学院农业基因组研究所阮珏研究员和厦门大学徐鹏教授等带领的团队联合攻关,以鲤亚科鱼类基因组为研究对象,对脊椎动物异源多倍体基因组的亚基因组演化问题进行了深入的研究。
由于鲤亚科鱼类在演化历史上可能经历了四轮之多的全基因组加倍事件,染色体数目达到约100条之多,且其第四轮全基因组加倍事件是伴随一次远缘杂交事件发生(Ma et al.2014.CurrMol Med),而这一类群的二倍体直系祖先均已灭绝,这为鲤亚科鱼类基因组的测序、组装和亚基因组鉴别引入巨大的难度(Xu et al. 2015.NatGenet; Xu et al. 2019.Nat Commun; Yang et al. 2016. BMC Biol.; Chen et al. 2019.Sci Adv)。团队合作通过利用长读长三代测序、Bionano光学图谱和染色质构象捕获测序技术对红鲫(goldfish, Carassius auratus red var.)基因组进行从头组装,获得50条染色体的单倍型参考基因组,完整性和准确性均高于近期发表的金鱼、鲤鱼基因组。同时基于鲤亚科、鲃亚科、裂腹鱼亚科代表物种的线粒体基因组和全基因组标记的系统发育树构建和比较,首次成功对红鲫两个亚基因组的母系和父系亲本来源进行了清晰的划分。
通过重建鲤亚科鱼类的多倍化演化历史,发现鲫鱼、鲤鱼和金线鲃共同起源于13.8~15.1百万年前的一次古异源多倍化事件。比较基因组学和多组织、多胚胎发育时期转录组和DNA甲基化的比较分析结果表明,红鲫与异源多倍体植物和爪蟾基因组中非对称的演化模式呈现明显不同:1)红鲫的父系和母系来源的亚基因组均没有显著的大规模非对称性丢失和演化速率偏向性,两个亚基因组在整个二倍化进程中一直经历交替的非对称性功能丢失;2)虽然两个亚基因组的同源基因对总体呈现平衡表达,有趣的是,两个基因拷贝随胚胎发育时间的推进发生表达优势的切换;3)同源基因拷贝的表达与DNA甲基化的变化呈负相关,但甲基化并不能解释同源基因对在胚胎发育进程中的表达优势切换模式,这提示可能存在更复杂的调控机制决定同源基因对的表达。以上结果说明异源多倍体物种的演化策略具有多样性。在多倍化之后的二倍化进程中,鲤亚科鱼类具有其独特的演化策略,以平衡亚基因组的稳定和多样化。这为研究异源多倍体脊椎动物的基因组演化和功能提供了新的思路。
该工作以“From asymmetrical to balanced genomicdiversification during rediploidization: subgenomic evolution in allotetraploidfish”为题发表在期刊Science Advances(https://advances.sciencemag.org/content/6/22/eaaz7677),云南大学的罗静教授,博士后柴静,中科院北京基因组研究所的博士生文艳玲,湖南师范大学的陶敏博士,云南大学的博士生林国亮为共同第一作者,张亚平院士、吕雪梅研究员、刘少军院士、陈增建教授、阮珏研究员和徐鹏教授为共同通讯作者。希望组科技服务在本研究中提供了PacBio、Bionano测序,基因组组装服务。
该研究得到了国家自然科学基金委、云南省科学技术厅、农业部现代农业体系建设专项资金、湖南省科技重大专项课题、第二次青藏高原综合科学考察研究、中国科学院“西部之光—西部引进人才”项目、博士后创新人才支持计划、中国博士后科学基金的支持。

1 红鲫基因组组装质量比较、共线性及鲤亚科鱼类多倍化演化历史重建。(A)本研究组装的红鲫基因组与前人发表的基因组共线性分析,提示光学图谱和Hi-C数据的辅助组装提升了多倍体基因组序列的连续性和准确度;(B) 红鲫与鲤鱼的亚基因组共线性分析结果;(C) 基于系统发育关系重建鲤亚科基因组的异源多倍化演化历史;(D) 基于单拷贝直系同源基因构建的物种树。

项目文章|Nanopore测序破译栽培桑树基因组,解决桑树物种分类、染色体组倍性争议,揭示湖桑起源之谜

516日,西北农林科技大学蚕桑丝绸研究所、动物科技学院和西南大学家蚕基因组生物学国家重点实验室、蚕学与系统生物学研究所等多家单位联合在Molecular Plant在线发表题为“Chromosome-level reference genome and population genomic analysis provide insight into the evolution and improvement of domesticated mulberry (Morus alba L)”的论文,首次报道了栽培桑树的高质量参考基因组,明确了栽培桑树为二倍体,在分子水平对桑树种质进行重新分类,并提出湖桑品种起源的新见解。该研究是桑树学研究的重大突破,为桑树进化、性状改良和功能基因研究提供了理论基础,改变了桑树基础研究进展迟滞的局面,为解决生产瓶颈问题提供了理论依据。西北农林科技大学焦锋副教授,博士生罗荣松、代学雷和刘慧为共同第一作者,西北农林科技大学钱永华教授、姜雨教授和西南大学赵爱春教授为共同通讯作者。希望组科技服务为本研究提供了NanoporeHi-C测序服务。
栽培桑树白桑(Morus alba)的染色体倍性是一个存在广泛争议的问题,早在20世纪初有研究认为白桑是二倍体,具有28条染色体(2n=2x=28),而2013年野生种川桑基因组公布,川桑为包含14条染色体的二倍体,据此有学者推测栽培桑树是四倍体,染色体基数为7 

1 “荷叶白”的植物形态、核型分析和基因组组装结果。

研究者选择栽培桑树“荷叶白”(又名湖桑32号)为研究对象(图1ABC)。核型分析表明,栽培桑树“荷叶白”的体细胞有丝分裂过程和花粉母细胞减数分裂过程中,28条染色体形成规则的14对二价体(图1D)。利用Nanopore+短读长+Hi-C策略进行基因组测序和组装,最终获得了基因组大小为346.39 Mbscaffold N5022.87 Mb的栽培桑树基因组(图1E)。利用该高质量基因组进行系统发育树构建,发现野生川桑和栽培桑树分化时间已有10.1个百万年(图2A)。与葡萄和桃树基因组共线性分析发现,栽培桑树基因组除了具有双子叶植物共有的γ古六倍化事件之外,没有新的全基因组加倍(WGD)事件发生。因此,栽培桑树基因组为二倍体,并非来源于野生川桑基因组的同源或异源加倍。

2 A)白桑(Morus alba)与川桑(M. notabilis)的分化距离在~10.1个百万年左右,(B)白桑与葡萄(Vitis. vinifera)和桃(Prunus persica)基因组共线性分析。

现有栽培桑树按照形态学特征分为白桑、鲁桑、山桑、广东桑和瑞穗桑五个种,并不能真实反映桑树品种之间的系统发育关系。本研究收集了132分栽培桑树种质(除广东桑外)进行重测序,获得了14.27Mb的单核苷酸多态性(SNP)数据,利用该数据构建系统发育树,没有得到与形态分类相似的聚类结果,在分子水平将白桑、鲁桑、山桑和瑞穗桑这4种栽培桑树种鉴定为同一物种,即白桑(Morus alba L)。

3 134份桑树种质资源的群体结构、核酸多样性分析

群体结构分析将134份栽培桑树种质划分为三个大群:中国湖桑群体,中国北方和西南群体,日本群体(图3A)。系统发育和主成分分析均表明中国桑树群体与日本桑树群体遗传距离较远,湖桑与来自于北方和西南地区的桑树具有明显的分化距离(图3BCD)。遗传多样性分析显示,湖桑的遗传多样性只有其他群体的一半,有强烈的人工选择痕迹。因此,太湖流域的湖桑与其他桑树群体在更早时期就已分开,成为一个独特的品种支系。同时自唐代以来,我国桑蚕业核心区域南移,湖桑作为独立种质资源受到了江南人民持续有目的的选育。这与崧泽遗址的孢粉学研究和吴兴钱山漾考古学证据可以相互印证。

总之,本研究利用Nanopore测序和Hi-C技术首次报道了栽培桑树白桑“荷叶白”的参考基因组,并证实28条染色体的栽培桑树属于二倍体。首次用基因组数据明确了栽培桑树物种分类,认为白桑、鲁桑、山桑和瑞穗桑都属于一个物种,即白桑(Morus alba L)。同时本研究还证实,分布于江浙地区的湖桑是经过长期的强烈人工选择之后形成的一个独特品种支系,阐明了湖桑的起源进化关系。本研究为桑树进化、性状改良和功能基因研究提供了理论基础,改变了桑树基础研究进展迟滞的局面,为解决生产瓶颈问题提供了理论依据。

马尾松毛虫——首个枯叶蛾科昆虫染色体水平基因组

近日,中国林业科学研究院森林生态环境与保护研究所、首都师范大学、中国科学院植物生理生态研究所、希望组科技服务等多家单位,联合在Molecular Ecology Resources期刊发表题为”Chromosome-level genome assembly of an important pine defoliator,Dendrolimus punctatus (Lepidoptera; Lasiocampidae)”的研究论文。该研究利用三代测序技术结合Hi-C技术组装出马尾松毛虫染色体水平基因组,为这一重要林业害虫的生物学过程、功能与进化研究提供了重要遗传资源。中国林业科学研究院森林生态环境与保护研究所张苏芳副研究员为第一作者。中国林业科学研究院森林生态环境与保护研究所张真研究员,首都师范大学生命科学学院张爱兵教授,中国科学院植物生理生态研究所黄勇平研究员、詹帅研究员,以及希望组韩玲玲博士为共同通讯作者。希望组彭炯、任平平为本研究共同作者。希望组承担了该研究中三代测序、组装和部分分析工作。

松毛虫(Dendrolimus是鳞翅目、枯叶蛾科、松毛虫属的统称,是发生量大、危害严重的主要森林害虫。其中的典型代表,马尾松毛虫(Dendrolimus punctatus)幼虫取食松针,爆发期间连片松林数日内被蚕食精光,远看枯黄、焦黑,如同火烧一般,常称为“不冒烟的森林火灾”,给林业生产造成重大的经济损失。然而,从分子生物学角度对松毛虫成灾机理方面的探索比还较少,限制了我们深入理解其成灾的内部分子机理。因此,亟待从其本身的遗传和基因组角度深入探究松毛虫的成灾机制,才能形成更加有效的可持续控制体系。

马尾松毛虫生活史。(a)  (b) 幼虫 (c)  (d) 雌性成虫 (e) 雄性成虫

本研究以自然群体中马尾松毛虫雌性成虫为样本,k-mer分析显示基因组大小约为596.1Mb,杂合度1.70%,属于高杂合基因组。随后,利用PacBio测序技术结合Hi-C染色体构象捕获技术,组装出包含30条染色体的马尾松毛虫高质量基因组。最终版本基因组大小为614 Mbcontig N501.39 Mbscaffold N50 22.15 MbHi-C挂载率为 96.96%。组装基因组质量评估发现,99.7%的短读长数据会比至基因组,BUSCO完整性评估达到96.4%,表明组装出的马尾松毛虫基因组序列完整、错误率低。研究者将马尾松毛虫分别与两个鳞翅目昆虫(斜纹夜蛾、家蚕)基因组进行比较,基因共线性程度高,符合前人提出的鳞翅目昆虫基因位点或共线性排序相似的研究结论,再次证实马尾松毛虫的高质量基因组。马尾松毛虫基因组共注释到17,593个蛋白编码基因,其中15,914个基因获得了功能注释,重复序列占全基因组的56.16%

马尾松毛虫染色体水平组装。(a) 马尾松毛虫Hi-C热图。 (b) 马尾松毛虫与斜纹夜蛾基因组共线性图。 (c) 马尾松毛虫与家蚕基因组共线性图。
利用马尾松毛虫与其他11种昆虫的1,170个单拷贝直系同源基因构建系统发育树。小菜蛾(P. xylostella)位于鳞翅目昆虫进化枝的最基部,马尾松毛虫与家蚕亲缘关系最接近,并可能与美国白蛾额、斜纹夜蛾、松异舟蛾的共同祖先在108.91百万年前发生分化。发生分化后,马尾松毛虫有2,104个基因家族发生扩张,1,900个基因家族收缩。扩增的基因家族中与外源化合物降解和解毒系统相关的基因显著富集。

马尾松毛虫与其他11种昆虫的系统发育树

随后研究者在马尾松毛虫基因组中鉴定了与解毒相关的基因家族,并与其他鳞翅目昆虫的相似基因家族进行了比较。马尾松毛虫中共鉴定到132P450基因,转录组数据显示编码P450的基因表现出幼虫偏倚的表达模式。马尾松毛虫中P450基因家族的CYP3族相比家蚕有明显的扩张,既往研究表明,CYP3家族成员参与了外源化合物代谢和杀虫剂抗性,并与宿主植物的某些防御化学物质的耐受性有关。马尾松毛虫CYP3家族基因进化扩展和幼虫期表达偏倚可能与对松针抗性化合物的耐受性有关。

4 (a)P450基因在马尾松毛虫四个发育时期表达情况。(b) 马尾松毛虫(红点)与家蚕基因组中P450基因的三个族。

高质量的马尾松毛虫基因组将为在基因组水平研究这一重要林业害虫的各种生物学过程提供机会,并将为马尾松毛虫和其他枯叶蛾科昆虫的功能和进化研究提供有价值的资源。

第二弹—希望组2020三代基因组文章集锦-动物篇

动物基因组一直以来都是组学研究领域的热门,近年来越来越多的动物基因组研究极大地推动了人们对于人类起源、物种演化、医学、病虫害防治及濒危动物的保护等方面的认知及研究。今年以来希望组多平台动物基因组研究也是成果丰硕,下面就由组学君给大家分享几篇昆虫和水产方向案例文章,与您一起探讨动物基因组的奥秘!
重要农业害虫温室白粉虱
Chromosome-level genome assembly of the greenhouse whitefly (Trialeurodes vaporariorum Westwood)合作单位:中国农业科学院蔬菜花卉研究所发表期刊:Molecular Ecology Resources

影响因子:7.049

发表日期:2020.03.27

三代测序平台:PacBio Sequel

温室白粉虱(Trialeurodes vaporariorum Westwood)与烟粉虱是两类分布广泛、危害严重的农业害虫,能够危害蔬菜、花卉、果树等112个科653种植物,并且对多种杀虫剂具有抗性。目前已有多个烟粉虱基因组被测序组装,而白粉虱仍缺少高质量的参考基因组。本研究利用Illumina+PacBio策略组装出787.4 Mb的白粉虱基因组,随后利用Hi-C数据将778.0 Mb (98.8 %)的序列挂载至11条假染色体(Scaffold N50=70Mb, BUSCO 93.4%)。系统发育分析表明白粉虱与烟粉虱在87.27百万年前(Mya)发生分化,远早于烟粉虱不同生物型的分化时间。白粉虱与烟粉虱的比较基因组分析发现,4个天冬氨酸蛋白酶家族在白粉虱基因组中有显著扩张,可能与其特有的寄主偏好性有关。白粉虱与烟粉虱基因组之间有13个P450基因存在共线性,并且白粉虱基因组中细胞色素CYP6亚家族中的4个基因表现出显著的扩张,这些基因可能在白粉虱对新烟碱类化合物的代谢和抗药性中起重要作用。本研究公布的高质量白粉虱基因组,为粉虱科农业害虫的害虫抗性管理和抗药性研究提供了重要资源。

图1温室白粉虱与烟粉虱不同生物型基因组关键指标比较

中国特有鱼类黑尾近红鲌
High-quality genome assembly and transcriptome of Ancherythroculter nigrocauda,an endemic Chinese cyprinid species合作单位:九江学院药学与生命科学学院发表期刊:Molecular Ecology Resources

影响因子:7.049

发表日期:2020.03.26

三代测序平台:PacBio Sequel

黑尾近红鲌(Ancherythroculter nigrocauda)属于鲤科近红鲌属,是我国特有物种和重要的长江经济鱼类。黑尾近红鲌迄今尚未有参考基因组,限制了对其生物学特性的深入分析以及优质种苗的选育。研究者利用Illumina+PacBio策略装出1.04Gb的黑尾近红鲌基因组,contig N50为3.12Mb。结合Hi-C数据将97.2%序列挂载到24条染色体上,BUSCO数据库评估该基因组完整性为95.6%。注释结果显示,黑尾近红鲌基因组共预测到34,414个蛋白编码基因,其中27,042个基因(78.5%)得到功能注释,含有56.1%转座子序列。随后研究者利用12个脊椎动物基因组中的712个单拷贝直系同源基因构建系统发育树,发现黑尾近红鲌与武昌鱼亲缘关系最近并于8.79百万年前分化。黑尾近红鲌与普通鲤鱼、武昌鱼、草鱼、斑马鱼和日本青鳉的比较基因组分析发现,黑尾近红鲌基因组中有366个基因家族发生了扩张,有72个正向选择基因。大部分扩张基因家族和正向选择基因在黑尾近红鲌脑部高表达,表明这些基因可能在黑尾近红鲌的大脑发育中发挥重要作用。转录组数据分析发现,在黑尾近红鲌10个组织中,与环境信息处理、循环系统和生长发育等相关的10,732个基因的表达具有组织特异性。该高质量基因组为黑尾近红鲌种群保护及功能基因组学研究提供了宝贵资源。

图2 黑尾近红鲌24条染色体Hi-C热图

法医昆虫学重要物种巨尾阿丽蝇
Chromosome-level genome assembly of Aldrichina grahami, a forensically important blowfly合作单位:中南大学基础医学院发表期刊:GigaScience

影响因子:4.688

发表日期:2020.03.19

三代测序平台:PacBio Sequel

巨尾阿丽蝇(Aldrichina grahami)是重要的法医昆虫学物种,它的生长发育速度和生命周期可以为死亡时间推断提供重要信息;其肠道内容物中提取的人类DNA物质,可以为案件侦破提供新的切入点和线索。巨尾阿丽蝇基因组尚未公布,这阻碍了它在法医研究中的进一步应用。本研究利用PacBio+Hi-C策略组装出包含6条染色体的巨尾阿丽蝇基因组,contig N50 为1.93 Mb,基因组完整性评估BUSCO达到了99.2%,基因组连续性与完整性均高于其他4个双翅目有瓣蝇类。基因组注释发现,巨尾阿丽蝇基因组包含48.02%的重复序列,共预测到12,823个蛋白编码基因,其中99.8%的基因获得功能注释。利用11个物种的2,989个单拷贝基因进行系统发育分析,巨尾阿丽蝇与铜绿蝇聚在同一分支,并且在约26百万年前分化。基因家族分析表明,巨尾阿丽蝇有102个扩张的基因家族和280个收缩的基因家族,还有198个基因家族在基因组中丢失。最后研究者绘制了巨尾阿丽蝇与黑腹果蝇基因组共线性图,以及巨尾阿丽蝇染色体上的基因密度分布图。高质量的巨尾阿丽蝇基因组资源将有助于加深对其独特生物学特征的理解,从而增强昆虫学证据的可靠性,促进其在刑事司法调查中的应用。

图3 (A)巨尾阿丽蝇与黑腹果蝇基因组共线性图;(B)巨尾阿丽蝇染色体基因密度分布图

重要商品蟹三疣梭子蟹
Chromosome-level genome assembly reveals the unique genome evolution of the swimming crab (Portunus trituberculatus)合作单位:盐城师范学院、西北工业大学发表期刊:GigaScience

影响因子:4.688

发表日期:2020.03.26

三代测序平台:Nanopore

梭子蟹(Portunus trituberculatus)是我国重要的商品蟹种,广泛分布于渤海、黄海、东海、南海等沿海水域。过度捕捞导致梭子蟹自然种群大幅下降,目前已开始人工养殖。本研究利用BGISEQ+Nanopore+Hi-C策略组装出三疣梭子蟹染色体水平基因组,为梭子蟹的生殖研究提供重要资源。梭子蟹基因组初步组装大小为1.00 Gb,Contig N50为4.12 Mb,随后结合Hi-C数据组装出梭子蟹的50条染色体,Scaffold N50 高达21.79 Mb,基因组完整性评估BUSCO也达到94.7%。基因组注释发现,约54.52%的基因组被鉴定为重复序列,共16,796个蛋白编码基因获得功能注释。利用覆盖7个物种的1,018个单拷贝基因构建系统发育树,梭子蟹与中华绒螯蟹和对虾亲缘关系较近,分别在约183.5和428.5百万年前发生分化;进化速度方面以梭子蟹为参照,对虾进化速率最慢,果蝇和蝴蝶进化速率相对较快。

图4 梭子蟹的基因组特征圈图

圆点斑芫菁基因组揭示斑蟊素合成通路
Draft Genome of a Blister Beetle Mylabris aulica合作单位:陕西师范大学发表期刊:Frontiers in Genetics

影响因子:3.517

发表日期:2020.01.08

三代测序平台:Nanopore

圆点斑芫菁(Mylabris aulica)属鞘翅目芫菁科,也称为斑蝥。其受到袭扰后能产生一种具有刺激性的防御物质斑蝥素(Cantharidin),具有抗炎、抗病毒、增强免疫调节活性的作用。最新研究表明斑蝥素及其衍生物能够抑制多种类型癌症的增殖,但其人工合成因为条件苛刻一直无法规模化生产。目前对芫菁科昆虫体内斑蟊素的合成机制研究主要是用比较转录组的方法推测可能的相关基因,但代谢通路完全不清楚。研究者利用纳米孔测序技术组装出288.5Mb的圆点斑芫菁的基因组,scaffold N50为467.8kb,预测的重复序列占50.62%,BUSCO完整性评估达97.9%,相比已经报导的两种已知斑蝥基因组,该组装连续性、完整性都得到了极大提升。根据基因组数据对圆点斑芫菁的遗传背景进行分析,表明圆点斑芫青与其他芫菁科昆虫基因背景几乎完全相同,分化时间也极短。随后研究者在“萜烯类主链生物合成”途径中发现了30个基因家族,它们参与了斑蝥素的生物合成,并且对其中两个功能未知的基因BMGene00496和BMGene01890进行了功能注释。总之,本研究利用纳米孔测序技术组装出了圆点斑芫菁的基因组草图,对斑蝥素生物合成相关的可能基因和途径进行了分析,为后续圆点斑芫菁研究以及斑蝥素生物合成提供了宝贵资源。

图5 圆点斑芫菁相比两个近源斑蝥,基因组连续性和完整性均有大幅度提升。

2020希望组合作文章列表

参考文献:
1. Xie, W.,He, C., Fei, Z. & Zhang, Y. Chromosome-level genome assembly of thegreenhouse whitefly ( Trialeurodes vaporariorum Westwood). Mol Ecol Resour(2020) doi:10.1111/1755-0998.13159.
2. Zhang,H.-H. et al. High-quality genome assembly and transcriptome ofAncherythroculter nigrocauda , an endemic Chinese cyprinid species. Mol EcolResour (2020) doi:10.1111/1755-0998.13158.
3. Meng, F. etal. Chromosome-level genome assembly of Aldrichina grahami, a forensicallyimportant blowfly. GigaScience 9, giaa020 (2020).
4. Tang, B. etal. Chromosome-level genome assembly reveals the unique genome evolution of theswimming crab (Portunus trituberculatus). GigaScience 9, giz161 (2020).
5. Guan, D.-L.et al. Draft Genome of a Blister Beetle Mylabris aulica. Front. Genet. 10, 1281(2020).

硬核爆发-希望组2020三代基因组文章集锦-植物篇

2020年,希望组合作项目好文不断,截止2020年4月,希望组基于三代测序技术的基因组、转录组项目文章已发表17篇,其中不乏Nature Genetics、Nature Plants等高分文章。今天组学君就给大家盘点一下植物方向部分案例文章,为大家解锁发文经典套路!

高质量基因组揭示棉花A亚基因组起源[1]

Genome sequence of Gossypium herbaceumand genome updates of Gossypium arboreum and Gossypium hirsutumprovide insights into cotton A-genome evolution合作单位:武汉大学高等研究院发表期刊:Nature Genetics

影响因子:25.455

发表日期:2020.04.13

三代测序平台:PacBio RSII&Sequel

异源四倍体棉花A亚基因组和D亚基因组的起源一直是科学家想要回答的问题,目前学界公认D亚基因组的供体为雷德蒙氏棉D5,但是A亚基因组的起源仍存在争议,没有确切证据支持其来源于非洲棉A1或亚洲棉A2。本研究利用三代测序技术组装了首个草棉基因组(var. AfricanumA1, n=x=13),并对亚洲棉和陆地棉基因组进行了更新。通过比较基因组分析、基因组进化及群体遗传分析,理清了非洲棉A1、亚洲棉A2和A亚基因组之间的进化关系:A亚基因组与非洲棉A1、亚洲棉A2有着共同的祖先A0(已灭绝),在约1.0−1.6百万年前A0与雷德蒙氏棉D5形成异源四倍体棉花AD,约70万年前A0分化出非洲棉A1与亚洲棉A2(图1)。这一模型的提出结束了许久以来异源四倍体棉花A亚基因组起源的争议,为棉属研究提供了重要理论指导和遗传资源,加快了棉花主要农艺性状的遗传改良进程。

图1 棉花A基因组起源与进化模型(a)和重要进化事件(b)

ONT测序助力攻克首个高质量角苔参考基因组[2]

The hornwort genome and early land plant evolution合作单位:中国科学院植物研究所、福建农林大学、深圳仙湖植物园、比利时根特大学发表期刊:Nature Plants

影响因子:13.297

发表日期:2020.02.10

三代测序平台:Nanopore PromethION

苔藓类包括苔、藓和角苔三大分支,是现存最早的陆生植物,在植物演化过程中代表从水生到陆生的过渡类型。角苔类以其难解的系统位置、独特的形态特征、以及其与细菌、真菌广泛共生的特异现象而备受关注。本研究采用Nanopore+illumina策略,结合系列精细设计的去污染流程,克服细菌内源污染,获得了第一个高质量的角苔参考基因组。通过与其他苔藓植物以及陆生植物的比较基因组分析,确定了苔藓类植物的单系性,角苔是苔和藓的姊妹群,位于苔藓分支的最基部;基因组学分析表明角苔具有与简单的形态结构相适应的低冗余度基因组(图2);基因家族分析发现了其中与RNA编辑、紫外线保护以及逆境响应相关基因家族的扩张;同时角苔还受益于从土壤细菌和真菌转移而来的基因,丰富了其氧化还原、胁迫响应和代谢相关的基因组分。以上一系列研究揭示了角苔这一类群对陆地环境的适应机制。

图2 芽胞角苔与18个绿色植物的比较基因组分析。a, 基于OrthoMCL的基因家族聚类比较。b, 19个绿色植物的基因家族获得(+)/丢失(-)情况比较,红框标注苔藓类群分支。c, 芽胞角苔、小立碗藓和地钱的全基因组加倍事件分析。

高质量油桐基因组,荣登GPB期刊“封面故事”[3]

Tung Tree (Vernicia fordii) Genome Provides AResource for Understanding Genome Evolution合作单位:中南林业科技大学发表期刊:Genomics, Proteomics & Bioinformatics

影响因子:6.597

发表日期:2020.04.07

三代测序平台:PacBio RSII

油桐(Vernicia fordii)为大戟科油桐属落叶乔木,在我国有1000多年的栽培利用历史,是世界性的木本油料树种。本研究选用高纯合体“葡萄桐”为基因组测序材料,采用Illumina+PacBio RSII测序,组装出大小为1.12 Gb油桐基因组,结合Hi-C技术将95.15%的序列被挂载到11条假染色体上。研究者基于高质量油桐参考基因组,进行了一系列数据分析与挖掘。通过比较基因组学揭示了重复序列爆发所驱动的油桐基因组扩张机制;结合17个不同发育阶段的组织/器官的RNA-seq数据,构建了油桐全基因组尺度的可视化表达谱网站;构建了桐油生物合成全景图,探究油脂合成的复杂机制。油桐基因组的破译,具有重要的科学理论价值和广泛的产业应用价值,本研究以“封面故事”的形式发表在《Genomics, Proteomics &Bioinformatics》。

图3 油桐(a)及其基因组景观(b)

白木香—瑞香科第一个染色体水平基因组[4]

Genome sequence of the agarwood tree Aquilariasinensis (Lour.) Spreng: the first chromosome-level draft genome in theThymelaeceae family合作单位:中国热带农业科学院热带生物技术研究所发表期刊:GigaScience

影响因子:4.688

发表日期:2020.03.02

三代测序平台:Nanopore GridION

图4 白木香(a)及其基因组Hi-C热图(b)

白木香(Aquilaria sinensis (Lour.))是传统名贵药材和天然香料“沉香”的重要基源植物,良好的医药价值和巨大的经济效益,导致了对白木香的掠夺式采伐,其野生资源已日渐枯竭。本研究采用Illumina+Nanopore GridION X5 +Hi-C策略组装出首个染色体水平白木香基因组,基因组大小726.5 Mb,scaffold N50为88.78 Mb,BUSCO分析结果为95.2%。单拷贝同源基因的系统发育分析表明白木香与可可树及陆地棉亲缘关系较近,其共同祖先在大约53.18-84.37百万年前分化。白木香高质量基因组的发布,为野生白木香种群保护生物学、沉香结香机制和香味基因及树种的进化研究奠定良好基础。

园艺观赏植物文竹染色体水平基因组[5]

Chromosome-level genome assembly,annotation and evolutionary analysis of the ornamental plant Asparagussetaceus合作单位:河南师范大学发表期刊:Horticulture Research

影响因子:3.368

发表日期:2020.04.01

三代测序平台:Nanopore GridION

文竹(Asparagus setaceus)又名山草、云竹、云片松,有“文雅之竹”的美称,是具有极高观赏价值的园艺植物。本研究采用Illumina+Nanopore GridION X5 +10X Genomics+Hi-C策略,完成了710.15 Mb的高质量文竹基因组,contig N50 为1.36 Mb。分析表明文竹基因组包含28,410个编码基因,其中25,649个(90.28%)获得功能注释,重复序列占全基因组的65.59%,且大部分为长末端重复序列。文竹是雌雄同株植物,其近源种芦笋为雌雄异株,进化分析估算,文竹与芦笋在约9.66百万年前发生分化,并且文竹经历了两次全基因组复制事件。对二者基因组的比较研究为植物性染色体的进化研究提供新的线索。另外研究者在文竹基因组中鉴定到762个特异基因家族,96个正向选择基因和76个抗性基因。文竹高质量基因组的完成为天门冬属植物比较基因组研究提供了新的遗传资源,有利于性染色体的演化及天门冬属的演化研究。

图5 文竹高质量基因组。(a)文竹。(b)基于1002个单拷贝直系同源基因的系统发生树。(c)文竹基因组景观。(d)文竹与芦笋基因组线性比较

铁核桃染色体水平基因组[6]
Chromosomal-levelassembly of Juglans sigillata genome using Nanopore, BioNano, and Hi-Canalysis合作单位:南京林业大学、云南省林业和草原研究院经济林研究所发表期刊:GigaScience

影响因子:4.688

发表日期:2020.02.26

三代测序平台:Nanopore GridION

铁核桃(Juglans sigillata)属于壳斗目胡桃科胡桃属,是我国云南省的重要经济树种。铁核桃与栽培种核桃(Juglansregia)亲缘关系密切,在中国西南部核桃与铁核桃表现出显著的同域分布模式,但是针对铁核桃的分子生物学研究较少。研究人员利用Illumina+Nanopore GridION X5组装出 536.50 Mb的铁核桃基因组草图,利用Bionano光学图谱数据将Scaffold N50提升至16.43 Mb,最后结合Hi-C数据将93%的序列挂载到16条假染色体,组装质量远优于大部分近源种参考基因组。基因组注释共预测30,387个编码蛋白基因,整个基因组的50.06%为重复序列。系统发育分析表明,栽培核桃与铁核桃在约49百万年前发生分化。本研究为胡桃科相关物种的基因组研究以及分子育种提供了宝贵的资源。

图6 铁核桃与其近源种基因组比较

2020希望组合作文章列表
相关阅读希望组项目文章|Nature Genetics高质量基因组揭示棉花A亚基因组起源希望组项目文章|Nature Plants ONT测序助力攻克首个高质量角苔参考基因组

希望组项目文章|Nature Plants 芡实与金鱼藻三代基因组揭示早期被子植物演化

希望组项目文章|中国特有物种黑尾近红鲌高质量基因组

希望组项目文章两连发|三代测序助力药用动物圆点斑芫菁、菲牛蛭基因组草图组装

参考文献:

1.     Huang, G. et al. Genome sequence of Gossypium herbaceum andgenome updates of Gossypium arboreum and Gossypium hirsutumprovide insights into cotton A-genome evolution. Nat Genet (2020)doi:10.1038/s41588-020-0607-4.

2.     Zhang, J., Fu, X., Li, R. et al. The hornwort genome and early landplant evolution. Nat. Plants 6, 107–118 (2020).https://xs.scihub.ltd/https://doi.org/10.1038/s41477-019-0588-4

3.     Zhang, L. et al. Tung Tree (Vernicia fordii) Genome ProvidesA Resource for Understanding Genome Evolution and Improved Oil Production.Genomics, Proteomics & Bioinformatics S167202291830216X (2020)doi:10.1016/j.gpb.2019.03.006.

4.     Ding, X. et al. Genome sequence of the agarwood tree Aquilariasinensis (Lour.) Spreng: the first chromosome-level draft genome in theThymelaeceae family. GigaScience 9, giaa013 (2020).

5.     Li, S.-F. et al. Chromosome-level genome assembly, annotation andevolutionary analysis of the ornamental plant Asparagus setaceus. HorticRes 7, 48 (2020).

6.     Ning, D.-L. et al. Chromosomal-level assembly of Juglanssigillata genome using Nanopore, BioNano, and Hi-C analysis. GigaScience 9,giaa006 (2020).

项目文章||九江学院张化浩博士研究团队发表中国特有物种黑尾近红鲌高质量基因组

2020年3月26日九江学院药学与生命科学学院、赣州市水产研究所和西南大学家蚕基因组生物学国家重点实验室等多家研究单位,在Molecular Ecology Resources期刊发表题为”High-quality genome assembly and transcriptome of Ancherythroculter nigrocauda,an endemic Chinese cyprinid species的研究论文。该研究利用三代测序技术结合Hi-C技术组装出中国特有鲤科鱼类黑尾近红鲌的染色体水平基因组,基因组大小为1.04 Gb,contig N50为3.12Mb。该高质量基因组为黑尾近红鲌种群保护及功能基因组学研究提供了宝贵资源。九江学院药学与生命科学学院张化浩博士、张小谷教授,西南大学代方银教授为共同通讯作者。未来组承担了该研究中的三代测序及分析工作。
黑尾近红鲌(Ancherythroculter nigrocauda)属于鲤科近红鲌属,是我国特有物种,仅分布于长江中下游,是重要的长江经济鱼类。近年来,由于过度捕捞、水坝建设和水污染,导致黑尾近红鲌自然种群急剧减少成为濒危物种。黑尾近红鲌迄今尚未有参考基因组,限制了对其生物学特性的深入分析以及优质种苗的选育。
图1  黑尾近红鲌
研究者利用流式细胞术及Kmer-based 方法估计黑尾近红鲌基因组大小在890~920Mb,杂合度0.7%。随后,利用PacBio Sequel对其进行测序,获得101.8Gb平均reads长度10.6Kb的过滤后数据,从头组装出1.04Gb的黑尾近红鲌基因组,contig N50为3.12Mb。结合Hi-C数据将1,297个contig序列挂载到24条染色体上(图2),包含了97.2%的全基因组核苷酸碱基,BUSCO数据库评估该基因组完整性为95.6%。与其他已公布基因组的鱼类相比,黑尾近红鲌基因组大小与草鱼、武昌鱼相近,并且均为24条染色体。
图2 黑尾近红鲌Hi-C挂载热图
注释结果显示,黑尾近红鲌基因组中含有56.1%转座子序列,其中DNA转座子类型占31.34%,RNA转座子或逆转录转座子占16.27%。共预测到34,414个蛋白编码基因,其中27,042个基因(78.5%)得到功能注释。
 
随后研究者利用12个脊椎动物基因组中的712个单拷贝直系同源基因构建系统发育树。发现黑尾近红鲌与武昌鱼亲缘关系最近,并于879万年前分化(图3)。
图3 利用12种脊椎动物的712个单拷贝基因构建的系统发育树
研究者进一步将黑尾近红鲌的基因组与普通鲤鱼、武昌鱼、草鱼、斑马鱼和日本青鳉的基因组进行了对比分析。结果发现,黑尾近红鲌基因组中有366个基因家族发生了扩张(包含499个基因),有72个正向选择基因。大部分扩张基因家族和正向选择基因在黑尾近红鲌脑部高表达(图4),表明这些基因可能在黑尾近红鲌的大脑发育中发挥重要作用。
图4 72个正向选择基因在黑尾近红鲌10个组织中的表达水平热图。
转录组数据分析发现,在黑尾近红鲌10个组织中,与环境信息处理、循环系统和生长发育等相关的10,732个基因的表达具有组织特异性。来自大脑、肝脏和肌肉的差异表达基因(DEGs)数量与其他组织的DEGs有很大差异。
总之,本研究利用三代测序技术结合Hi-C技术组装出中国特有鲤科鱼类黑尾近红鲌的染色体水平基因组,为黑尾近红鲌种群保护及功能基因组学研究提供了宝贵资源。

项目文章两连发||三代测序助力药用动物圆点斑芫菁、菲牛蛭基因组草图组装

近日,由陕西师范大学许升全教授团队主导的圆点斑芫菁基因组文章“Draft Genome of a Blister Beetle Mylabris aulica”和菲牛蛭基因组文章“Draft Genome of the Asian Buffalo Leech Hirudinaria manillensis”在frontiers in Genetics期刊发表。陕西师范大学许升全教授和黄华腾教授为圆点斑芫菁基因组文章的共同通讯作者。陕西师范大学许升全教授、王喆之教授和西北工业大学邱强教授为菲牛蛭基因组文章的共同通讯作者。武汉未来组作为两篇文章的共同作者,承担了圆点斑芫菁和菲牛蛭的三代测序及分析工作。下面就由组学君给大家带来这两篇文献的解读吧~
文章一——圆点斑芫菁基因组揭示斑蟊素合成机制
题目:Draft Genome of a Blister Beetle Mylabris aulica [1]
发表期刊:frontiers in Genetics
合作单位:陕西师范大学
测序方法:纳米孔测序
圆点斑芫菁(Mylabris aulica)属鞘翅目芫菁科,也称为斑蝥。其受到袭扰后能产生一种具有刺激性的防御物质斑蝥素(Cantharidin),具有抗炎、抗病毒、增强免疫调节活性的作用。最新研究表明斑蝥素及其衍生物能够抑制多种类型癌症的增殖,但其人工合成因为条件苛刻一直无法工厂化生产。目前对芫菁科昆虫体内斑蟊素的合成机制研究主要是用比较转录组的方法推测可能的相关基因,但代谢通路完全不清楚。
研究者利用纳米孔测序技术组装出288.5 Mb的圆点斑芫菁的基因组,scaffold N50为467.8kb,预测的重复序列占50.62%,BUSCO完整性评估达97.9%,相比已经报导的两种已知斑蝥基因组,该组装连续性、完整性都得到了极大提升。根据基因组数据对圆点斑芫菁的遗传背景进行分析,表明圆点斑芫青与其他芫菁科昆虫基因背景几乎完全相同,分化时间也极短。随后研究者在“萜烯类主链生物合成”途径中发现了30个基因家族,它们参与了斑蝥素的生物合成,并且对其中两个功能未知的基因BMGene00496和BMGene01890进行了功能注释。
总之,本研究利用纳米孔测序技术组装出了圆点斑芫菁的基因组草图,对斑蝥素生物合成相关的可能基因和途径进行了分析,为后续圆点斑芫菁研究以及斑蝥素生物合成提供了宝贵资源。

萜类生物合成“KEGG通路图”,绿色方框基因在圆点斑芫菁基因组中发现。

文章二——菲牛蛭基因组揭示水蛭素合成机制
题目:Draft Genome of the Asian Buffalo Leech Hirudinaria manillensis[2]
发表期刊:frontiers in Genetics
合作单位:陕西师范大学、西北工业大学
测序方法:PacBio SMRT
菲牛蛭(Hirudinaria manillensis)也称亚洲水蛭,广泛分布于东南亚的水生食血物种,是中国药典收录的3种药用水蛭中个体最大、吸血能力最强的一种。抗凝血物质水蛭素的生物合成是菲牛蛭最重要的特征,促进了其在临床放血等方面的应用,但是水蛭素合成相关基因及遗传背景完全缺失。
研究者选取成年菲牛蛭的肌肉组织为样本进行测序,组装出的基因组大小为151.8 Mb,scaffold N50为2.28Mb,BUSCO评估达93.7%,表明该组装基因组质量较高。基于RepeatMasker 和RepeatModeler,预测该基因组含有19.52%的重复元素。结合Ab initio预测和同源比对预测,共预测到21,005个编码蛋白基因,其中注释到的功能基因有17,865个。抗凝血物质生物合成是菲牛蛭最重要的特征,研究者检测了菲牛蛭基因组中具有水蛭素和抗凝素结构域的抗凝蛋白,最终鉴定到16个蛋白中含有水蛭素或抗凝素结构域。进一步的比较基因组分析显示,菲牛蛭合成水蛭素与已知水蛭素蛋白质序列虽存在差异,但空间结构变异较小,行使相同分子功能,未经历快速进化。
总之,本研究利用PacBio测序技术组装出首个菲牛蛭的基因组,并鉴定出16个含有水蛭素或抗凝素结构域的蛋白。这些数据将有助于进一步了解菲水蛭的生物学机制和遗传特性,并为今后的研究提供宝贵的资源。

2抗凝素结构域在菲牛蛭基因组contig00006 上的分布。
参考文献:
[1] Guan D L, Hao X Q, Mi D, et al. Draft genome of a blister beetle Mylabris aulica[J]. Frontiers in Genetics, 2019, 10: 1281.
[2] Guan D L, Yang J, Liu Y K, et al. Draft Genome of the Asian Buffalo Leech Hirudinaria manillensis[J]. Frontiers in Genetics, 2020, 10: 1321.

项目文章||芡实与金鱼藻三代基因组揭示早期被子植物演化

2020年2月24日,国际著名植物学研究期刊Nature Plants发表了题为”Prickly waterlily and rigid hornwort genomes shed light on early angiosperm evolution”的文章,该研究公布了被子植物的两种早期演化分支代表种:芡实和金鱼藻的染色体水平基因组序列,通过与其它代表性陆生被子植物代表基因组进行了深入的比较分析,揭示了早期被子植物的复杂演化历史。来自四川大学的杨勇志(现为兰州大学青年研究员)和华北理工大学的孙朋川是论文的并列第一作者;四川大学教授刘建全、席祯翔,华北理工大学教授王希胤、哈佛大学教授 Charles C. Davis是论文的通讯作者;刘建全教授为该项目的总负责人。武汉未来组承担了芡实和金鱼藻的纳米孔测序工作。
被子植物,或称开花植物,是地球上多样化程度和物种丰富度最高的类群之一,早期被子植物的突然出现和迅速多样化使被子植物的起源成为著名的达尔文“讨厌之谜”。几十年的努力已经极大地解决了被子植物的系统发育问题,但是主要分支之间的演化历史始终存在争议。例如,核心被子植物的五大类群之间的系统发育关系仍存在模糊不清的地方。核心被子植物包含约99%的现存被子植物,分为真双子叶植物、单子叶植物、木兰类植物、金鱼藻目以及金粟兰目五大类群,现有研究根据不同的形态学或分子层面证据,提出了不同的发育分支拓扑结构。
基因组数据能够提供更加丰富和有说服力的证据来解决物种进化分歧问题。本研究采用三代Nanopore长读长测序数据和二代illumina短读长数据,分别组装出芡实(725.23Mb, Contig N50=4.75 Mb)和金鱼藻(733.26Mb, Contig N50=1.56 Mb)的基因组序列,随后结合Hi-C数据,将基因组提升至染色体级别。评估表明两个基因组显示了高度的连续性、完整性和准确性(图1a),并与细胞学研究中获得的染色体数目相匹配。
随后研究者在芡实基因组中检测到两个多倍化事件,校正进化速率之后,估计芡实基因组中的两个多倍化事件分别发生在大约16-18百万和94-106百万年前(Ma)。在金鱼藻中检测到三个多倍体化事件,估计分别发生在大约13-15 Ma,127-143 Ma和157-177 Ma。并且被子植物的五个主要演化分支,金鱼藻、睡莲类、木兰类、单子叶植物和真双子叶植物中都发生了多个独立的多倍化事件(图1b),并且芡实最近还经历了一次基因组加倍。

图1 比较基因组分析。a芡实和金鱼藻基因组特征; b平均同义替换水平(Ks)在同位块间的分布。
研究者从13种被植物和1种裸子植物基因组序列中鉴定出1,374个单拷贝核基因用于构建系统发育树,首次涵盖两个基础被子植物类群(无油樟目无油樟、睡莲目芡实)以及核心被子植物五大类群中的四个(4个真双子叶植物,3个单子叶植物,3个木兰类植物,金鱼藻目金鱼藻)。采用两种方法连接并分析蛋白质编码区获得了两个数据集(SSCG-CDS 和SSCG-Codon12)构建进化树表明,无油樟和睡莲类依次是其他被子植物的姐妹群,同时推测金鱼藻是真双子叶植物的姐妹群(图2a,b)。同时,研究者还利用OrthoMCL方法和新开发的物种发育树构建方法STAG证实了上述结论的可靠性(图2a)。
随后研究者使用DensiTree 对SSCG-CDS和SSCG-Codon12两个发育树进行可视化,发现二者存在普遍的拓扑冲突(图2c),无油樟目和睡莲目之间的拓扑分支冲突和金鱼藻系统发育位置的矛盾(图2d)。并且无油樟目和睡莲目的系统发育位置在基因树和物种树之间存在大量不一致(图2e)。这些分析表明,在早期被子植物进化过程中可能存在大量的不完全谱系分选(ILS),造成主要分支之间基因树、或核基因组-叶绿体基因组系统发育树分支关系不一致。
          

图2 早期分化被子植物的系统基因组分析。a 基于MCMCTree推断的SSCG-CDS数据集的被子植物早分化年表;b DiscoVista物种树分析;c SSCG-CDS(红色)和SSCG-Codon12(橙色)叠加超矩阵基因树。d SSCG-CDS和SSCG-Codon12中物种树内部分支的三种拓扑的频率(q1-q3)。e 基因树的兼容性
总之,本研究组装出了两个早期水生被子植物——芡实和金鱼草的高质量染色体水平基因组,结合其他代表性被子植物主要类群,利用多个数据集和多种方法,深入解析了被子植物的早期演化以及不同类群之间的系统发育关系。这些发现有助于研究被子植物中主要分支的演化次序和生境转变、植物生命之树重建,特别是水生被子植物适应性演化、不同类群的古多倍化等复杂进化历史。
参考文献:
Yang Y, Sun P, Lv L, et al. Prickly waterlily and rigid hornwort genomes shed light on early angiosperm evolution[J]. Nature Plants, 2020: 1-8.

希望组三代测序助力特发性震颤相关致病基因发现

近日,国家老年疾病临床医学研究中心(湘雅)、中南大学湘雅医院神经内科唐北沙教授、郭纪锋副教授团队在国际神经病学领域权威期刊《Brain》(IF:11.814)以论著形式在线发表了题为“Expansion of GGC repeat in human-specific NOTCH2NLC gene is associated with Essential Tremor”原创性论文[1]。该研究在国际上首次揭示了NOTCH2NLC基因GGC异常重复扩增与特发性震颤(ET)相关。中南大学湘雅医院郭纪锋副教授和唐北沙教授为该论文并列通讯作者,孙启英博士和徐倩博士为共同第一作者。北京希望组承担了该研究中Nanopore长读长测序和分析工作。
特发性震颤(Essential tremor, ET)是最常见的运动障碍疾病之一,典型症状为双上肢4-12Hz的动作性震颤,可伴有下肢、头部、口面部或声音震颤。特发性震颤的患病率随着年龄的增长而急剧增加:在65岁以上的人群中,有约4.6%的患者;在95岁以上的人群中,有约20%的患者。尽管ET具有很高的发病率和家族聚集性,其致病基因和发病机制仍不明确。
 
本研究中唐北沙教授、郭纪锋副教授团队首先对两个ET家系应用连锁定位、单体型分析将其致病基因定位于染色体1p13.3-q23.3,在全外显子测序(whole-exome sequencing,WES)未找到可疑致病突变后,应用Nanopore长读长测序技术发现区间内NOTCH2NLC基因5’端GGC异常扩增(图1)。进一步应用RP-PCR、GC-PCR分析发现,这两个家系中所有ET患者GGC扩增次数(平均108.67±22.24)远高于未受ET影响的成员(平均14.60±4.28),表明NOTCH2NLC基因5’端GGC异常扩增与这两个ET家系存在共分离现象。随后,在另外195个中国ET家系中发现NOTCH2NLC基因5’端GGC异常重复扩增与9个ET家系存在共分离,提示NOTCH2NLC基因5’端GGC异常重复扩增可能是ET新的相关致病基因。
                                         
图1 通过连锁分析结合三代测序发现两个ET家系中NOTCH2NLC基因5’端GGC异常重复扩增。A 两个ET家系;B 遗传连锁分析;C Nanopore电信号显示异常重复扩增(3/4);D Family 1: III10患者的NOTCH2NLC基因5’端GGC异常重复扩增。
值得一提的是,此前沈璐教授、唐北沙教授团队在国际上首次报道了神经元核内包涵体病(NIID)致病机制与NOTCH2NLC基因中GGC异常重复扩增相关[2],该研究同样是利用Nanopore长读长测序技术检测到致病基因,希望组参与了其中长读长测序和分析工作。Nanopore长读长测序技术能检测出二代测序无法覆盖到基因组上的复杂区域,如串联重复、结构变异等,在遗传病诊断领域具有深远的发展前景。
参考文献:
[1] Sun Q Y, Xu Q, Tian Y, et al. Expansion of GGC repeat in the human-specific NOTCH2NLC gene is associated with essential tremor[J]. Brain, 2019.
[2] Tian Y, Wang J L, Huang W, et al. Expansion of Human-Specific GGC Repeat in Neuronal Intranuclear Inclusion Disease-Related Disorders[J]. The American Journal of Human Genetics, 2019.

超级植物-蕨类的三代基因组攻略:ONT超长+Bionano Gen2+Hi-C+NextDenovo

超级植物

蕨类在地球上已经存在了3.35亿年,是现存最古老的植物之一。远在恐龙出现和大陆漂移之前,它们便占据着原始大陆的沼泽森林,通过羽状叶片储存大量太阳能。蕨类死亡后的遗骸被埋葬在泥泞的沼泽沉积物中,经过千万年压缩转化成当代工业革命的能量——煤。

蕨类:基因组,够大;染色体数,够多!

蕨类具有重要系统发育地位,尽管蕨类的基因组数据量仍然有限,但现有数据强烈表明,它们的基因组动力学与所有其他陆地植物截然不同。蕨类基因组的典型特征是染色体数目多这被认为是通过多倍体的多个全基因组复制(WGD)周期产生的。然而,与被子植物多倍体相比,蕨类的多倍体后二倍体化过程通常涉及基因沉默而不是DNA消除,从而导致染色体数目异常增多,同时保持二倍体基因的表达[1]。蕨类染色体的平均数目(n = 63.5)[2]是被子植物平均数目的三倍多(n = 21.55)[3]而蕨类基因组大小平均为12Gb[3],最大甚至达到148Gb[4,5]

蕨类基因组研究现状

对蕨类基因组结构和功能的研究,有利于深入研究其多倍性和染色体进化问题。然而,由于短读长测序组装的技术瓶颈,造成蕨类的基因组测序工作长期止步不前迄今为止,仅测序了满江红(Azolla filiculoides,0.75Gb)和勺叶槐叶萍(Salvinia cucullata,0.26Gb)两个小基因组蕨类[7]。由于缺少参考基因组信息,对蕨类的分子生物学研究也远远落后于其他类型的植物,尤其是种子植物。
测序技术的发展以及成本的降低使基因组测序变得越来越容易,但对于基因组普遍较大的蕨类,有必要仔细计划测序策略并决定对哪些物种测序。最近,康奈尔大学博伊斯汤普森研究所的研究人员统计了最新的蕨类基因组大小数据,并确定了18个跨越蕨类进化树的中型基因组,作为未来蕨类全基因组测序的候选种(图3)[8]。该研究为更好地了解蕨类基因组特征,同时解决长期存在的蕨类多倍性和染色体进化问题,提供了路线图。
图3 蕨类全基因组测序候选种的系统发育位置及其基因组大小[8]
蕨类测序策略:ONT超长+Bionano Gen2+Hi-C+NextDenovo
二代测序见证了过去10年的“基因组大爆发”,超过数百个种子植物基因组被测序发表,但是面对基因组情况复杂的蕨类,二代测序技术捉襟见肘。长读长的三代测序、光学图谱、色体构象捕获等新技术,是目前解决复杂动植物基因组De novo组装的有效策略。
表1 蕨类基因组De novo测序策略
希望组科技服务作为三代测序服务的领跑者,在复杂、大型动植物基因组组装方面有着独特优势。
平台优势——ProthemION48、Saphyr Gen2
牛津纳米孔ProthemION48能够提供平均5Tb/周的高质量长读长测序数据,Bionano Saphyr升级至Gen2平台,数据产出提升4倍,完美适配超大型基因组测序项目。

· 测序优势——ONT ultra-long reads 超长测序技术
 
牛津纳米孔测序测序平台独有的Ultra-long测序能够产生超长测序片段,轻松跨越基因组中连续重复或大片段重复区域,显著提升组装质量,更大限度地还原真实的基因组景观。希望组自2017年推出ONT超长测序服务以来,现已完成昆虫、两栖动物、鱼类、鸟类、哺乳动物、多倍体植物、药用植物等数百个物种的ONT Ultra-long测序工作,并且多个物种测序单Cell read N50突破100Kb!

· 算法优势——NextDenovo
希望组自主研发三代测序数据高效纠错、组装软件NextDenovo,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组。基于NextDenovo,希望组已经实现了小基因组物种近完成图和>10Gb基因组物种的组装工作。

表2 NextDenovo的组装案例

· 辅助组装——Bionano&Hi-C
希望组同时提供Bionano光学图谱和Hi-C测序服务,在三代测序数据组装基因组的基础上结合不同分辨率的辅助组装策略,打造染色体级别的基因组。
通过以上分析可以发现蕨类基因组动力学与所有其他陆地植物截然不同,对研究植物多倍性和染色体进化有重要的研究价值。在一代测序和二代测序时代,受限于测序技术自身局限性以及测序成本的高昂,很难针对基因组普遍较大的蕨类进行测序,随着长读长三代测序技术的崛起以及测序通量的提升,已经有研究人员开始筹划针对蕨类的大规模基因组测序计划,并整理出了了18个跨越蕨类进化树的中型基因组,作为未来蕨类全基因组测序的候选种。因此,蕨类基因组研究无疑是一片有待深入探究的蓝海,希望组作为三代测序服务的领跑者愿成为您科研航程的领航员!