Science Advances |昆明动物研究所等多单位的合作研究揭示 脊椎动物异源多倍体亚基因组演化的动态历史
图1 红鲫基因组组装质量比较、共线性及鲤亚科鱼类多倍化演化历史重建。(A)本研究组装的红鲫基因组与前人发表的基因组共线性分析,提示光学图谱和Hi-C数据的辅助组装提升了多倍体基因组序列的连续性和准确度;(B) 红鲫与鲤鱼的亚基因组共线性分析结果;(C) 基于系统发育关系重建鲤亚科基因组的异源多倍化演化历史;(D) 基于单拷贝直系同源基因构建的物种树。
图1 红鲫基因组组装质量比较、共线性及鲤亚科鱼类多倍化演化历史重建。(A)本研究组装的红鲫基因组与前人发表的基因组共线性分析,提示光学图谱和Hi-C数据的辅助组装提升了多倍体基因组序列的连续性和准确度;(B) 红鲫与鲤鱼的亚基因组共线性分析结果;(C) 基于系统发育关系重建鲤亚科基因组的异源多倍化演化历史;(D) 基于单拷贝直系同源基因构建的物种树。
图1 “荷叶白”的植物形态、核型分析和基因组组装结果。
研究者选择栽培桑树“荷叶白”(又名湖桑32号)为研究对象(图1ABC)。核型分析表明,栽培桑树“荷叶白”的体细胞有丝分裂过程和花粉母细胞减数分裂过程中,28条染色体形成规则的14对二价体(图1D)。利用Nanopore+短读长+Hi-C策略进行基因组测序和组装,最终获得了基因组大小为346.39 Mb,scaffold N50为22.87 Mb的栽培桑树基因组(图1E)。利用该高质量基因组进行系统发育树构建,发现野生川桑和栽培桑树分化时间已有10.1个百万年(图2A)。与葡萄和桃树基因组共线性分析发现,栽培桑树基因组除了具有双子叶植物共有的γ古六倍化事件之外,没有新的全基因组加倍(WGD)事件发生。因此,栽培桑树基因组为二倍体,并非来源于野生川桑基因组的同源或异源加倍。
图2 (A)白桑(Morus alba)与川桑(M. notabilis)的分化距离在~10.1个百万年左右,(B)白桑与葡萄(Vitis. vinifera)和桃(Prunus persica)基因组共线性分析。
现有栽培桑树按照形态学特征分为白桑、鲁桑、山桑、广东桑和瑞穗桑五个种,并不能真实反映桑树品种之间的系统发育关系。本研究收集了132分栽培桑树种质(除广东桑外)进行重测序,获得了14.27Mb的单核苷酸多态性(SNP)数据,利用该数据构建系统发育树,没有得到与形态分类相似的聚类结果,在分子水平将白桑、鲁桑、山桑和瑞穗桑这4种栽培桑树种鉴定为同一物种,即白桑(Morus alba L)。
图3 134份桑树种质资源的群体结构、核酸多样性分析
群体结构分析将134份栽培桑树种质划分为三个大群:中国湖桑群体,中国北方和西南群体,日本群体(图3A)。系统发育和主成分分析均表明中国桑树群体与日本桑树群体遗传距离较远,湖桑与来自于北方和西南地区的桑树具有明显的分化距离(图3BCD)。遗传多样性分析显示,湖桑的遗传多样性只有其他群体的一半,有强烈的人工选择痕迹。因此,太湖流域的湖桑与其他桑树群体在更早时期就已分开,成为一个独特的品种支系。同时自唐代以来,我国桑蚕业核心区域南移,湖桑作为独立种质资源受到了江南人民持续有目的的选育。这与崧泽遗址的孢粉学研究和吴兴钱山漾考古学证据可以相互印证。
图1 马尾松毛虫生活史。(a) 卵 (b) 幼虫 (c) 蛹 (d) 雌性成虫 (e) 雄性成虫
本研究以自然群体中马尾松毛虫雌性成虫为样本,k-mer分析显示基因组大小约为596.1Mb,杂合度1.70%,属于高杂合基因组。随后,利用PacBio测序技术结合Hi-C染色体构象捕获技术,组装出包含30条染色体的马尾松毛虫高质量基因组。最终版本基因组大小为614 Mb,contig N50为1.39 Mb,scaffold N50 为22.15 Mb,Hi-C挂载率为 96.96%。组装基因组质量评估发现,99.7%的短读长数据会比至基因组,BUSCO完整性评估达到96.4%,表明组装出的马尾松毛虫基因组序列完整、错误率低。研究者将马尾松毛虫分别与两个鳞翅目昆虫(斜纹夜蛾、家蚕)基因组进行比较,基因共线性程度高,符合前人提出的鳞翅目昆虫基因位点或共线性排序相似的研究结论,再次证实马尾松毛虫的高质量基因组。马尾松毛虫基因组共注释到17,593个蛋白编码基因,其中15,914个基因获得了功能注释,重复序列占全基因组的56.16%。
图3 马尾松毛虫与其他11种昆虫的系统发育树
图4 (a)P450基因在马尾松毛虫四个发育时期表达情况。(b) 马尾松毛虫(红点)与家蚕基因组中P450基因的三个族。
高质量的马尾松毛虫基因组将为在基因组水平研究这一重要林业害虫的各种生物学过程提供机会,并将为马尾松毛虫和其他枯叶蛾科昆虫的功能和进化研究提供有价值的资源。
影响因子:7.049
发表日期:2020.03.27
三代测序平台:PacBio Sequel
图1温室白粉虱与烟粉虱不同生物型基因组关键指标比较
影响因子:7.049
发表日期:2020.03.26
三代测序平台:PacBio Sequel
图2 黑尾近红鲌24条染色体Hi-C热图
影响因子:4.688
发表日期:2020.03.19
三代测序平台:PacBio Sequel
图3 (A)巨尾阿丽蝇与黑腹果蝇基因组共线性图;(B)巨尾阿丽蝇染色体基因密度分布图
影响因子:4.688
发表日期:2020.03.26
三代测序平台:Nanopore
图4 梭子蟹的基因组特征圈图
影响因子:3.517
发表日期:2020.01.08
三代测序平台:Nanopore
图5 圆点斑芫菁相比两个近源斑蝥,基因组连续性和完整性均有大幅度提升。
2020希望组合作文章列表
高质量基因组揭示棉花A亚基因组起源[1]
影响因子:25.455
发表日期:2020.04.13
三代测序平台:PacBio RSII&Sequel
图1 棉花A基因组起源与进化模型(a)和重要进化事件(b)
ONT测序助力攻克首个高质量角苔参考基因组[2]
影响因子:13.297
发表日期:2020.02.10
三代测序平台:Nanopore PromethION
图2 芽胞角苔与18个绿色植物的比较基因组分析。a, 基于OrthoMCL的基因家族聚类比较。b, 19个绿色植物的基因家族获得(+)/丢失(-)情况比较,红框标注苔藓类群分支。c, 芽胞角苔、小立碗藓和地钱的全基因组加倍事件分析。
高质量油桐基因组,荣登GPB期刊“封面故事”[3]
影响因子:6.597
发表日期:2020.04.07
三代测序平台:PacBio RSII
图3 油桐(a)及其基因组景观(b)
白木香—瑞香科第一个染色体水平基因组[4]
影响因子:4.688
发表日期:2020.03.02
三代测序平台:Nanopore GridION
图4 白木香(a)及其基因组Hi-C热图(b)
园艺观赏植物文竹染色体水平基因组[5]
影响因子:3.368
发表日期:2020.04.01
三代测序平台:Nanopore GridION
图5 文竹高质量基因组。(a)文竹。(b)基于1002个单拷贝直系同源基因的系统发生树。(c)文竹基因组景观。(d)文竹与芦笋基因组线性比较
影响因子:4.688
发表日期:2020.02.26
三代测序平台:Nanopore GridION
图6 铁核桃与其近源种基因组比较
参考文献:
1. Huang, G. et al. Genome sequence of Gossypium herbaceum andgenome updates of Gossypium arboreum and Gossypium hirsutumprovide insights into cotton A-genome evolution. Nat Genet (2020)doi:10.1038/s41588-020-0607-4.
2. Zhang, J., Fu, X., Li, R. et al. The hornwort genome and early landplant evolution. Nat. Plants 6, 107–118 (2020).https://xs.scihub.ltd/https://doi.org/10.1038/s41477-019-0588-4
3. Zhang, L. et al. Tung Tree (Vernicia fordii) Genome ProvidesA Resource for Understanding Genome Evolution and Improved Oil Production.Genomics, Proteomics & Bioinformatics S167202291830216X (2020)doi:10.1016/j.gpb.2019.03.006.
4. Ding, X. et al. Genome sequence of the agarwood tree Aquilariasinensis (Lour.) Spreng: the first chromosome-level draft genome in theThymelaeceae family. GigaScience 9, giaa013 (2020).
5. Li, S.-F. et al. Chromosome-level genome assembly, annotation andevolutionary analysis of the ornamental plant Asparagus setaceus. HorticRes 7, 48 (2020).
6. Ning, D.-L. et al. Chromosomal-level assembly of Juglanssigillata genome using Nanopore, BioNano, and Hi-C analysis. GigaScience 9,giaa006 (2020).
图1 萜类生物合成“KEGG通路图”,绿色方框基因在圆点斑芫菁基因组中发现。
蕨类在地球上已经存在了3.35亿年,是现存最古老的植物之一。远在恐龙出现和大陆漂移之前,它们便占据着原始大陆的沼泽森林,通过羽状叶片储存大量太阳能。蕨类死亡后的遗骸被埋葬在泥泞的沼泽沉积物中,经过千万年压缩转化成当代工业革命的能量——煤。
蕨类具有重要系统发育地位,尽管蕨类的基因组数据量仍然有限,但现有数据强烈表明,它们的基因组动力学与所有其他陆地植物截然不同。蕨类基因组的典型特征是染色体数目多,这被认为是通过多倍体的多个全基因组复制(WGD)周期产生的。然而,与被子植物多倍体相比,蕨类的多倍体后二倍体化过程通常涉及基因沉默而不是DNA消除,从而导致染色体数目异常增多,同时保持二倍体基因的表达[1]。蕨类染色体的平均数目(n = 63.5)[2]是被子植物平均数目的三倍多(n = 21.55)[3]。而蕨类基因组大小平均为12Gb[3],最大甚至达到148Gb[4,5]
表2 NextDenovo的组装案例