续航i5K计划-探索节肢动物多样性基因组基础

i5K最初在2011年的科学杂志和美国昆虫学会上提出,是一项测序5000种节肢动物基因组的计划,目的是为节肢动物在分子水平上的研究提供基础参考。近日,美国印第安纳大学、德国明斯特大学等49家国际科研单位在bioRxiv预印网站上联合发表题为《The Genomic Basis ofArthropod Diversity》的文章,从基因组角度揭示节肢动物多样性的基础[1],为I5K计划新添浓墨重彩的一笔。节肢动物多样性居动物界首位,在生态系统中发挥着重要作用,但在分子水平上却仍具有很高的保守性。详细解析节肢动物超多样性分类群的基因组序列变化能够帮助我们更深入的探究其基因组进化的问题。

研究者选取了76种节肢动物的全基因组序列,代表了跨越约5亿年节肢动物进化史的21个目。通过全基因组序列分析,研究比较并解释了基因和蛋白结构域的变化,鉴定了许多在节肢动物进化早期和分化成为当下昆虫阶元过程中出现的新基因家族,还揭示了节肢动物DNA甲基化模式的转变,并发现了基因家族和蛋白结构域进化与表型和生理适应性同步出现的例证。这些分析表明大规模比较基因组学研究可以为基因型到表型的映射提供新见解,并且可以进一步提出关于动物多样性进化的可检验假说。

研究材料

为响应i5K试点项目,研究者挑选了28个节肢动物进行基因组测序注释,包括农业和生态学研究的重要物种、实验室模式物种和节肢动物系统发育中关键节点的物种等。另外,对含48种已测序节肢动物共76个物种进行研究,涉及现存节肢动物的4个亚门中的21个目。

研究结果

选取76种节肢动物结合3个外群,采用OrthoDB基因同源数据库从76个物种中共注释了38,195个同源蛋白质组(orthologous proteins groups),28种i5K试点项目测序的物种共注释了533,636个基因模型(gene models),如Fig.1所示。

Fig.1 i5K试点项目76个物种OrthoDB同源性分析

研究者基于目阶元的单拷贝同源基因组,构建了所有主要节肢动物家系的系统发育树(Fig.2)。除了甲壳类我们认为是单系发育而之前认为是六足类复系之外,大部分与前期已报道的节肢动物发育树相一致。该研究对76种节肢动物每个家系的38,195个同源蛋白质组进行基因和蛋白域重构,用于后续分析。

Fig.2节肢动物系统发育树

研究者进一步根据系统发育树对基因家族进行扩张和收缩分析,发现有181,157个基因家族扩张,87,505个基因家族收缩。68,430个基因家族至少在一个家系中消失,其中,9,115个家族出现在不同群体中。变化最大的几个基因家族编码蛋白涉及的主要功能有抵御外来生物(细胞色素P450s,磺基转移酶)、消化(肽酶)、几丁质骨架结构和代谢、多锌指转录因子类型、HSP20域胁迫响应、脂肪酸代谢和蜕化类固醇代谢等。

根据系统发育树还可推测祖先节肢动物的特点。如在最近的昆虫祖先(LICA)中共鉴定9,061个基因,147个基因家族,且有些家族在昆虫发育和适应性进化中发挥重要作用,而在完全变态昆虫进化过程中只鉴定到10个基因家族,表明在过渡的过程中许多基因家族已经存在(Fig.3A、B)。基因家族的变化可能是某一特殊表型过渡的基础。

Fig.3 基因家族,蛋白域和甲基化分析

在昆虫特定的目中,研究者还发现了大量的基因,引人注目的是,在鳞翅目节点处有1038个基因家族,是所有家系节点中基因家族最多的(Fig.3C)。

结果还发现,种特异性基因家族扩张受自然选择的影响,如切叶蚁,在世界各地人类住房中随处可见,在节肢动物中快速进化的基因家族数最高,同时,还发现其基因扩增和丢失以及蛋白结构域重排比率也是最高的(Fig.3D、E)。

研究者对不同节肢动物之间DNA甲基化水平进行了研究,结果发现,半变态昆虫和非昆虫的节肢动物DNA甲基化水平要高于全变态昆虫。对所有蜘蛛类和树皮蝎子基因组甲基化就行分析,发现蜘蛛类甲基化比率很高,显现出明显的双峰(Fig.3F)。

Fig.4 节肢动物基因组变化速率

有趣的是,研究结果发现基因扩增和缺失比率与结构域重排间有着很强的关联,而氨基酸替换率变化与基因扩增和缺失比率没有关联(Fig.4)。

i5K计划已组装出前无古人的节肢动物基因组数据集,并已在农作物、森林虫害等方面建功卓著,而该研究则全面分析了跨越5亿年节肢动物门的基因组,发现主要的形态转变不能归因于基因组某一特定改变,而是关联一系列复杂的基因网络。要更好的理解基因型和表型之间的映射关系需要更深入的研究来验证基因组学的假设,而多样性丰富的节肢动物正为表型研究提供了无可比拟的材料,结合易处理的实验属性,该领域的研究将来还有极其广阔的前景。多样性基因组研究将促使节肢动物以往的类群划分,概念定义乃至整个系统演化脉络都发生深刻的变化。

武汉未来组凭借自身拥有的PacBio Sequel、GrindION、PromethION、BioNano光学图谱、HiC染色体构象捕获技术和平台,以及丰富的基因组学经验,推出了“TOP1000昆虫基因组计划”、“个人参考基因组服务计划”、 “华夏万人结构变异计划”等。在承诺高标准交付指标的同时,未来组将进一步大幅压缩项目服务周期,为合作伙伴提供专业优质的服务。

参考文献

Thomas, G.W.C., et al., The Genomic Basis of Arthropod Diversity. bioRxiv, 2018. http://dx.doi.org/10.1101/382945.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注