气候变化还能改变基因组大小?

两栖动物是动物发展历程中的关键群体,作为第一批登陆的脊椎动物,在动物从水生到陆生的进化过程中起着“承先启后”的重要作用。两栖动物能在陆地存活,但无陆地繁殖的本领,是一群过渡类群,这种独特的生命史使其对气候变化十分敏感。

众所周知,基因组记录了物种的遗传信息,物种的进化必定是建立在基因组的进化之上,于是人们很自然地把基因组的大小与物种在进化上的复杂程度相关联起来。然而它们的演化轨迹是否完全一致呢?在漫长的进化史中又有哪些因素会导致基因组大小的变化呢?为了解开基因组大小演化中的这个谜题,西班牙和英国研究者通过大规模的两栖动物发育系统及多种进化模型研究了两栖动物生命史,揭示了影响两栖动物基因组演化趋向的关联因素并且发现气候变化可间接影响两栖动物基因组大小,论文于近日发表在nature ecology & evolution上。

两栖动物是动物发展历程中的关键群体,作为第一批登陆的脊椎动物,在动物从水生到陆生的进化过程中起着“承先启后”的重要作用。两栖动物能在陆地存活,但无陆地繁殖的本领,是一群过渡类群,这种独特的生命史使其对气候变化十分敏感。

众所周知,基因组记录了物种的遗传信息,物种的进化必定是建立在基因组的进化之上,于是人们很自然地把基因组的大小与物种在进化上的复杂程度相关联起来。然而它们的演化轨迹是否完全一致呢?在漫长的进化史中又有哪些因素会导致基因组大小的变化呢?为了解开基因组大小演化中的这个谜题,西班牙和英国研究者通过大规模的两栖动物发育系统及多种进化模型研究了两栖动物生命史,揭示了影响两栖动物基因组演化趋向的关联因素并且发现气候变化可间接影响两栖动物基因组大小,论文于近日发表在nature ecology & evolution上。

Fig. 1 两栖动物系统发育树

已有的研究表明,基因组大小与细胞核大小、营养物需求、生命周期复杂性、基础代谢、细胞周期、组织分化和发育速率等有关。该研究通过系统发育方差分析表明,生命周期复杂性与基因组大小之间没有显著相关性(Fig. 2a,2b)。在有尾目中,幼形遗留物种基因组大小与非幼形遗留物种之间亦没有显著差异(Fig. 2c)。由此表明,两栖动物基因组大小与是否有幼虫发育阶段无关,反驳了早期基因组大小与是否存在变态发育有关的研究结论。

Fig. 2 两栖动物基因组大小进化的祖先状态重建表征图

为了检测基因组进化速率随着时间的推移在两栖动物不同目之间的差异,明确有尾目特征空间的变化是自发变化还是突变进化的结果,研究者采用BAMM算法估计基因组大小进化速率,结果表明,有尾目基因组大小进化较无尾目更慢(Fig. 3a),蚓螈目处于中间状态,且随着时间的推移,到现代有尾目进化速率下降,而蚓螈目和无尾目进化速率均有缓慢的增加(Fig. 3b)。进化模型拟合表明,无尾目和蚓螈目的基因组是在共同的Brownian motion过程下进化的,而有尾目基因组的进化过程则截然不同。

Fig. 3 两栖动物三个目的基因组大小进化速率评估

环境温度是变温动物生理机能的重要决定因素,影响细胞复制、代谢和发育。而已有研究表明快速发育导致无脊椎动物基因组大小的减小,因此推测环境温度的变化可能在基因组大小进化中具有重要作用。该研究结果表明,在无尾目和有尾目中,环境和生活史相关,高温和干旱显著减少其发育时间。在无尾目中,基因组大小与发育周期相关,短的发育周期其基因组也较小。由此可见,气候变化可间接影响两栖动物基因组大小。

在整个生命之树中,基因组大小的显著变化是随时间渐进式进化导致的还是间断式进化的结果一直存在争议。研究认为这两个过程都有贡献,尽管当间断事件发生的时候可能会对基因组大小进化的整体模式产生深远的影响,但是间断事件罕见。研究也推测Brownian-motion-like的进化模式可能是分子过程相互作用的结果,主要是转座子含量的变化,其可导致多倍化或复制事件甚至是突变的基因组进化。

测序技术大战生态危机

         

生态系统形成于长期的演化,系统中的物种经过成百上千年的竞争、排斥、适应和互利互助才形成了现在相互依赖又互相制约的密切关系。一个外来物种被引入后,可能因不能适应新环境而被排斥在系统之外;也可能因新的环境中没有相抗衡或制约它的生物加上其旺盛的繁殖力和强大的竞争力而改变或破坏当地的生态环境,甚至对人类安全和经济发展造成危害。

面对外来入侵物种触发的环境警报,人们也对其采取了一定措施:例如人工防治、化学防治及生物防治等多种手段。这些方法虽然可在一定程度上控制其蔓延趋势,但是很难从根本上逆转生物入侵造成的后果。因此,科研工作者开始致力于解析入侵物种的遗传密码,期望找到其环境适应性的基因组学基础,为入侵物种带来的生态危机寻找新的突破口。

随着高通量测序技术的快速发展及测序成本的持续下降,入侵物种基因组研究已逐渐打开新的局面,如美洲大蠊和大理石纹螯虾基因组均于今年发表在Nature子刊,近期又有蔗蟾及福寿螺基因组陆续发表。可见,入侵物种基因组研究已日渐受到研究者们的重视。

物种:美洲大蠊

拉丁名:Periplaneta americana

基因组大小:3.38 Gb

测序策略: Illumina

组装指标: Scaffolds N50=333kb

发表期刊:Nature Communications

发表时间:2018

美洲大蠊原产于非洲北部,在16世纪从非洲迁入美洲,并从此传遍世界各地,如今在中国各省市广泛分布。美洲大蠊食性复杂,适应能力极强;无需进行交配,就能通过孤雌生殖的方式进行繁殖,后代皆为雌性蟑螂,这些雌性蟑螂又能自己繁殖后代。研究者指出,一定数量的美洲大蠊在孤雌生殖的情况下,只要3年就能繁殖超过4代,足以对公共健康造成威胁,因为它们可作为病原体和室内过敏原的潜在载体。令科学家们恐惧的是,由于雌性蟑螂繁殖无需雄性,使得遏制蟑螂种群的问题变得棘手。

中科院植物生理生态研究所詹帅研究组与合作者对美洲大蠊进行了全基因组测序,组装得到3.38Gb美洲大蠊基因组,通过基因组及其功能分析对美洲大蠊的城市环境适应性和可塑性发育进行研究[1]。与其它昆虫比较发现,美洲大蠊扩张的基因家族主要与环境适应性有关,如化学感应和解毒,这些是美洲大蠊拥有广泛的环境适应性的基础。此外,研究人员也鉴定出了美洲大蠊参与发育和再生的信号传导路径。美洲大蠊有望作为一个模式物种被研究者用来开展蟑螂的生物学研究,基因组密码的破解将为防治美洲大蠊提供新思路。

物种:大理石纹螯虾

拉丁名:Procambarus virginalis

基因组大小:3.5 Gb

测序策略:Illumina

组装指标: Scaffolds N50=39.4 kb

发表期刊:Nature Ecology & Evolution

发表时间:2018

大理石纹螯虾(P. virginalis)作为一个热点物种,也是通过孤雌生殖的方式进行繁殖,令人惊奇的是,在大约25年前大理石纹螯虾还不存在。分子生物学家FrankLyko的团队对一只来自实验室的大理石纹螯虾进行基因组测序[2],基因组大小约3.5Gb,鉴定出21,000多个基因。更进一步的研究发现,大理石纹螯虾基因组的许多位点都有两种不同基因型,其中两条染色体序列几乎完全相同,但第三条却明显不同,两条染色体与P.fallax亲缘相近。

系统的野外实验和基因分型结果揭示了大理石纹螯虾在马达加斯加的快速扩张并确定其为淡水系统强有力的入侵物种。为了更好地了解该物种的传播规律,Lyko团队又测序了四只P.virginalis,测序结果显示P.virginalis的遗传多样性严重匮乏,事实上,所有P.virginalis似乎都起源于1995年德国发现的那只雌性大理石纹螯虾。

大理石纹螯虾具有独立的遗传变异,这一特性被认为是其在不同生境快速入侵的决定性因素,如随机表观遗传变异和/或表观遗传可塑性在大理石纹螯虾的快速适应性中发挥了重要作用。

物种:海蟾蜍

拉丁名:Rhinella marina

基因组大小:2.55Gb

测序策略:PacBio RSII+Illumina

组装指标: Scaffolds N50=168 kb

发表期刊:GigaScience

发表时间:2018

海蟾蜍(R. marina)原产于中美洲和南美洲,现已被引进世界很多其它地方,因它们的快速适应能力和对入侵地区土著动物的毒性而闻名。1935年,海蟾蜍被引进澳大利亚,释放到昆士兰州北部的甘蔗种植园内,用来控制甘蔗甲虫的危害(因此也被称为甘蔗蟾蜍)。而如今,澳大利亚海蟾蜍的数量已经超过了1亿只。海蟾蜍的毒性非常大,对于大多数动物来说,如果吞吃了它们的卵、蝌蚪或者成体,会立刻引起心力衰竭而死亡,这使得这种生物在澳大利亚境内几乎立于不败之地。此外,它还导致以本地蛙类为食的袋鼬已经有濒临灭绝的危险。

澳大利亚科学家WhiteP.等分析了海蟾蜍基因组[3],基因组大小为2.55Gb,重复序列占63.9%,是蟾蜍科首个报道的基因组。对组装序列进行BUSCO评估,在海蟾蜍基因组中可以找到90.6%的完整基因元件,说明绝大部分保守基因组装得比较完整,从侧面反映组装结果可信度较高。进一步对基因组进行注释,得到25,846个编码基因,与SwissProt数据库已知蛋白相似。

海蟾蜍基因组的解码为进一步认识无尾目动物的生物学遗传特性和入侵物种的进化奠定基础。更重要的是,这些数据将能够促进生物防控策略的创新和应用,从而减少海蟾蜍对本地物种的侵害。

物种:福寿螺

拉丁名:Pomacea canaliculata

基因组大小:440.1 Mb

测序策略:PacBio + Hi-C

组装指标: Contig N50=1.1 Mb

发表期刊:GigaScience

发表时间:2018

福寿螺(P. canaliculata)是一种淡水蜗牛,原产于南美亚马逊河流域,被列为全球100种最具威胁的外来物种之一,可造成农业生态系统的破坏和其它水生物种的灭绝。它的繁殖能力极强,生长速度快,耐受性强,对环境具有很强的适应性。

中国科学家通过Hi-C技术辅助PacBio组装得到福寿螺染色体级别的高质量基因组[4],基因组大小约440Mb,重复序列占11.4%,共鉴定21,533个基因。该研究主要发现了DNA/hAT-Charlie转座子的近代扩张、P450基因家族的扩张,以及细胞内稳态系统的组成,在胁迫环境的生态适应性中发挥重要作用。此外,卵巢和蛋白腺中卵黄蛋白周围基因的高水平转录促进了卵细胞营养供应和防御能力的提高。研究者还对福寿螺肠道进行宏基因组研究,发现许多用于食物消化和异生物降解的基因。这些研究成果为进一步研究福寿螺的生态适应性和高入侵能力的分子机制提供了新的视角。

除了以上物种之外,很多入侵植物也对当地的生态环境造成了严重影响:例如在我国云南地区疯长蔓延的紫茎泽兰、在南方地区河流水域大面积覆盖的凤眼莲、空心莲子草等……但关于入侵植物基因组的研究目前仍是一片空白。

物种:紫茎泽兰

拉丁名:Eupatorium coelestinum L

基因组信息:——

紫茎泽兰原产于中美洲,大约20世纪40年代紫茎泽兰由中缅边境传入云南南部,1935年在云南南部首次发现,随河谷、公路、铁路自南向北传播,时至今日,已覆盖云南80%的土地,并且大约以每年10-30公里的速度向北和向东扩散,目前已被列入我国首批外来入侵物种的第一位。紫茎泽兰是农、林、牧生产的大敌,其侵入农田、草地后与农作物、牧草竞争土壤养分和空间,严重影响农作物、牧草的生长。

物种: 凤眼莲

拉丁名:Eichhornia crassipes

基因组信息:——

凤眼莲又称水浮莲、水葫芦,原产于南美洲,1901年,凤眼莲作为一种观赏植物被引入我国,后作为猪饲料被推广种植。其根系发达,适应性强,在生长适宜区,常由于过度繁殖而抢占水面,致使大量水生生物因缺氧和阳光不足而死亡,破坏水中生态平衡。

物种:空心莲子草

拉丁名:Alternanthera philoxeroides

基因组信息:——

参考文献

[1] Li S,Zhu S, Jia Q, et al. The genomic and functional landscapes of developmental plasticity in the American cockroach[J]. Nature Communications,2018, 9(1).

[2]Gutekunst J, Andriantsoa R, Falckenhayn C, et al. Clonal genome evolution and rapid invasive spread of the marbled crayfish [J]. Nature Ecology &Evolution, 2018, 2(3):567.

[3]Richard J Edwards, et al. Draft genome assembly of the invasive cane toad, Rhinella marina [J]. GigaScience, 2018.

[4]Conghui Liu, et al. The genome of the golden apple snail Pomacea canaliculata provides insight into stress tolerance and invasive adaptation [J].GigaScience. 2018.

续航i5K计划-探索节肢动物多样性基因组基础

i5K最初在2011年的科学杂志和美国昆虫学会上提出,是一项测序5000种节肢动物基因组的计划,目的是为节肢动物在分子水平上的研究提供基础参考。近日,美国印第安纳大学、德国明斯特大学等49家国际科研单位在bioRxiv预印网站上联合发表题为《The Genomic Basis ofArthropod Diversity》的文章,从基因组角度揭示节肢动物多样性的基础[1],为I5K计划新添浓墨重彩的一笔。节肢动物多样性居动物界首位,在生态系统中发挥着重要作用,但在分子水平上却仍具有很高的保守性。详细解析节肢动物超多样性分类群的基因组序列变化能够帮助我们更深入的探究其基因组进化的问题。

研究者选取了76种节肢动物的全基因组序列,代表了跨越约5亿年节肢动物进化史的21个目。通过全基因组序列分析,研究比较并解释了基因和蛋白结构域的变化,鉴定了许多在节肢动物进化早期和分化成为当下昆虫阶元过程中出现的新基因家族,还揭示了节肢动物DNA甲基化模式的转变,并发现了基因家族和蛋白结构域进化与表型和生理适应性同步出现的例证。这些分析表明大规模比较基因组学研究可以为基因型到表型的映射提供新见解,并且可以进一步提出关于动物多样性进化的可检验假说。

研究材料

为响应i5K试点项目,研究者挑选了28个节肢动物进行基因组测序注释,包括农业和生态学研究的重要物种、实验室模式物种和节肢动物系统发育中关键节点的物种等。另外,对含48种已测序节肢动物共76个物种进行研究,涉及现存节肢动物的4个亚门中的21个目。

研究结果

选取76种节肢动物结合3个外群,采用OrthoDB基因同源数据库从76个物种中共注释了38,195个同源蛋白质组(orthologous proteins groups),28种i5K试点项目测序的物种共注释了533,636个基因模型(gene models),如Fig.1所示。

Fig.1 i5K试点项目76个物种OrthoDB同源性分析

研究者基于目阶元的单拷贝同源基因组,构建了所有主要节肢动物家系的系统发育树(Fig.2)。除了甲壳类我们认为是单系发育而之前认为是六足类复系之外,大部分与前期已报道的节肢动物发育树相一致。该研究对76种节肢动物每个家系的38,195个同源蛋白质组进行基因和蛋白域重构,用于后续分析。

Fig.2节肢动物系统发育树

研究者进一步根据系统发育树对基因家族进行扩张和收缩分析,发现有181,157个基因家族扩张,87,505个基因家族收缩。68,430个基因家族至少在一个家系中消失,其中,9,115个家族出现在不同群体中。变化最大的几个基因家族编码蛋白涉及的主要功能有抵御外来生物(细胞色素P450s,磺基转移酶)、消化(肽酶)、几丁质骨架结构和代谢、多锌指转录因子类型、HSP20域胁迫响应、脂肪酸代谢和蜕化类固醇代谢等。

根据系统发育树还可推测祖先节肢动物的特点。如在最近的昆虫祖先(LICA)中共鉴定9,061个基因,147个基因家族,且有些家族在昆虫发育和适应性进化中发挥重要作用,而在完全变态昆虫进化过程中只鉴定到10个基因家族,表明在过渡的过程中许多基因家族已经存在(Fig.3A、B)。基因家族的变化可能是某一特殊表型过渡的基础。

Fig.3 基因家族,蛋白域和甲基化分析

在昆虫特定的目中,研究者还发现了大量的基因,引人注目的是,在鳞翅目节点处有1038个基因家族,是所有家系节点中基因家族最多的(Fig.3C)。

结果还发现,种特异性基因家族扩张受自然选择的影响,如切叶蚁,在世界各地人类住房中随处可见,在节肢动物中快速进化的基因家族数最高,同时,还发现其基因扩增和丢失以及蛋白结构域重排比率也是最高的(Fig.3D、E)。

研究者对不同节肢动物之间DNA甲基化水平进行了研究,结果发现,半变态昆虫和非昆虫的节肢动物DNA甲基化水平要高于全变态昆虫。对所有蜘蛛类和树皮蝎子基因组甲基化就行分析,发现蜘蛛类甲基化比率很高,显现出明显的双峰(Fig.3F)。

Fig.4 节肢动物基因组变化速率

有趣的是,研究结果发现基因扩增和缺失比率与结构域重排间有着很强的关联,而氨基酸替换率变化与基因扩增和缺失比率没有关联(Fig.4)。

i5K计划已组装出前无古人的节肢动物基因组数据集,并已在农作物、森林虫害等方面建功卓著,而该研究则全面分析了跨越5亿年节肢动物门的基因组,发现主要的形态转变不能归因于基因组某一特定改变,而是关联一系列复杂的基因网络。要更好的理解基因型和表型之间的映射关系需要更深入的研究来验证基因组学的假设,而多样性丰富的节肢动物正为表型研究提供了无可比拟的材料,结合易处理的实验属性,该领域的研究将来还有极其广阔的前景。多样性基因组研究将促使节肢动物以往的类群划分,概念定义乃至整个系统演化脉络都发生深刻的变化。

武汉未来组凭借自身拥有的PacBio Sequel、GrindION、PromethION、BioNano光学图谱、HiC染色体构象捕获技术和平台,以及丰富的基因组学经验,推出了“TOP1000昆虫基因组计划”、“个人参考基因组服务计划”、 “华夏万人结构变异计划”等。在承诺高标准交付指标的同时,未来组将进一步大幅压缩项目服务周期,为合作伙伴提供专业优质的服务。

参考文献

Thomas, G.W.C., et al., The Genomic Basis of Arthropod Diversity. bioRxiv, 2018. http://dx.doi.org/10.1101/382945.

Nature Genetics | 三代测序揭示玉米种内存在广泛的基因结构变异

昨日,中国农业大学农业生物技术国家重点实验室及国家玉米改良中心联手未来组、斯坦福大学及冷泉港等团队合作,在Nature Genetics在线发表题为“Extensive intraspecific gene order and gene structural variations between Mo17 and other maize genomes”的文章,公布了一个重要玉米种质的高质量参考基因组,并发现了种内特有的基因顺序及基因结构变异可能对杂种优势和基因组进化产生影响。

玉米(Zea mays)是重要的粮食作物,同时也是一个经典的遗传学模式植物,无论从经济价值还是科研价值来说,玉米的重要性都不言而喻。另外,由于玉米具有高度的种内基因组多态性,所以通过不同的杂种优势群进行杂交产生的后代通常具有极高的杂种优势水平。因此,自近一个世纪前,杂交玉米被广泛种植。大多数现代玉米都是杂交而来,其中“瑞德(Reid)黄马牙”(即自交系B73)和“兰卡斯特(Lancaster)”(即自交系Mo17)是两个最著名的玉米自交系,所以由B73和Mo17杂交产生的后代不仅在全球广泛种植,同时也是遗传学家及分子生物学家热衷研究的对象。无论是对于遗传基因图位克隆还是对杂种优势的分子基础或遗传印记的研究,玉米参考基因组都是必须解决的首要难题,在2009年公布的玉米B73基因组草图可以说是玉米研究领域的里程碑事件。近年来,随着第三代测序技术的不断发展,多项新技术结合打造的高质量植物基因组越来越多地被呈现在大众视野之中。

这篇发表在Nature Genetics上的研究通过三代PacBio SMRT测序技术、二代Illumina HiSeq平台与BioNano光学图谱技术结合,获得了一个高质量的Mo17的参考基因组(Table 1),给予了一个能够广泛比较玉米种内基因组多样性的前所未有的机会。

研究者利用200.8Gb的原始PacBio数据(约90×测序深度),拼装得到的ContigN50达到1.84Mb,并利用267.7Gb的BioNano辅助组装,得到2,560条scaffolds(scaffold N50达到10.2Mb,Table 1)。最终Mo17的基因组大小为2,183Mb,与此前报导的B73基因组(2,106Mb)相仿,经BUSCO评估,此次公布的Mo17基因组覆盖度约97.2%(B73基因组为97.3%),达到了几近完整基因组水平。

Table 1 Mo17基因组组装情况

注释结果显示,Mo17基因组中将近83.83%的序列为重复元件,包括反转座子(75.24%)、DNA转座子(6.12%)以及一些其他的未分类元件(1.72%),并且不同类型的重复DNA的组成与B73和PH207非常相似。此外,研究者还预测了Mo17基因组中的38,620个蛋白质编码基因,预测基因外显子的55%可由5种不同组织的RNA-Seq数据支持,覆盖率至少为90%。共有37,830个(97.95%)预测基因分布在10条模拟染色体上,蛋白质编码基因主要分布在染色体臂内,与转座子密度呈负相关(Fig.1)。

Fig. 1 B73和Mo17的基因组图谱比较

通过对B73和Mo17这两个基因组的比较,研究者鉴定出12,936个B73特有的基因组片段(总计12.96 Mb)和12,939个Mo17特有的基因组片段(总计12.2 Mb),长度大于500 bp,其中大部分(98.7%)小于5kb,并在B73和Mo17中分别发现了200条和126条长于5kb的PAV序列,这些PAV序列在基因组中不均匀分布(Fig.1)。

玉米是一个古老的四倍体植物,其两个亚基因组均经历了广泛的基因分化历程。研究者利用高粱作为参照,发现B73和Mo17经历了同一个四倍体化过程,以及大部分的后续基因分化事件。为了检测哪些基因可能受到选择的压力,研究者计算了B73,Mo17和PH207两两之间同源基因的中性突变率(Ks)。在Ks分布中发现了两个峰值:一个对应了一组由于近期遗传交换而产生的基因(Ks<0.0028),另一个则代表了余下的大部分基因,这些基因可能是在210万年前从玉米的共同祖先分化而来(Ks~0.025)。随后,研究者计算了Ks在0.0028到0.25之间的基因的Ka/Ks值。因为大多数非同义突变是有害的,并且经历了很强的净化选择,所以这些基因的Ka/Ks正如研究者预期一样,均明显偏向于零(Fig.2)。也就是说,这三个基因组中,均只有相对少数(1,000个左右)的基因受到正向选择(positive selection,Ka/Ks> 1),绝大部分(约7000个)基因仍处于进化约束之下(Ka/Ks < 0.1)。

Fig. 2 B73、Mo17和PH207基因组的进化

另外,比较分析结果显示,B73中的33,681个基因和Mo17中的33,597个基因同源或部分基因片段存在共线性,但同时也发现二者的基因有很多不存在共线性(包括5,105个B73基因和4,008个Mo17基因),因为在它们各自对应的基因组中的10 Mb范围内没有发现任何同源基因或基因片段(Table 2)。同时,PH207中的2,112个基因与B73和Mo17基因组中均不存在共线性。

20%以上的预测基因在B73、Mo17和PH207的任何两个自交系之间都表现出明显的蛋白质序列变异,表明这三个具有代表性的玉米自交系之间存在潜在的功能互补。值得注意的是,在非共线性基因中的大效应突变和大结构变异的比例显著高于共线性基因(χ2检验,p<2×10−16)。

Table 2 B73和Mo17之间的基因多态性

该研究利用三代测序技术揭示了玉米种间存在的大量非共线性基因、种内基因组结构变异及基因差异表达等,这些因素可能是造成玉米世系特异性的重要原因之一,因此评估这些非共线性基因对农业性状定量表型变异的影响将是未来一个很有价值的研究方向。

参考文献:

Sun, S. et al. Extensive intraspecific gene order and gene structural variations between Mo17 and other maize genomes. Nature Genetics (2018).

Cell | 首个轮藻基因组公布,揭示早期植物登陆的关键进程

近日,在Cell杂志上罕见地发表一篇以基因组为名的文章“The Chara Genome:Secondary Complexity and Implications for Plant Terrestrialization”[1],不仅公布了首个基础膜生植物的基因组,还推断了早期植物登陆这一历史性进化进程。这篇文章是由德国马尔堡大学(University of Marburg)的Stefan A. Rensing联合日本金沢大学(Kanazawa University)西山 智明(Tomoaki Nishiyama)、神户大学(Kobe University)坂山 英俊(Hidetoshi Sakayama)等60位科学家一同努力的成果,分量不可小觑。

陆生植物由绿藻进化而来,其中轮藻纲植物具有最为复杂的形态结构。因此,Stefan等研究者以布氏轮藻(Chara braunii)为立足点,通过Illumina测序辅以PacBio第三代测序技术组装高质量轮藻基因组,并与其他陆生植物基因组进行比较分析,发现了陆生植物的遗产基因(land plant heritage genes,LPHGs)以及早期植物登陆的进化新现象。

Fig.1 Stefan A. Rensing

在中古生代时早期就有数支藻类家系都适应了陆地环境,但最后只有一种传奇般的成为了陆地植物的祖先,这件意义非凡的进化事件是如何发生的一直是吸引着众多科学家为之疯狂的谜题。

Fig.2 轮藻的进化以及陆生植物的特征

轮藻(Charophytic algae)是膜生植物的一支,具有在新生细胞壁形成过程中起作用的成模体(phragmoplast)(Fig. 2)。作为最先分化出去的分支却有着比其他轮藻更复杂的形态学结构(Fig. 3),预示着轮藻纲植物基因组中可能存在着与早期植物登陆息息相关的特征和关键信息。

Fig.3 轮藻的生命周期和习性

于是,研究者收集了两个源自不同地方的布氏轮藻(Chara braunii)。通过Illumina对其分别测序,获得了1.75Gb的碱基数据,并最终将其中的1.43Gb拼装到contigs上,覆盖了约74%的布氏轮藻基因组,最后还运用了PacBio组建fosmids物理图谱验证基因组reads组装的准确性。另外,研究者采用了RNA-seq技术分别对布氏轮藻的营养阶段和生殖阶段进行转录组分析,注释了23,546个可能的编码基因,其中53%都有RNA数据支持并鉴定出至少94%的保守的关键基因集合(gene sets),应用于基因组学分析和线性分析。

由于轮藻基因组中不存在全基因组复制(whole genome duplication)情况,其基因组中基因家族的扩增主要是由于基因的复制或者差异化丢失。正是这些特异性的基因获得或丢失造就了布氏轮藻显著的形态学复杂性。同时,研究者们在比较布氏轮藻与现存陆生植物基因组后发现:通过PINs转运植物生长素,三螺旋TFs,MIKC类型MADS基因以及光呼吸和传播体存储蛋白等功能在克里藻(Klebsormidium nitens)分化前就已存在(Fig. 2)。

因此,许多之前被认为是类陆生植物的特征明显是从膜生植物的共同祖先中进化而来的。研究者鉴定出这些植物中共同拥有的性状,推断它们是穿越了数十亿年的进化历程仍被保留的祖先性状,并将与这些性状相关的基因命名为陆生植物的遗产基因(Fig. 4),从而推断出相应的进化奇迹是如何发生的。

Fig.4 布氏轮藻基因组中存在的陆生植物遗产基因

文中详细地研究了分枝、纤维素合成酶、顶端细胞生长、植物激素网络、ROS对有性生殖的潜在作用以及成模体等布氏轮藻的特征。另外,在陆上生活就意味着要接触更大量的紫外线,因此在陆生植物中,由RNA编码修复因UVB诱导突变的机制也被发现是从轮藻纲分化之后产生的。其他诸如多细胞孢子体和胚胎发育,复杂表皮的形成,以及与丛枝菌根互作的能力等,都是自植物登陆时进化产生并且在陆生植物进化过程中一直保留的特性,这些特性都是植物对陆生环境不断适应的清晰印记。

通过比对布氏轮藻基因组与陆生植物基因组之间各种惊人的相似性及重要的差异,我们可以清晰的勾勒出植物从水生向陆生不断适应和进化的伟大历程,每一步的挣扎和新生都仿佛昨日重现(Fig. 5)。

Fig.5 植物登陆进程[2]

该研究成果巨细无遗的呈现了植物进化长河的关键时刻,这些都离不开高质量参考基因组的获取。对于基因组结构复杂、成分交织不清的物种来说,高质量的基因组尤为重要。随着研究对基因组质量的要求不断提高,二代测序的劣势日益彰显,以本文为例,二代测序组装的轮藻基因组远不完美,仍有许多有待开发的关键区域未被涉及。第三代测序技术正在蓬勃发展,相信会有更多更完善的基因组不断被攻克,也将有更多的生物谜题不断被揭晓。

参考文献

1. Nishiyama, T. et al. TheChara Genome: Secondary Complexity and Implications for Plant Terrestrialization. Cell 174, 448-464 e424,doi:10.1016/j.cell.2018.06.033 (2018).

2. deVries, J., Stanton, A., Archibald, J. M. & Gould, S. B. Streptophyte Terrestrializationin Light of Plastid Evolution. Trends inplant science 21, 467-476,doi:10.1016/j.tplants.2016.01.021 (2016).

重大突破| 三代测序助力人类基因组DNA 6mA甲基化研究

近日,中山大学中山眼科中心肖传乐教授、广州医科大学附属第三医院晏光荣教授、中国农业科学院生物技术研究所谷晓峰研究员、北京放射医学研究所伯晓晨研究员、美国费城儿童医院及武汉未来组&北京希望组首席科学家王凯教授等学者与武汉未来组、北京希望组余国亮带领的团队共同合作完成的文章“N6-Methyladenine DNA Modification in Human Genome”在 Molecular Cell杂志在线发表。该研究利用三代测序技术,首次获得了中国人DNA  N6-甲基腺嘌呤(6mA)修饰图谱,是人类基因组DNA甲基化研究领域的重大突破。

DNA甲基化是表观遗传调控的重要组成部分,在调控基因组印记、X染色体失活、转座子沉默、基因表达、表观遗传记忆、胚胎发育和肿瘤发生等方面发挥着重要作用。真核生物中,5mC是最常见的甲基化修饰,而在原核生物中,6mA是最常见的甲基化修饰,且6mA甲基化在限制-修饰(R-M)系统的调控、DNA错配修复、基因表达等方面发挥了重要的作用。在早期的研究中,受技术条件的限制,并没有在真核生物中检测到DNA 6mA修饰,因此过去认为DNA 6mA在包括人类在内的真核生物中不存在。近年来,随着测序技术的不断发展,已经在莱茵衣藻、秀丽隐杆线虫、 果蝇 、真菌等真核生物中发现了DNA 6mA的存在,并且发现6mA甲基化参与了调控基因和转座子的表达。此外,已有大量研究表明RNA m6A修饰在人类mRNA中广泛存在,与RNA剪接、mRNA稳定性和基因表达有关。但有关DNA 6mA修饰是否广泛存在于人类基因组中,以及是否在基因调控和疾病致病机制中发挥作用等问题仍未得到深入研究。近年来以PacBio SMRT和Oxford Nanopore 为代表的三代测序技术将高通量和长读长相结合,同时具有高效、单碱基分辨率的优势,无需额外的样本制备,可直接获得整个基因组范围内的区域甲基化信息,为评估人类基因组中的甲基化提供了一个有效的方案。本研究首先对第一个基于三代测序的亚洲人参考基因组“华夏一号”的PacBio SMRT测序数据进行分析,共发现881,240个 6mA 修饰位点,首次获得了中国人DNA  N6-甲基腺嘌呤(6mA)修饰图谱。通过分析该甲基化图谱的特征,发现DNA 6mA在常染色体上的丰度较高,在X染色体和Y染色体中的丰度相对较低,且这些位点主要富集在外显子编码区。

各染色体上DNA 6mA的丰度分布

DNA 6mA在染色体各区域上的丰度分布

RNA 6mA已被证实对基因表达有重要的影响,但DNA 6mA在基因表达方面的潜在作用在很大程度上仍不清楚。本研究发现,高表达水平基因的外显子区域具有较高的6mA丰度,且进一步分析发现外显子区域的6mA丰度与RNA表达水平正相关。此外,通过对DNA 6mA丰度高的基因进行了GO富集分析发现,6mA修饰位点在G 蛋白偶联受体(GPCR)相关基因中有显著的富集。GPCRs作为膜蛋白受体参与多个细胞信号转导过程,以改变细胞的状态,且与许多疾病的发生有关,也是约40%治疗性药物的通用靶点。因此,6mA甲基化可能在GPCR相关基因表达调控中发挥重要作用,但还需进一步的研究。

m6A丰度与RNA表达水平的关系及其位置分布

此外,本研究发现和证实了DNA 6mA由N6AMT1甲基化转移酶和ALKBH1去甲基化酶调控。为了研究DNA 6mA的功能,该研究还分析了肿瘤组织及非肿瘤组织的6mA水平。结果发现,与非肿瘤组织相比,肿瘤组织中6mA及其甲基转移酶N6AMT1的水平呈现下调,而去甲基化酶ALKBH1的水平呈现上调。为了进一步研究DNA 6mA修饰对肿瘤发生的影响,对癌细胞中N6AMT1和ALKBH1进行过表达和沉默。结果发现沉默N6AMT1基因降低了癌细胞基因组的DNA 6mA水平,促进了癌细胞的生长,而N6AMT1过表达则以剂量依赖性方式抑制了癌细胞生长。沉默ALKBH1基因则增加了癌细胞基因组DNA 6mA水平,抑制了癌细胞的生长,而ALKBH1过表达以剂量依赖的方式逆转了这些效应。此外,通过构建肺癌异种移植小鼠模型,也得到与上述一致的结论。因此,结果表明DNA 6mA修饰水平的降低可以促进肿瘤发生。

N6AMT1下调对细胞增殖,迁移能力和肿瘤大小的影响

ALKBH1下调对细胞增殖,迁移能力和肿瘤大小的影响

综上所述,本研究首次获得了中国人DNA  N6-甲基腺嘌呤(6mA)修饰图谱,揭示了DNA 6mA甲基化修饰在人类基因组中的调控机制,加深了人们对于DNA 6mA甲基化生物学功能的认识。

未来组&希望组作为三代测Oxford Nanopore测序中心,致力于研发和推广长读长测序技术在科研和医学领域中的应用,目前已重磅推出“华夏万人SV”计划,旨在构建中国健康人群高分辨基因组结构变异图谱、单碱基精确度的DNA甲基化图谱,弥补目前基因组数据库的空白。同时,武汉未来组专注于三代测序在科研服务领域技术开发和应用推广,其合作研究项目已有多篇发表于国际知名学术期刊。未来组将在三代测序领域坚持创新,持续突破,应用新技术推动生物产业发展,为合作伙伴提供优质的测序组装及分析服务。

热议基因组|照亮基因组“暗物质”的新曙光

上周《Nature Genetics》发表了一篇名为《Adaptation and conservation insights from the koala genome》的文章,公布了迄今为止最完整最连续的有袋类动物参考基因组。令人惊叹的是,其中不仅包含了高度重复序列组成的着丝粒区域(centromeres),而且还发现了一种逆转录病毒(KoRV)的DNA也正以重复序列的形式入侵考拉基因组[1]。着丝粒等高度重复区域向来是二代测序的盲区,因此澳大利亚博物馆的Rebecca Johnson和同事运用PacBio RSII平台及Bionano光学图谱组装出了高质量考拉基因组,再一次向广大研究者证明了第三代测序技术在复杂基因组组装甚至跨越重复序列区域的能力上具备无可比拟的优势。
形形色色的重复序列
所谓重复序列,是指在基因组中不同位置出现的相同或对称片段。由于在基因组中分布广泛、数量庞大,根据不同的特性,可以将重复序列分成不同的类型。(太长!不看!那就直接上图吧!Fig. 1)

Fig.1 重复序列的分类

例如,依据核酸序列变性-复性热力学性质,可分成:

单拷贝序列(single copy);

低度重复序列(low repetitive sequences)——在基因组中重复2~10次;

中度重复序列(moderately repetitive sequences)——重复10~几百次;

高度重复序列(highly repetitivesequences)——重复几百次~几百万次;

其中中度重复以上的序列基本不编码蛋白质,高度重复序列更是构成着丝粒、端粒的主要部分。

依据重复结构、功能和位置分类的话,可分成:

串联重复序列(tandem repeat),包括简单重复序列(simple sequence repeats,SSR)和卫星DNA(satellite DNA);

片段重复序列(segmental duplication);

散在重复序列(interspersed repeat),指起源于逆转座子(retroposon)和DNA转座子(DNAtransposon),且较均匀地分布在基因组中的一些重复序列;

逆转座子又包括:

长散在重复序列(Long Interspersed NucleotideElements,LINE);

短散在重复序列(Short Interspersed NucleotideElements,SINE);

长末端重复序列(Long Terminal Repeat,LTR)等。

它们通过“复制-粘贴”的模式在供体位点上进行复制,复制形成的新转座子插入到基因组的另一位点,因此,逆转座子每转座一次,其拷贝就会增加一份,极大地影响物种基因组大小,而DNA转座子则主要是通过“剪切-粘贴”的模式直接从一个供体位点移动到另一位点,一般不影响基因组的大小。

意义非凡的重复序列

自1970年以来,关于串联重复序列的研究与日俱增,仅2017年在高影响力杂志上就发表了68篇与之相关的文章,预计2018年在此领域中的文章发表量甚至高达5500篇(Fig. 2),可见人们对于重复序列研究的热情始终高涨,也侧面反映了重复序列所具有的生物学意义实在是非比寻常。

Fig.2近年发表的串联重复序列文章数量统计[2]

1)重复序列参与基因调控、表观修饰、染色质重建等关键生理进程,如位于着丝粒(centromeres)、端粒(telomeric regions)等区域的卫星DNA能特异结合某些蛋白质,并使DNA链折叠形成高级的三维结构,对染色体的形成起着至关重要的作用。

2)重复序列不仅是造成大型基因组的主要因素,而且还扩充生物的遗传多样性。大量的重复序列会随着生物体的繁衍和物种间互动进行着垂直交换和水平转移,极大地扩增和丰富了遗传信息,还通过引起基因组序列的删除、扩增、断裂等重排作用增加物种遗传多样性。

3)重复序列不仅为遗传突变和新基因的产生提供了素材,也提供了容错的空间,为基因组进化提供了前进的动力和不可多得的保障。例如上文中的“考拉基因组文章”中就提及,KoRV的DNA插入了考拉基因组内的24个编码基因中,其中的22个插入了基因内含子区域,而剩下的2个是在3’-UTR区域,正是大量的间隔序列和重复序列稀释了编码基因的比例,从而充当了应对急剧变化的缓冲器,吸收了病毒入侵的DNA序列,最大程度保证基因组的正常运作[1]

4)通常认为,由DNA复制错误产生的串联重复序列因其保持着高度不稳定性,会干扰位于其附近的编码基因表达且较难整合到基因调控网络中,但从今年3月发表在《Cell》上的一篇关于重复序列的文章中,我们发现:如果串联重复序列中出现了能被转录因子识别的DNA序列模体(motif),则可能会将串联重复序列转化成功能性顺式调控元件(cis-regulatory elements),从而有利于其稳定地存在于基因组中(Fig.3)[3]

所以,关于串联重复,虽然每年都有大量文章发表,但对其更深层次的理解、运用[4]以及其所产生的一系列影响的研究[5],仍大有可为。

Fig.3 串联重复序列的远距离调控

由于重复序列是由一个重复单元被不断重复成百上千次甚至更多次数而形成的,所以对于采用第二代测序进行基因组组装的研究者来说简直就是噩梦。据估计,对于人类基因组而言,尚有8%左右的DNA序列有待测序,这些“缺口”主要包括的正是基因密集、序列重复的异染色质DNA。所以随着第三代测序技术的普及和基因组组装策略的完善,研究重复序列、填补基因组“缺口”成为研究者难得的机遇。

照亮基因组“暗物质”的新曙光——第三代测序技术

今年3月发表于《Nature Biotechnology》的文章中,研究者使用BAC文库结合Oxford Nanopore Technologies的ultra-long建库测序技术组装出了完整的人类Y染色体着丝粒区域序列,并跨越了由5.8Kb的序列串联重复52次形成的长达301Kb的区域,并鉴定出了7段6.0Kb长的高阶重复结构变异[6]

Fig.4 Y染色体着丝粒的线性组装

另外,最近在《Nature Communications》上发表的文章“High contiguity Arabidopsis thaliana genome assembly with a singlenanopore flow cell”[7]同样也展现了Nanopore测序技术的长读长在基因组组装中优势明显,不仅可以大大提高基因组组装的连续性,还可以解决短读长测序所难以攻克的复杂重复序列(一个单read就可以完整组装出一个长达39kb的重复序列,Fig. 5),对结构变异的鉴定也有很大的优势。

Fig.5 Nanopore测序技术解决拟南芥中高度重复区域

由此可见,第三代测序能获得高质量的基因组拼装结果,填补原参考基因组的缺口。随着覆盖高重复区域的高质量参考基因组相继闪耀登场,相信组学研究终会拨开云雾,真正迎来重复序列研究的曙光。

热议基因组|“垃圾”DNA究竟是垃圾还是宝藏

自DNA被发现以来就一直被誉为“生命天书”,对这本无字天书的完全解读也成为了无数科学家毕生追求的梦想。但随着人们对书中内容不断探索,却意外发现那些影响我们高矮胖瘦、生老病死等关键信息的基因只占基因组DNA的极少部分,而绝大部分看似不会编码蛋白质的DNA,有的人形容它们为“垃圾”DNA。但这个充满功利性的命名也就此引起了一场愈演愈烈的讨论。最近在《Cell》上发表的一篇重磅文章[1],不仅将“‘垃圾’DNA究竟是基因组垃圾堆还是珍贵的宝藏”这个议题拉回大众视野,而且也隐隐预示着一场盛大的“淘金运动”正悄然进行。

“垃圾”DNA的前世今生

19世纪60年代,孟德尔(Gregor Mendel)通过实验预示了基因的存在。随后分别于1869年和1944年,DNA被首次提取和证明为构成基因的基础物质。DNA即脱氧核糖核酸,而基因则是具有遗传效应的特定DNA序列,通俗地讲,基因就是一段编码某种蛋白质的DNA。

到了20世纪60年代后期,越来越多人发现,真核生物的DNA包含了数量庞大的重复DNA,而且这些DNA似乎并不会编码蛋白质。1972年,大野 乾(Susumu Ohno)正式将基因组中的非编码DNA命名为“垃圾”DNA。这个充满负面情感的名字也充分体现了当时科学家对于这些非编码DNA的看法,人们甚至认为这些序列没有积极功能,只是一些自私的DNA序列并热衷于自我扩张,这一理念也在1989年随着道金斯(Richard Dawkins)成名作《自私的基因》的大卖而广为人知。

众人皆醉我独醒,在大部分人都将“垃圾”DNA弃如敝履的时候,那些独具慧眼的人总能从“垃圾堆”中发现何氏之璧,隋侯之珠。经过这些科学家孜孜不倦地探索,从20世纪90年代初开始,人们对于“垃圾”DNA的看法才慢慢有了转变。在完成了“人类基因组计划(HGP)”的草图之后,科学家发现人类基因只有2-3万个左右,占基因组总长度仅约1%,而剩余的99%均为非编码DNA,也就是人们通常所说的“垃圾”DNA。这99%的“垃圾”DNA犹如斯芬克斯之谜一样一直困扰着人们。直到2012年,一项名为“DNA元件百科全书(Encyclopedia of DNA Elements,ENCODE)”的项目[2]接连用多篇科学论文向人们宣布,在人类基因组中超过80%的DNA都是有功能的!从此,人们更加相信“垃圾都是放错地方的资源”,只是我们没有全面了解“垃圾”DNA起作用的真正方式,并纷纷开始尝试挖掘“垃圾堆”中被掩藏的瑰宝。

“垃圾”DNA——有待发掘的宝藏

所谓的“垃圾”DNA其实是个相当笼统的称呼,它的真实内涵十分丰富,包括了非编码的功能RNA、顺式/反式调控元件、内含子、假基因、端粒、中心粒以及含量最多的转座子和串联重复序列等。随着人们逐步深入地探索,也发现了它们各不相同的真实功能。

目前关于“垃圾”DNA的研究,主要分成两大方向,一个方向主要是关注“垃圾”DNA的各种特殊功能及其对生理进程的影响。

1  “垃圾”DNA中可能潜藏癌症病原[3]
随着测序成本直线下降,极大地促进了个人基因组测序的发展。要从海量DNA变异数据中筛选出有用信息是一项意义重大的挑战,尤其是在癌症基因组中,许多的关键DNA变异体更是处在非编码的“垃圾”DNA区域。研究人员通过结合“千人基因组项目(the 1000 Genomes Project)”和ENCODE的数据,开发出一套分析流程,并成功鉴定了那些隐藏在“垃圾”DNA中可能导致癌症发生的DNA变异体。

2  “垃圾”DNA还能决定你的盛世美颜[4]
人脸的外形是人类最显著的特征之一,面部形态的差异在社会互动、心理学、法医和临床遗传学等领域都有着重要的意义。颅面部形状是高度遗传的,包括形态变异的正常谱以及主要颅面部出生缺陷的易感性。有研究者利用染色质免疫共沉淀技术及测序技术对小鼠胚胎面部组织的发育过程进行研究,探讨了转录增强子在颅面部复合体发育中的作用。这种增强子可以在距离其靶基因数百kb的地方,远距离调控靶基因表达的空间模式、水平和时间。

Fig.1 颅面发育增强子对颅面形态有一定的作用

3  “垃圾”DNA通过编码lncRNA参与调控抑制致癌基因[5]
“垃圾”DNA编码产生的长非编码RNA(IncRNAs)具有调节基因表达的作用。研究者使用多个小干扰RNA(siRNAs)来沉默GNG12-AS1基因表达。研究发现,当大多数siRNAs沉默GNG12-AS1转录后,siRNA互补于GNG12-AS1的第一个外显子抑制其转录。在转录过程中,GNG12-AS1的沉默会引起DIAS3(抑瘤因子)的上调,证明其在转录干扰中的作用。

Fig.2 siRNA抑制转录干扰

4  “垃圾”DNA成员LTR被异常激活会触发原癌基因[6]
哺乳动物基因组中包含大量重复序列,其中长末端重复(long terminal repeats,LTRs)一直以来都被认为可能与肿瘤发生有关。这篇文章表明LTRs的脱抑制化作用与人类淋巴瘤的发病机制有关,这一发现具有十分重要的诊断、预警和治疗意义。

5  “垃圾”DNA编码的microRNA能促进胚胎发育[7]
严格控制内胚层、中胚层和外胚层的分离对于所有物种的正常胚胎发育都至关重要。研究者通过对全基因组microRNA文库进行系统性扫描,发现其中两个microRNA家族会以牺牲内胚层为代价促进中胚层的生长,这意味着“垃圾”DNA编码的microRNA在胚层规划中具有十分关键的作用。
6  “垃圾”DNA是一种精心设计的基因表达控制机制[8]
人们普遍认为内含子保留(Intron Retention,IR)是由于信使RNA前体错误剪切内含子序列导致的。研究者通过对转录组和蛋白质组的数据进行生物信息学分析,发现在正常血液白细胞分化的过程中,内含子保留其实是一种通过触发无义介导的衰变途径(nonsense-mediated decay,NMD pathway)进行基因表达控制的生理机制。

7  “垃圾”DNA可能改变基因的剪切方式[9]
为了更深入了解基因的剪切调控机制,研究者通过一种基于细胞的筛选方法,从内含子中鉴定了10个能抑制剪切的不同模体结构。所有模体结构都表现出了外显子剪切增强或沉默的活性,依据它们的分布进一步将其进行分组分析,最后发现分组产生的集群具有明显的内容依赖(context-dependent)作用模式。

8  “垃圾”DNA影响表观遗传的稳定性
这篇文章深入阐释了人类基因组中的“垃圾”DNA之一,HSATII(high-copy satellite II)可以结合并影响核染色质调控蛋白的分布,这往往导致癌症的发生[10]。另外,DNA甲基化精密地调控基因组织特异性表达及关键的生物进程。然而,缺乏可靠手段检测基因组中庞大的DNA甲基化信息成为系统分析其功能的一大阻碍。另一篇文章的研究者通过利用一个深度学习模型网络研究DNA甲基化的调控编码规则,并利用此网络预测序列变异对CpG附近位置DNA甲基化的影响[11]。 

由此可见,另一个方向的主要关注点则是如何快速高效获取“垃圾”DNA序列信息,编码规则和预测模式等结构意义上的研究。

9  “垃圾”DNA可能形成具有转录活性的功能基因
研究者通过“蛋白-转录组”方法(proteo-transcriptomics approach)结合RNA测序及蛋白组学数据,证明大量的Alu外显子具有转录活性,且能产生灵长目特异,甚至人类特异的亚型蛋白,揭示了“垃圾”DNA参与基因异构体(isoforms)形成的潜在机制[12]。另一篇综述文章则着重讨论了近几年关于新出现基因的鉴定和验证等问题,并预测该领域将来的研究方向可能集中在新蛋白编码基因的功能、结构解析以及其出现机制等[13]

Fig.3 蛋白质组学Ribo-seq数据证明Alu-外显子能够编码蛋白质

10  高速发展的测序技术结合多种研究方法助推“垃圾”DNA的深入探索
研究者提出,结合基因组和转录组数据能有效促进孟德尔疾病遗传机理的研究。另外,许多研究已表明,“垃圾”DNA会参与转录剪切和调控进程,因此作者也提醒,在分析相关内容时,一定要注意研究对象的生长时期,以及微小的调控效应,这些因素可能会对研究结果产生明显的影响[14]。正如本文最开始提及的那篇重磅《Cell》文章所描述的,“垃圾”DNA代表之一的LINE1基因会在小鼠胚胎早期发育过程中的胚胎干细胞有高表达,这一特殊时期的奇异现象引起了研究者的重视,才诞生了这篇意义重大的文章,同时也为“垃圾”DNA的正名提供了强有力的证据。“垃圾”DNA不仅不是垃圾,相反它是生命体不可或缺的重要部分,假如没有LINE1序列,受精卵将永远停留在两细胞的状态,无法完成复杂的生长分化过程[1]

另一篇文章利用第二代测序技术鉴定了与神经系统疾病相关的“垃圾”DNA变异体。了解神经发育和神经精神障碍的遗传因素是医学研究的一个主要的挑战[15]。虽然大规模的基因组测序在这一领域取得了重大进展,但对许多疾病来说,其遗传基础仍是十分复杂且知之甚少的秘密,特别是对于占基因组绝大部分的“垃圾”DNA区域,其结构复杂、重复率高等特点都严重阻碍了二代测序对该区域DNA有效信息的获取和利用。

植物“孤儿基因”与抗病的故事新番:QQS基因及其互作因子NF-YC4降低植物病原易感性

在不降低产量的情况下提高作物的营养质量和抗病性是开发有价值的作物品种、同时改善粮食安全和可持续性发展的关键。未来组科研顾问、美国密西西比州立大学助理教授李灵博士继2015年在PNAS上发表的有关“孤儿基因”QQS及其互作因子NF-YC4的研究论文之后,于2018年6月7日再次在Plant Biotechnology Journal (IF=7.4,植物科学一区)杂志发表题为“QQS orphan gene and its interactorNF-YC4 reduce susceptibility to pathogens and pests”的研究论文[1],揭示了QQSNF-YC4在增加蛋白质和改善作物防御特性方面的潜力。

QQS基因:拟南芥(Arabidopsis thaliana)中的孤儿基因,编码59个氨基酸的小蛋白,调控拟南芥中的碳氮在淀粉和蛋白质中的分配。

 NF-YC4:异源三聚体转录因子NF-YA/NF-YB/NF-YC中的一个亚单元,在真核生物中保守。

拟南芥特有的AtQQS孤儿基因及其互作因子NF-YC4的表达在不影响作物生长和产量的情况下,可提高叶片/种子蛋白的含量。在本研究中,研究者证明了AtQQSNF-YC4在拟南芥和大豆中的过表达降低了植物对病毒、细菌、真菌、蚜虫和大豆囊线虫的敏感性。研究者利用一系列拟南芥淀粉代谢突变体,探讨了QQS表达、碳氮分配和防御之间的关系,并证明QQS介导的基础防御功能增强与植物蛋白质/碳水化合物组成的变化无关。研究表明,无论是AtQQS还是NF-YC4在拟南芥和大豆中的过表达,都会降低植物对病原菌/害虫的易感性(Fig.1)。

Fig.1 QQS和NF-YC4因子的表达降低拟南芥对病毒和细菌感染的易感性。

高表达NF-YC4的转基因大豆株系在保持健康生长的同时,还能产生高蛋白质含量的种子。进一步pull-down试验发现,QQS与人NF-YC以及拟南芥NF-YC4都能相互作用,并表明在NF-YC-组蛋白结合区附近有两个QQS结合位点。研究者提出了一种新的QQSNF-YC相互作用的模型(Fig.2)。

Fig.2 QQS与NF-YC结合位点,以及QQS和NF-YC诱导植物防御变化的假设模型。

该研究通过多种实验方法研究了过表达QQS和其互作因子NF-YC4对植物生长和病原/害虫易感性等影响,此外,研究者还对QQS与人的基因位点的互作进行分析。研究结果表明,这种小分子孤儿蛋白在治疗人类疾病和作物改良等方面有着潜在的应用前景。

武汉未来组生物科技有限公司于2011年8月8日成立于武汉市光谷生物城,是中国第三代测序技术服务公司。未来组拥有PacBio SMRT、Oxford Nanopore、BioNano光学图谱及Hi-C染色体构象捕获等技术和平台,产品覆盖动植物基因组、全长转录组、微生物基因组、真菌基因组及宏基因组等。因为专注于三代测序技术开发和应用推广,武汉未来组已成为三代测序基因组中心。未来组将在三代测序领域坚持创新,持续突破,应用新技术推动生物产业发展,为合作伙伴提供优质的测序组装及分析服务。

参考文献:

[1] Mingsheng, Q. et al. QQS orphan gene and its interactor NF‐YC4 reduce susceptibility to pathogens and pests. Plant Biotechnology Journal. 2018. DOI:10.1111/pbi.12961.