热议基因组|“垃圾”DNA究竟是垃圾还是宝藏

自DNA被发现以来就一直被誉为“生命天书”,对这本无字天书的完全解读也成为了无数科学家毕生追求的梦想。但随着人们对书中内容不断探索,却意外发现那些影响我们高矮胖瘦、生老病死等关键信息的基因只占基因组DNA的极少部分,而绝大部分看似不会编码蛋白质的DNA,有的人形容它们为“垃圾”DNA。但这个充满功利性的命名也就此引起了一场愈演愈烈的讨论。最近在《Cell》上发表的一篇重磅文章[1],不仅将“‘垃圾’DNA究竟是基因组垃圾堆还是珍贵的宝藏”这个议题拉回大众视野,而且也隐隐预示着一场盛大的“淘金运动”正悄然进行。

“垃圾”DNA的前世今生

19世纪60年代,孟德尔(Gregor Mendel)通过实验预示了基因的存在。随后分别于1869年和1944年,DNA被首次提取和证明为构成基因的基础物质。DNA即脱氧核糖核酸,而基因则是具有遗传效应的特定DNA序列,通俗地讲,基因就是一段编码某种蛋白质的DNA。

到了20世纪60年代后期,越来越多人发现,真核生物的DNA包含了数量庞大的重复DNA,而且这些DNA似乎并不会编码蛋白质。1972年,大野 乾(Susumu Ohno)正式将基因组中的非编码DNA命名为“垃圾”DNA。这个充满负面情感的名字也充分体现了当时科学家对于这些非编码DNA的看法,人们甚至认为这些序列没有积极功能,只是一些自私的DNA序列并热衷于自我扩张,这一理念也在1989年随着道金斯(Richard Dawkins)成名作《自私的基因》的大卖而广为人知。

众人皆醉我独醒,在大部分人都将“垃圾”DNA弃如敝履的时候,那些独具慧眼的人总能从“垃圾堆”中发现何氏之璧,隋侯之珠。经过这些科学家孜孜不倦地探索,从20世纪90年代初开始,人们对于“垃圾”DNA的看法才慢慢有了转变。在完成了“人类基因组计划(HGP)”的草图之后,科学家发现人类基因只有2-3万个左右,占基因组总长度仅约1%,而剩余的99%均为非编码DNA,也就是人们通常所说的“垃圾”DNA。这99%的“垃圾”DNA犹如斯芬克斯之谜一样一直困扰着人们。直到2012年,一项名为“DNA元件百科全书(Encyclopedia of DNA Elements,ENCODE)”的项目[2]接连用多篇科学论文向人们宣布,在人类基因组中超过80%的DNA都是有功能的!从此,人们更加相信“垃圾都是放错地方的资源”,只是我们没有全面了解“垃圾”DNA起作用的真正方式,并纷纷开始尝试挖掘“垃圾堆”中被掩藏的瑰宝。

“垃圾”DNA——有待发掘的宝藏

所谓的“垃圾”DNA其实是个相当笼统的称呼,它的真实内涵十分丰富,包括了非编码的功能RNA、顺式/反式调控元件、内含子、假基因、端粒、中心粒以及含量最多的转座子和串联重复序列等。随着人们逐步深入地探索,也发现了它们各不相同的真实功能。

目前关于“垃圾”DNA的研究,主要分成两大方向,一个方向主要是关注“垃圾”DNA的各种特殊功能及其对生理进程的影响。

1  “垃圾”DNA中可能潜藏癌症病原[3]
随着测序成本直线下降,极大地促进了个人基因组测序的发展。要从海量DNA变异数据中筛选出有用信息是一项意义重大的挑战,尤其是在癌症基因组中,许多的关键DNA变异体更是处在非编码的“垃圾”DNA区域。研究人员通过结合“千人基因组项目(the 1000 Genomes Project)”和ENCODE的数据,开发出一套分析流程,并成功鉴定了那些隐藏在“垃圾”DNA中可能导致癌症发生的DNA变异体。

2  “垃圾”DNA还能决定你的盛世美颜[4]
人脸的外形是人类最显著的特征之一,面部形态的差异在社会互动、心理学、法医和临床遗传学等领域都有着重要的意义。颅面部形状是高度遗传的,包括形态变异的正常谱以及主要颅面部出生缺陷的易感性。有研究者利用染色质免疫共沉淀技术及测序技术对小鼠胚胎面部组织的发育过程进行研究,探讨了转录增强子在颅面部复合体发育中的作用。这种增强子可以在距离其靶基因数百kb的地方,远距离调控靶基因表达的空间模式、水平和时间。

Fig.1 颅面发育增强子对颅面形态有一定的作用

3  “垃圾”DNA通过编码lncRNA参与调控抑制致癌基因[5]
“垃圾”DNA编码产生的长非编码RNA(IncRNAs)具有调节基因表达的作用。研究者使用多个小干扰RNA(siRNAs)来沉默GNG12-AS1基因表达。研究发现,当大多数siRNAs沉默GNG12-AS1转录后,siRNA互补于GNG12-AS1的第一个外显子抑制其转录。在转录过程中,GNG12-AS1的沉默会引起DIAS3(抑瘤因子)的上调,证明其在转录干扰中的作用。

Fig.2 siRNA抑制转录干扰

4  “垃圾”DNA成员LTR被异常激活会触发原癌基因[6]
哺乳动物基因组中包含大量重复序列,其中长末端重复(long terminal repeats,LTRs)一直以来都被认为可能与肿瘤发生有关。这篇文章表明LTRs的脱抑制化作用与人类淋巴瘤的发病机制有关,这一发现具有十分重要的诊断、预警和治疗意义。

5  “垃圾”DNA编码的microRNA能促进胚胎发育[7]
严格控制内胚层、中胚层和外胚层的分离对于所有物种的正常胚胎发育都至关重要。研究者通过对全基因组microRNA文库进行系统性扫描,发现其中两个microRNA家族会以牺牲内胚层为代价促进中胚层的生长,这意味着“垃圾”DNA编码的microRNA在胚层规划中具有十分关键的作用。
6  “垃圾”DNA是一种精心设计的基因表达控制机制[8]
人们普遍认为内含子保留(Intron Retention,IR)是由于信使RNA前体错误剪切内含子序列导致的。研究者通过对转录组和蛋白质组的数据进行生物信息学分析,发现在正常血液白细胞分化的过程中,内含子保留其实是一种通过触发无义介导的衰变途径(nonsense-mediated decay,NMD pathway)进行基因表达控制的生理机制。

7  “垃圾”DNA可能改变基因的剪切方式[9]
为了更深入了解基因的剪切调控机制,研究者通过一种基于细胞的筛选方法,从内含子中鉴定了10个能抑制剪切的不同模体结构。所有模体结构都表现出了外显子剪切增强或沉默的活性,依据它们的分布进一步将其进行分组分析,最后发现分组产生的集群具有明显的内容依赖(context-dependent)作用模式。

8  “垃圾”DNA影响表观遗传的稳定性
这篇文章深入阐释了人类基因组中的“垃圾”DNA之一,HSATII(high-copy satellite II)可以结合并影响核染色质调控蛋白的分布,这往往导致癌症的发生[10]。另外,DNA甲基化精密地调控基因组织特异性表达及关键的生物进程。然而,缺乏可靠手段检测基因组中庞大的DNA甲基化信息成为系统分析其功能的一大阻碍。另一篇文章的研究者通过利用一个深度学习模型网络研究DNA甲基化的调控编码规则,并利用此网络预测序列变异对CpG附近位置DNA甲基化的影响[11]。 

由此可见,另一个方向的主要关注点则是如何快速高效获取“垃圾”DNA序列信息,编码规则和预测模式等结构意义上的研究。

9  “垃圾”DNA可能形成具有转录活性的功能基因
研究者通过“蛋白-转录组”方法(proteo-transcriptomics approach)结合RNA测序及蛋白组学数据,证明大量的Alu外显子具有转录活性,且能产生灵长目特异,甚至人类特异的亚型蛋白,揭示了“垃圾”DNA参与基因异构体(isoforms)形成的潜在机制[12]。另一篇综述文章则着重讨论了近几年关于新出现基因的鉴定和验证等问题,并预测该领域将来的研究方向可能集中在新蛋白编码基因的功能、结构解析以及其出现机制等[13]

Fig.3 蛋白质组学Ribo-seq数据证明Alu-外显子能够编码蛋白质

10  高速发展的测序技术结合多种研究方法助推“垃圾”DNA的深入探索
研究者提出,结合基因组和转录组数据能有效促进孟德尔疾病遗传机理的研究。另外,许多研究已表明,“垃圾”DNA会参与转录剪切和调控进程,因此作者也提醒,在分析相关内容时,一定要注意研究对象的生长时期,以及微小的调控效应,这些因素可能会对研究结果产生明显的影响[14]。正如本文最开始提及的那篇重磅《Cell》文章所描述的,“垃圾”DNA代表之一的LINE1基因会在小鼠胚胎早期发育过程中的胚胎干细胞有高表达,这一特殊时期的奇异现象引起了研究者的重视,才诞生了这篇意义重大的文章,同时也为“垃圾”DNA的正名提供了强有力的证据。“垃圾”DNA不仅不是垃圾,相反它是生命体不可或缺的重要部分,假如没有LINE1序列,受精卵将永远停留在两细胞的状态,无法完成复杂的生长分化过程[1]

另一篇文章利用第二代测序技术鉴定了与神经系统疾病相关的“垃圾”DNA变异体。了解神经发育和神经精神障碍的遗传因素是医学研究的一个主要的挑战[15]。虽然大规模的基因组测序在这一领域取得了重大进展,但对许多疾病来说,其遗传基础仍是十分复杂且知之甚少的秘密,特别是对于占基因组绝大部分的“垃圾”DNA区域,其结构复杂、重复率高等特点都严重阻碍了二代测序对该区域DNA有效信息的获取和利用。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注