热议基因组|照亮基因组“暗物质”的新曙光

上周《Nature Genetics》发表了一篇名为《Adaptation and conservation insights from the koala genome》的文章，公布了迄今为止最完整最连续的有袋类动物参考基因组。令人惊叹的是，其中不仅包含了高度重复序列组成的着丝粒区域（centromeres），而且还发现了一种逆转录病毒（KoRV）的DNA也正以重复序列的形式入侵考拉基因组^[¹^]。着丝粒等高度重复区域向来是二代测序的盲区，因此澳大利亚博物馆的Rebecca Johnson和同事运用PacBio RSII平台及Bionano光学图谱组装出了高质量考拉基因组，再一次向广大研究者证明了第三代测序技术在复杂基因组组装甚至跨越重复序列区域的能力上具备无可比拟的优势。

形形色色的重复序列

所谓重复序列，是指在基因组中不同位置出现的相同或对称片段。由于在基因组中分布广泛、数量庞大，根据不同的特性，可以将重复序列分成不同的类型。（太长！不看！那就直接上图吧！Fig. 1）

Fig.1 重复序列的分类

例如，依据核酸序列变性-复性热力学性质，可分成：

单拷贝序列（single copy）；

低度重复序列（low repetitive sequences）——在基因组中重复2~10次；

中度重复序列(moderately repetitive sequences)——重复10~几百次；

高度重复序列(highly repetitivesequences)——重复几百次~几百万次；

其中中度重复以上的序列基本不编码蛋白质，高度重复序列更是构成着丝粒、端粒的主要部分。

依据重复结构、功能和位置分类的话，可分成：

串联重复序列（tandem repeat），包括简单重复序列（simple sequence repeats，SSR）和卫星DNA（satellite DNA）；

片段重复序列（segmental duplication）；

散在重复序列（interspersed repeat），指起源于逆转座子（retroposon）和DNA转座子（DNAtransposon），且较均匀地分布在基因组中的一些重复序列；

逆转座子又包括：

长散在重复序列（Long Interspersed NucleotideElements，LINE）；

短散在重复序列（Short Interspersed NucleotideElements，SINE）；

长末端重复序列（Long Terminal Repeat，LTR）等。

它们通过“复制-粘贴”的模式在供体位点上进行复制，复制形成的新转座子插入到基因组的另一位点，因此，逆转座子每转座一次，其拷贝就会增加一份，极大地影响物种基因组大小，而DNA转座子则主要是通过“剪切-粘贴”的模式直接从一个供体位点移动到另一位点，一般不影响基因组的大小。

意义非凡的重复序列

自1970年以来，关于串联重复序列的研究与日俱增，仅2017年在高影响力杂志上就发表了68篇与之相关的文章，预计2018年在此领域中的文章发表量甚至高达5500篇（Fig. 2），可见人们对于重复序列研究的热情始终高涨，也侧面反映了重复序列所具有的生物学意义实在是非比寻常。

Fig.2近年发表的串联重复序列文章数量统计^[²^]

1）重复序列参与基因调控、表观修饰、染色质重建等关键生理进程，如位于着丝粒（centromeres）、端粒（telomeric regions）等区域的卫星DNA能特异结合某些蛋白质，并使DNA链折叠形成高级的三维结构，对染色体的形成起着至关重要的作用。

2）重复序列不仅是造成大型基因组的主要因素，而且还扩充生物的遗传多样性。大量的重复序列会随着生物体的繁衍和物种间互动进行着垂直交换和水平转移，极大地扩增和丰富了遗传信息，还通过引起基因组序列的删除、扩增、断裂等重排作用增加物种遗传多样性。

3）重复序列不仅为遗传突变和新基因的产生提供了素材，也提供了容错的空间，为基因组进化提供了前进的动力和不可多得的保障。例如上文中的“考拉基因组文章”中就提及，KoRV的DNA插入了考拉基因组内的24个编码基因中，其中的22个插入了基因内含子区域，而剩下的2个是在3’-UTR区域，正是大量的间隔序列和重复序列稀释了编码基因的比例，从而充当了应对急剧变化的缓冲器，吸收了病毒入侵的DNA序列，最大程度保证基因组的正常运作^[1]。

4）通常认为，由DNA复制错误产生的串联重复序列因其保持着高度不稳定性，会干扰位于其附近的编码基因表达且较难整合到基因调控网络中，但从今年3月发表在《Cell》上的一篇关于重复序列的文章中，我们发现：如果串联重复序列中出现了能被转录因子识别的DNA序列模体（motif），则可能会将串联重复序列转化成功能性顺式调控元件（cis-regulatory elements），从而有利于其稳定地存在于基因组中（Fig.3）^[³^]。

所以，关于串联重复，虽然每年都有大量文章发表，但对其更深层次的理解、运用^[⁴^]以及其所产生的一系列影响的研究^[⁵^]，仍大有可为。

Fig.3 串联重复序列的远距离调控

由于重复序列是由一个重复单元被不断重复成百上千次甚至更多次数而形成的，所以对于采用第二代测序进行基因组组装的研究者来说简直就是噩梦。据估计，对于人类基因组而言，尚有8%左右的DNA序列有待测序，这些“缺口”主要包括的正是基因密集、序列重复的异染色质DNA。所以随着第三代测序技术的普及和基因组组装策略的完善，研究重复序列、填补基因组“缺口”成为研究者难得的机遇。

照亮基因组“暗物质”的新曙光——第三代测序技术

今年3月发表于《Nature Biotechnology》的文章中，研究者使用BAC文库结合Oxford Nanopore Technologies的ultra-long建库测序技术组装出了完整的人类Y染色体着丝粒区域序列，并跨越了由5.8Kb的序列串联重复52次形成的长达301Kb的区域，并鉴定出了7段6.0Kb长的高阶重复结构变异^[^6]。

Fig.4 Y染色体着丝粒的线性组装

另外，最近在《Nature Communications》上发表的文章“High contiguity Arabidopsis thaliana genome assembly with a singlenanopore flow cell”^[^7]同样也展现了Nanopore测序技术的长读长在基因组组装中优势明显，不仅可以大大提高基因组组装的连续性，还可以解决短读长测序所难以攻克的复杂重复序列（一个单read就可以完整组装出一个长达39kb的重复序列，Fig. 5），对结构变异的鉴定也有很大的优势。

Fig.5 Nanopore测序技术解决拟南芥中高度重复区域

由此可见，第三代测序能获得高质量的基因组拼装结果，填补原参考基因组的缺口。随着覆盖高重复区域的高质量参考基因组相继闪耀登场，相信组学研究终会拨开云雾，真正迎来重复序列研究的曙光。

热议基因组|照亮基因组“暗物质”的新曙光

发表评论

发表评论取消回复

联系我们

关于我们

官方微信公众号

发表评论

发表评论 取消回复

联系我们

关于我们

官方微信公众号

发表评论取消回复