Cell| PacBio升级解析人类基因组结构变异
一分钟看完?
为了优化人类结构变异(SVs)信息,研究者对15个人类进行了长读长测序并且分析了SVs,最后找到了99604个插入、缺失和倒位,其中2238个(约合1.6Mb)为已揭示的人类基因组中所共有,另外还有13053个(约合6.9Mb)在大多数人类基因组中找得到,证实参考基因组中含次要等位基因或者错误。附加的440个基因组分型结果证实了特异染色质中最常见的SVs被解析出来。研究发现:人类染色体最末端的5Mb中所包含的SVs是其他位置的9倍之多,其中55%的可变数目串联重复序列都映射到该区域。研究者鉴定出影响编码和非编码调控位点的SVs,优化了注释和对功能变异的解析,为精细人类参考基因组图谱构建了框架并为捕获等位基因多样性提供了重要信息。
该研究使用PacBio长读长测序技术对11个人类基因组进行测序,然后添加了两个之前已由本研究测序过的葡萄胎(胎盘绒毛发生良性病变的胚胎)CHM1和CHM13。另外,还加入了由未来组参与的华夏一号HX1以及同样是16年发表的亚洲人AK1基因组数据(见表1)。
图1A 使用非冗余策略融合每个样本的变异成一个数据集
和预期一致,非洲样本多态性最丰富,平均每一个非洲人样本贡献了11.1%的特异性SVs,而非非洲人样本平均是5.6%,可以推断加入非洲样本可以将SVs识别翻倍(见图1B)。
图1B 每个样本中每一个分类类别的变异数量
非冗余数据集起初增长急剧,但是随着样本增加,增速放缓,这也说明这15个人中共有的SVs比例较高。同样,共有SVs数据集一开始降低急剧,随着样本增加逐渐平缓,所有样本中共有的SVs是2238个,且携带每一个SV的样本比例也呈现类似模式,共有的SVs增加了100%。同时,研究鉴定出15291个主要的SVs,表明当前的人类参考基因组在这些位点上中也含有次要等位基因或者错误。相较于多态SVs,主要变异数量更多且倾向于在重复DNA(约占80%)中富集。当与GRCh38基因组进行缺失比较的时候,如分析样本中共有SVs比例更高则定义其为插入SVs(见图1C)。
图1C 插入(INS)、缺失(DEL)和倒位(INV)三种变异在各类别中发现的频率
有意思的是,研究还和Illumina测序的人类基因组数据SVs识别结果进行了比较,发现本研究使用长读长测序技术挖掘出了87.3%的SVs在之前的二代测序数据中没有找到,尤其是插入SVs,有93.5%是之前不曾鉴别到的,其次是缺失SVs,新发现的比率也很高。这再一次证明:第三代长读长测序技术较之第二代短读长测序技术能够鉴定到更多的SVs。当然研究还将结果和人类基因组结构变异联盟做了比较,因篇幅限制就不详述了。
图1D 440个人类基因组样本中可分型的SVs其不同类别的出现频率
与预期的一样,在共有的和主要的SVs中分别找到了95.4%和66.7%的次要等位基因。在本研究中发现的507例(0.74%)共有和主要SVs中,研究者只观察到替代等位基因,却未观察到任何人类参考基因组序列。对于这些基因位点,人类参考基因组要么代表一个极端次要的等位基因(<0.2%),要么就是错误。
SVs在基因组中是非随机分布的,研究者观察到在重复片段富集的染色体臂末端5Mb区域内,SVs呈现明显的偏倚(见图1E),并且推断亚端粒区域,SVs的密度是其他区域的9倍!共有SVs偏倚要小一些,但仍有3倍的密度差。
图1E 将SV划分为500Kb的bins并在不同染色体臂距离上进行聚类
当研究者在人类染色体中发现这一现象时,这些SVs却不是均匀分布,尤其是染色体长臂端更倾向于出现SVs亚端粒聚集,不过5号、19号以及X染色体是例外。研究者为了深入分析SVs偏倚这一现象,对其重复类型分类检验其亚端粒上的富集情况。他们观测到:SVs在VNTR上的富集密度是其他区域的4.8倍,其次是STRs(短串联重复区域),为2.9倍(见图2A)。
图2A SVs在STR和VNTR位点上的分布密度
虽然不同染色体富集情况不一,但是相较于短臂,人类染色体长臂上SVs普遍呈现出更宽区域的VNTR富集(图2B)。
图2B VNTR在不同的染色体臂距离上的聚集比率
另外,研究者还观察到双链断裂和VNTR密度之间的显著相关性,强烈的暗示了容易出现双链断裂的区域和VNTR形成之间的关系(图2C)。
图2C STR和VNTR数和双链断裂数相关性
接着,研究者又将共有的和主要的SVs和RefSeq注释结果交叉分析,解析了86个影响编码序列的事件、47个UTRs(非翻译区)事件、7417个内含子或任何基因2Kb空白区域中的事件。另外,还特意鉴定了1033个影响推断的非编码调控序列事件,本研究中定义为注释了的DNase I hypersensitive、H3K27Ac、H3K4Me1以及H3K4Me3位点的联合(见表2)。
这些事件中的许多嵌入了GCRICH或低复杂度DNA的区域,并可能影响基因结构。以图3A为例,在UBEQ2L1的5’端,研究者鉴定了一个1.6 kb的插入,主要由94 bp 富含GC的序列附近的二核苷酸和三核苷酸CACA重复单元组成。插入的断点精确地map到5’ UTR的第一个碱基,很可能扩展了UBEQ2L1启动子的长度。富含AT的序列照样可以被解析,例如458 bp重复元件在载脂蛋白APOOL 3’UTR内map上(见图3B)。
图3 缺失的基因或调控序列(部分)
图4 纠正FOXO6阅读框
除了上述分析内容,本研究还分析了共有的和主要的等位基因SVs的特性、偏向性的GC组成并对人类参考基因组进行了补洞,对SVs进行了表达分析等,感兴趣的话可以阅读原文一探究竟。
总之,文章有如下几大亮点:
1. 测序注释了99604个常见的人类结构变异;
2. 发现了55%的可变数目串联重复序列(variable number of tandem repeats, VNTRS)映射到染色体末端,经分析其与双链断裂有着密切关联
3. 发现长读长测序技术能够鉴定到更多的SVs,尤其对于编码序列,SVs识别更加准确
4. 完善了参考基因组并为人类泛基因组研究丰富了多样性
原文内容博大精深,详情请点击原文链接
https://www.cell.com/cell/fulltext/S0092-8674(18)31633-7
https://www.grandomics.com/research/h_x_w_r_sv/
发表评论
想参加讨论吗?请尽情讨论吧!