Cell| PacBio升级解析人类基因组结构变异

继登顶Nature后，近日，PacBio文章再度收录于顶级期刊Cell上！第三代测序技术的实力日渐凸显，这次又在哪个领域有所突破呢？原来，华盛顿大学医学院的Peter A. Audano等人瞄准了当前人类基因组注释中的缺陷，试图用长读长技术修复人们对SVs认知的误差，下面和组学君先睹为快吧！

一句话搞定？

长读长测序技术助力人类SVs分类解析并促进短读长数据对其进行基因分型的算法研究，明确了SVs在人类基因组研究中的重要作用！

一张图说明？

一分钟看完？

为了优化人类结构变异（SVs）信息，研究者对15个人类进行了长读长测序并且分析了SVs，最后找到了99604个插入、缺失和倒位，其中2238个（约合1.6Mb）为已揭示的人类基因组中所共有，另外还有13053个（约合6.9Mb）在大多数人类基因组中找得到，证实参考基因组中含次要等位基因或者错误。附加的440个基因组分型结果证实了特异染色质中最常见的SVs被解析出来。研究发现：人类染色体最末端的5Mb中所包含的SVs是其他位置的9倍之多，其中55%的可变数目串联重复序列都映射到该区域。研究者鉴定出影响编码和非编码调控位点的SVs，优化了注释和对功能变异的解析，为精细人类参考基因组图谱构建了框架并为捕获等位基因多样性提供了重要信息。

如果有时间慢慢读，请继续……

材料与数据

该研究使用PacBio长读长测序技术对11个人类基因组进行测序，然后添加了两个之前已由本研究测序过的葡萄胎（胎盘绒毛发生良性病变的胚胎）CHM1和CHM13。另外，还加入了由未来组参与的华夏一号HX1以及同样是16年发表的亚洲人AK1基因组数据（见表1）。

深度挖掘SVs

对每一个人类基因组样本使用SMRT-SV鉴定、组装出50bp或者和GRCh38关系更密切的插入、缺失以及倒位SVs，且排除不可靠的SVs calling结果，如具有密集串联重复或间隙结构的着丝粒周围区域。最后平均每一个样本中鉴定到22755个SVs，且将它们融合为一个99604个非冗余SVs数据集（见表1和图1A），并分为四大类别：共有的、主要的（≥50%但并非所有样本中存在）、多态的（多于一个但＜50%样本中存在）以及特异的SVs。

图1A 使用非冗余策略融合每个样本的变异成一个数据集

和预期一致，非洲样本多态性最丰富，平均每一个非洲人样本贡献了11.1%的特异性SVs，而非非洲人样本平均是5.6%，可以推断加入非洲样本可以将SVs识别翻倍（见图1B）。

图1B 每个样本中每一个分类类别的变异数量

非冗余数据集起初增长急剧，但是随着样本增加，增速放缓，这也说明这15个人中共有的SVs比例较高。同样，共有SVs数据集一开始降低急剧，随着样本增加逐渐平缓，所有样本中共有的SVs是2238个，且携带每一个SV的样本比例也呈现类似模式，共有的SVs增加了100%。同时，研究鉴定出15291个主要的SVs，表明当前的人类参考基因组在这些位点上中也含有次要等位基因或者错误。相较于多态SVs，主要变异数量更多且倾向于在重复DNA（约占80%）中富集。当与GRCh38基因组进行缺失比较的时候，如分析样本中共有SVs比例更高则定义其为插入SVs（见图1C）。

图1C 插入（INS）、缺失（DEL）和倒位（INV）三种变异在各类别中发现的频率

有意思的是，研究还和Illumina测序的人类基因组数据SVs识别结果进行了比较，发现本研究使用长读长测序技术挖掘出了87.3%的SVs在之前的二代测序数据中没有找到，尤其是插入SVs，有93.5%是之前不曾鉴别到的，其次是缺失SVs，新发现的比率也很高。这再一次证明：第三代长读长测序技术较之第二代短读长测序技术能够鉴定到更多的SVs。当然研究还将结果和人类基因组结构变异联盟做了比较，因篇幅限制就不详述了。

附加人类基因组的基因分型

为更好的理解SVs的群体分布，研究者优化了基因分型工具SV genotyper并应用于使用Illumina数据构建的440个人类基因组上（图1D）。结果显示，在至少95%的样本中，55.1%的SVs成功地进行了基因分型，92.6%的SVs成功地进行了一半或更多的基因分型。在那些能够成功进行基因分型的基因中，我们观察到至少一个附加人类基因组中有97.2%的SVs。这表明绝大多数SVs代表真正的人类多态性，而不是个体变异或体细胞伪影。

图1D 440个人类基因组样本中可分型的SVs其不同类别的出现频率

与预期的一样，在共有的和主要的SVs中分别找到了95.4%和66.7%的次要等位基因。在本研究中发现的507例（0.74%）共有和主要SVs中，研究者只观察到替代等位基因，却未观察到任何人类参考基因组序列。对于这些基因位点，人类参考基因组要么代表一个极端次要的等位基因（<0.2%），要么就是错误。

SV密度和染色体分布

SVs在基因组中是非随机分布的，研究者观察到在重复片段富集的染色体臂末端5Mb区域内，SVs呈现明显的偏倚（见图1E），并且推断亚端粒区域，SVs的密度是其他区域的9倍！共有SVs偏倚要小一些，但仍有3倍的密度差。

图1E 将SV划分为500Kb的bins并在不同染色体臂距离上进行聚类

当研究者在人类染色体中发现这一现象时，这些SVs却不是均匀分布，尤其是染色体长臂端更倾向于出现SVs亚端粒聚集，不过5号、19号以及X染色体是例外。研究者为了深入分析SVs偏倚这一现象，对其重复类型分类检验其亚端粒上的富集情况。他们观测到：SVs在VNTR上的富集密度是其他区域的4.8倍，其次是STRs（短串联重复区域），为2.9倍（见图2A）。

图2A SVs在STR和VNTR位点上的分布密度

虽然不同染色体富集情况不一，但是相较于短臂，人类染色体长臂上SVs普遍呈现出更宽区域的VNTR富集（图2B）。

图2B VNTR在不同的染色体臂距离上的聚集比率

另外，研究者还观察到双链断裂和VNTR密度之间的显著相关性，强烈的暗示了容易出现双链断裂的区域和VNTR形成之间的关系（图2C）。

图2C STR和VNTR数和双链断裂数相关性

基因的和潜在的调控SVs

接着，研究者又将共有的和主要的SVs和RefSeq注释结果交叉分析，解析了86个影响编码序列的事件、47个UTRs（非翻译区）事件、7417个内含子或任何基因2Kb空白区域中的事件。另外，还特意鉴定了1033个影响推断的非编码调控序列事件，本研究中定义为注释了的DNase I hypersensitive、H3K27Ac、H3K4Me1以及H3K4Me3位点的联合（见表2）。

这些事件中的许多嵌入了GCRICH或低复杂度DNA的区域，并可能影响基因结构。以图3A为例，在UBEQ2L1的5’端，研究者鉴定了一个1.6 kb的插入，主要由94 bp 富含GC的序列附近的二核苷酸和三核苷酸CACA重复单元组成。插入的断点精确地map到5’ UTR的第一个碱基，很可能扩展了UBEQ2L1启动子的长度。富含AT的序列照样可以被解析，例如458 bp重复元件在载脂蛋白APOOL 3’UTR内map上（见图3B）。

图3 缺失的基因或调控序列（部分）

优化mapping和SVs挖掘

基因组注释的优化以及对人类单倍型结构差异的理解深度对SVs的发现、解析具有重要的影响。在30个Illumina WGS样本中，研究发现如果将SV contigs添加到人类参考基因组及其替代contigs上，可以找到之前2.62% unmapped的reads，且有1.24% map到这些contigs上的reads提高了mapping质量。甚至，这些新map到的reads促使了插入SVs间SNVs和插入缺失的发现。例如，研究者使用GATK HaplotypeCaller鉴定到21969个特异变异，含68656个替代等位基因。通过短读长测序技术或者简单的线性参考基因组无法确定这些SVs，当缺失的序列映射到了编码序列时，这之间的差异直接影响对SVs的解析。举例说明，研究者鉴定到了FOXO6 exon 2上200bp的插入，而这200bp的片段与海马记忆加强和树突状脊柱密度紧密相关（见图4C）。恰恰这一片段在RefSeq以及Ensembl基因注释上都是缺失的，第二个（及最后一个）外显子在该插入的位点被分离了：RefSeq将外显子结合到一个0bp的内含子以及1391bp片段的第三位外显子上，而Ensembl则将它们接合到一个1bp的内含子以及477bp片段的第三位外显子上。本研究分析发现包含这200bp片段的序列形成了一个连续的编码外显子，加了67个氨基酸到ORF（开放性阅读框）上，相较于RefSeq注释，改变了基因终止密码子的位点。基因组突变频率数据库（gnomAD）报道了FOXO6上发现的7个功能缺失（LoF）的SVs，本研究通过纠正FOXO6阅读框，将两个推断的LoF变异正名为同义SNVs，还有一个更正为3’UTR中的SVs（见图4D）。

图4 纠正FOXO6阅读框

除了上述分析内容，本研究还分析了共有的和主要的等位基因SVs的特性、偏向性的GC组成并对人类参考基因组进行了补洞，对SVs进行了表达分析等，感兴趣的话可以阅读原文一探究竟。

总之，文章有如下几大亮点：

1. 测序注释了99604个常见的人类结构变异；

2. 发现了55%的可变数目串联重复序列(variable number of tandem repeats, VNTRS)映射到染色体末端，经分析其与双链断裂有着密切关联

3. 发现长读长测序技术能够鉴定到更多的SVs，尤其对于编码序列，SVs识别更加准确

4. 完善了参考基因组并为人类泛基因组研究丰富了多样性

原文内容博大精深，详情请点击原文链接

https://www.cell.com/cell/fulltext/S0092-8674(18)31633-7

相关阅读：

https://www.grandomics.com/research/h_x_w_r_sv/

SVs识别哪家强？PromethION为您揭晓

Cell| PacBio升级解析人类基因组结构变异

发表评论

发表评论取消回复

联系我们

关于我们

官方微信公众号

发表评论

发表评论 取消回复

联系我们

关于我们

官方微信公众号

发表评论取消回复