多平台单倍型解析方式检测人类基因组结构变异

近日欧洲分子生物学实验室、华盛顿大学医学院基因组学部以及杰克逊基因组医学实验室等多家单位,利用Illumina、PacBio、Bionano、10X Chromium、IL-SLR、Strand-seq、以及Hi-C等多平台以单倍型解析方式研究了人类基因组结构变异。相关成果以“Multi-platform discovery of haplotype-resolved structural variation in human genomes”为题发表在Nature Communications杂志。该研究是迄今为止对人类基因组结构变异最全面的评估,作者在文章中提出的方法和数据集有望成为科学界研究基因组结构变异的金标准,使将来基因组测序研究结构变异更灵敏、更全面。

结构变异(SV)在人类基因组中有各种形式,主要包括小的Indel(小于50bp),大的SV(大于50bp),染色体倒位(Inversion)、拷贝数变异(CNV)等。采用短读长高通量测序技术获得的人类基因组数据,受序列读长限制很难准确鉴定以上各种结构变异,并且大多数SV检测方法没有指出SV具体在哪一个单倍型背景中。

染色体水平定相及基因组装配

本研究采用多种先进的测序技术和方法,包括Illumina (IL)短读长全基因组测序、PacBio (PB)三代长读长测序、基因组光学图谱(BNG)、10X Chromium (CHRO)、Illumina (IL-SLR)合成长读长测序、Strand-seq单细胞单链基因组测序、Hi-C高通量染色质构象捕获等,比较了各个平台数据特点,发现没有任何一项技术能够单独达到全面识别和组装整个人类基因组单倍型SVs所必需的密度、准确性和染色体跨度(PB或CHRO局部标记密集,Hi-C或Strand-seq达到染色体规模但标记稀疏)(图1 a,b,c)。随后将局部的、标记密集的技术与染色体规模的、标记稀疏的技术相结合,获得了密集的全局单倍型区块(图1 d,e)。

图1 从不同数据源获得的基于SNV的单倍型特征

Indel及SV检测

在现有的方法下,使用多种算法和数据类型可以最大化SV检测。利用染色体水平定相,划分PB reads单倍型,以单倍型感知的方式捕获遗传变异的全部特征。将PB、Strand-seq和CHRO数据组合起来,用定相后的PB reads生成单倍型从头组装结果,覆盖了常染色体基因组的92.3%。与现有1000 Genomes Project的SV数据集比对,变异数量多出7倍(平均818,054个indels,27,622个 SVs)。

倒位特征分析

倒位代表了另一类遗传变异,1000 Genomes Project第三阶段(1KG-P3)中,在3.3Mb序列的2504个基因组中鉴定了786个倒位,本研究仅从三个家族中鉴定了308个倒位,总共36.4Mb的序列,其中58个倒位与基因组疾病关键区域重叠。五种不同技术的互补增加了检测的敏感性(图2 b)。对于较小的片段,倒位检测在很大程度上取决于IL和PB数据集的组合,而对于较大的倒位事件,Strand-seq是最适合的。这表明,为了达到SV检测的最大灵敏度和特异性,必须采用多种检测算法和正交技术。

图2 简单和复杂倒位的特征

Indel和SV检测优化及平台比较

基于Illumina短读长序列的SVs对人类疾病研究的贡献没有完全量化,而三代长读长测序技术的成本和通量尚不能支持大规模研究,作者建议针对疾病研究考虑使用多种技术分类应用来全面识别SV。基于Illumina短读长序列WGS数据,应该使用多种SV调用算法的交集进行分析,比单个方法提高3%的灵敏度的同时将检测错误率从7%降低到3%。而基于PacBio则需要使用reads深度算法来解决大片段重复中碱基拷贝数不成比例的问题。

图3 IL和PB两种方法所获得SV数据集的一致性比较。

总结

本研究为测序成本和SV检测所需灵敏度之间的平衡提供了参考,即不同技术组合与不同算法组合产生的增效作用。例如:使用Strand-seq和CHRO测序定相整个染色体,虽然Strand-seq方法尚未广泛使用;Hi-C与CHRO测序组合提供染色体臂水平定相,并且技术成熟应用范围广;利用高覆盖度的IL序列结合多种算法,可以检测到多达SV总数52%的缺失和18%的插入突变;而三代PB数据的加入会显著增加遗传变异检测的敏感性,特定基因的编码序列中检测到的SV的数量增加了3倍,UTR序列变异增加2倍,TFBS检测到SV增加约20%。

参考文献:

Mark J.P. Chaisson et al. Multi-platform discovery of haplotype-resolved structural variation in human genomes. 2019. Nature Communications.

相关阅读:

Cell| PacBio升级解析人类基因组结构变异

13.5Kb CCS reads升级人类基因组变异识别和组装

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注