13.5Kb CCS reads升级人类基因组变异识别和组装

短读长测序技术因准确度较高,常应用于单核苷酸变异(SNVs)和小型插入缺失(indels)的识别上,但是较少进行从头组装、单体型定相和结构变异(SVs)检测等远程应用上。基于单分子检测的长读长测序技术通过read-to read的校错也可以达到高准确度,只是计算量较大,并且在校正过程中错误映射的reads和混合单体型中仍存在错误,故较少应用于SNVs和indels识别。同时,人类基因组仍需要结合各种测序技术全面覆盖各类基因变异,而长读长测序技术尤其是基于SMRT测序的PacBio平台正好可以通过CCS来进行高精度的变异捕获。

来自PacBio的科学家Aaron M. Wenger联手多家机构的研究人员选取了理想的基准基因组样本HG002进行长CCS reads的表现分析以验证其在大、小片段变异检测、基因组组装和单体型定相等方面上的优势,研究结果已于1月发表于bioRxiv预印本期刊上,组学君再为大家细读好文。

CCS文库制备,测序及reads质量验证

长度紧密分布在15Kb的SMRTbell文库用于CCS测序,仅保留准确度高于Q20(99%)的reads,生成的89G数据平均读长13.5±1.2Kb,预估准确度中位数为Q30(99.9%),平均值Q27(99.8%),且与GRCh37一致性准确度高。

图1 HG002的高精度长读长测序(a. 多轮DNA模板测序生成CCS序列,b. 不同测序轮数得到的CCS序列质量预测,c. CCS reads的读长和预测质量)

研究统计了CCS reads和HG002参考基因组的不一致,其中3.4%为错配,4.6%为非均聚物背景下的indels,92%为均聚物背景下的indels。通过read-to-read比对的方式计算错误率发现与预估的CCS reads质量一致,平均reads精度高达99.8%。同时,研究还将其映射到GRCh37上,匹配度达97.5%,还发现对应的NGS短读长数据上报道的193个医学相关基因可以在CCS数据上映射152个,包含 CYP2D6、GBA、PMS2和STRC等基因。

图2 使用CCS reads的人类基因组可映射性(a.不同映射质量阈值下NGS和CCS数据对GRCh37人类基因组的覆盖度,b. NGS和CCS数据对先天性耳聋基因STRC分别在以10为映射质量阈值下的覆盖度,c. 13.5Kb CCS reads对193个人类基因的映射提升,这193个基因之前使用NGS数据进行映射发现与医学相关且存在问题)

小片段变异检测和定相

GAKT用于SNVs和小型indels识别,相较于基准基因组,SNVs精度达99.468%,召回了99.559%;而indels的精度和召回率分别为78.977%和81.248%。针对SNVs和NGS数据进行比较,识别的indels相对少一些。研究还通过一种叫Google DeepVariant的模型进行数据模拟,发现相较于Illumina数据,CCS数据可以大大提高SNVs和indels的准确度和召回率。

接下来,研究又使用WhatsHap来定相DeepVariant识别的结果进行定相以确定CCS reads能够生成单体型所需的高精度变异识别和远程信息。几乎所有(99.64%)的常染色体杂合变异都被定相到19215个区域上,N50为206Kb。定相区域大小分布几乎和理论上的极限完全匹配,而这个极限是通过生成变异之间超过平均CCS读长13.5Kb的间隔来评估的,这说明定相区域大小受HG002基因组读长和变异量所限,而非变异识别的覆盖度或质量。

图3 使用CCS reads进行变异识别和定相(a. 使用DeepVariant进行的SNV和indels识别和基准基因组的一致性,b. 杂合位点的DeepVariant变异识别定相和使用13.5Kb reads对HG002理论定相的比较,c. 整合的CCS SVs识别和基准基因组一致性,d. 通过变异大小进行上述一致性的比较)

用单体型定相升级小片段变异检测

GATK和DeepVariant在识别变异时都不直接并入远程单体型相位信息。研究对CCS reads基于GIAB的三相变异对进行单体型标记,然后使用DeepVariant模型对reads按单体型分选通过的顺序进行模拟,发现对于SNVs的识别表现和原始的DeepVariant模型相近,但是对于indels的识别却有着显著的升级:精度达97.835%且召回率达97.141%(见表1)

表1 CCS reads小片段变异识别的表现

CSS reads的SVs检测

≥50bp的插入和缺失SVs使用两款基于read映射的工具pbsv和Sniffles,使用paftools分析Falcon和Canu的从头组装来升级更大片段变异的识别,研究发现使用SURVIVOR生成整合的callset对于<1kb和≥1kb的变异以及插入和缺失的表现都相仿,凸显了基于映射的和基于组装的SVs识别之间的互补性(见图3c和d)。

另外,研究还对Illumina短reads和10×Genomics的连接reads(linked reads)进行SVs识别比较,发现所有的短reads和链接reads无论在准确度还是召回率上面都不及CCS callsets。

从头组装

使用了Falcon、Canu和wtdbg2对CCS reads分别进行从头组装,跳过原始的read-to-read校错步骤的组装结果连续性都很好,contig N50从15.43到28.95Mb,其中Canu因为将一些杂合位点的等位基因算作分离的contigs上而组装的基因组大于预期(表2)。同时,研究选择了HG002亲本的短reads来鉴定对一方亲本唯一的k-mers然后基于单倍型对CCS reads进行分区(trio bin),最后选择51-mer的binning进行组装。

表2 CCS reads从头组装统计

三款组装软件独立对父系和母系reads进行组装也都得到高连续性的近完整组装结果,N50从12.10到19.99Mb,基因组从2.67到3.04Gb。父母系的组装中都鉴定出从95.3%到98.2%的单拷贝人类基因(表2),并且无论是混合组装还是一方亲本的组装都与HG002基准基因组保持高度一致,甚至大大超过了之前发表的使用PacBio长reads和用Illumina数据打磨过的ONT数据组装结果(图4a)。

此外,研究还组装到了跨度超60Mb的大片段重复,较之前提升了20%的连续性,以及解析了一致性99%-99.5%的15kb重复片段(图4b)。

图4 read准确度对从头组装的影响

变异识别和从头组装需要的覆盖深度

研究者调取部分数据进行分析,发现对于SNVs,使用DeepVariant进行准确度和召回率超过99.5%的识别仅需15×的覆盖,而对于indels,超过90%的准确度和召回率需要17×。再者,使用混合单倍型的wtdbg2的组装,只要覆盖度高于15×,就可以保持高于Q42的一致性准确度等。

基准基因组校错和扩展

最后,研究对SVs仍处于草图形式的基准基因组进行校错,如鉴定到小片段变异中,31个基准基因组中的均聚物不一致处有29个被误为正确的;而在一项Illumina全基因组病例研究中,仅有很少的假阴性SNVs和indels以及假阳性indels和CCS callset相一致,通过人工处理后评估基准基因组中有2434个(95%的置信区间为1313-2611)错误可以通过CCS reads来校正。

对于SVs,基准基因组精确度比较高,但不一定完整。将CCS DeepVariant callset加入基准基因组小片段变异整合流程中可以将基准区域扩展1.3%相当于418875个变异。而18832个常染色体变异识别中仅有9232个和基准区域相重叠,也表明并入CCS变异识别可能可以将基准基因组中变异的数量翻2倍以上。

结语

读长和准确度宛如测序天平的两端,这份研究开发出了一种新的流程力图让天平达到完美的平衡:研究基于单分子环状一致性序列(CCS)生成准确度达99.8%、平均读长达13.5Kb的长reads,还将该流程运用到已精确解析的人类基因组(HG002/NA24385)上。

通过优化现有工具对HG002/NA24385进行变异检测,召回了超过99.91%的SNVs、95.98%的indels以及95.99%的结构变异。另外,研究还评估了和参考基因组中2434处不一致的可纠正性错误,且几乎所有(99.64%)检测到的的变异都可以定相到单体型上,而从头组装得到contig N50超过15Mb、一致性达99.998%的高连续性、高精度基因组。将CCS reads匹配上短reads以进行小片段变异检测,对于能检测到结构变异和相似组装连续性的区域,CCS reads明显比含噪音信号的长reads有更高的一致性。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注