文献精读| PacBio测序助力斑马鱼转录组高精度注释

导读

大家见过斑马鱼吗?

它披着美丽的深蓝色条纹,和斑马的条纹相似,因此得名。别看它个头小,不过4-6cm长,却是重要的模式生物,因为它易于繁殖,花费较少,而且最重要的是和人类基因组相似度很高(87%)。由于斑马鱼基因组注释不完整,关于其转录组的研究常常受到阻碍。在合子基因激活(zygotic genome activation,ZGA)阶段,斑马鱼转录组更是动态表达,其复杂性可想而知。在这种情况下,短读长的二代测序技术无法很好地将这种复杂性呈现出来。所以,来自西奈山伊坎医学院神经内科的研究人员利用PacBio长读长测序技术对斑马鱼ZGA阶段前后的胚胎进行全长转录组分析,获得了高精度的转录组注释结果,研究结果于2018年7月发表于Genome Research。

方法流程

研究者利用PacBio SMRT测序平台对斑马鱼ZGA时期前后的胚胎进行全长转录组测序及二代转录组测序,通过与参考序列比较分析获得了新的转录本及新的异构体。然后运用包括结构预测、序列一致性及功能守恒分析等一系列算法对这些结果进行验证,同时利用二代转录组数据进行定量。

Fig.1 斑马鱼胚胎全长转录组分析流程

研究结果
全长转录组数据分析使用GMAP将全长转录组比对到参考基因组GRCz10,研究者发现有18,777份转录本被成功比对到参考基因组上,仅有3.6%的全长转录组数据未能比对上,与短读长数据(>20%)相比要少得多。将全长转录组数据与GRCz10 RefSeq注释结果比对,发现在15,159个GRCz10 RefSeq注释的转录本中,8005个(52.8%)与全长转录组数据重叠(Fig.2)。与参考序列的高度一致性反映出该组数据的高质量,适合于进行新的转录本的鉴定。

Fig.2 全长转录本对参考转录组GRCz10的覆盖度

为了得到潜在的新型转录本,研究者首先分析了全长转录本与RefSeq转录本的结构相似性,大多数观察到的转录本与潜在的新基因或亚型相对应。结果显示,4205 (22.4%)个转录本被认为是潜在新转录区(NTR)的转录本,5295 (28.2%)个转录本是潜在的新isoforms(Fig.3)。

Fig.3 全长读转录组中潜在的新转录本

NTR区转录本进一步解析

将二代转录组数据比对到增加了NTRs的斑马鱼转录组,结果发现,短读测序数据被成功比对上,还捕捉到了斑马鱼参考基因组注释中缺失的新转录本的全部外显子结构。在经转录抑制剂α-amanitin处理和未经处理的样本中,大部分由长读测序发现的新转录本(分别为89% 和 86%)都有二代测序数据支持(TPM>1)(Fig.4)。

Fig.4 短读长数据支持新转录区

为了确定新的转录区编码蛋白质的功能,研究者分析了这些转录本的蛋白质编码潜力,与已知蛋白质序列的保守性,以及与已知蛋白质结构域的功能关系。他们使用CPAT (Coding-Potential Assessment Tool)工具验证NTRs的蛋白质编码能力,在4205个潜在NTRs中,CPAT鉴定出3255个极可能编码蛋白质的NTRs。

对于可能不编码蛋白质的NTRs,研究者通过两种方法——phyloP 算法和phastCons算法来评估它们在进化中是否存在保守性。研究者观察到,相对于随机对照区域,258个非蛋白编码NTRs转录本的保守性有所提高(24%)(Fig.5A)。

通过与Rfam数据库比对,研究者鉴定出76个匹配的长读长转录本(Fig.5B)。其中有一个特殊的NTR与Rfam数据库中的mir-548匹配,这个转录本仅存在于经转录抑制剂α-amanitin处理的样本中(该样本含大部分母源RNA),而在未经处理的样本中(该样本含大部分合子RNA),发现了一个具有较短的3’尾的该转录本的异构体。这个拥有更长的3’尾的转录本是已知的mir2189一个新的同源物(Fig.5C)。结合以往的研究结果,研究者指出,在这一对转录本中,母系转录本拥有更长的3’尾,这可能是推测的靶点,也可能是miRNA结构本身,且参与了母体向合子转变的调控过程。

Fig.5 非编码NTRs特征

新的转录异构体

为了完善的预测的新异构体列表,研究者还量化了可选剪接事件的数量,并将剪接事件类型的分布与RefSeq注释中观察到的情况进行了比较(Fig.6)。基于长读长测序数据,研究者发现了超过2000个新的可变剪接事件,可见长读长的转录组测序可以鉴定到更全面的可变剪接情况

Fig. 6 长读长测序与参考序列中的AS事件比较

研究者使用短读长数据量化在胚胎发育早期和晚期样本中发现的新异构体,分析表明:在胚胎发育晚期,可变的3’UTR及内含子保留的可变剪接形式有所增加(Fig.7A)。接下来,研究者还利用PCR实验验证了长读长数据对mvktead3bsrsf7ah3f3c等基因的可变剪接分析能力(Fig.7B)。

Fig.7 斑马鱼ZGA阶段前后的可变剪接事件(A);PCR验证实验结果(B)

此外,研究者还发现和验证了一种跨越多个mir-430元件的新的8 kb转录本,这是胚胎早期发育的重要驱动因素。

这项研究利用长读长测序技术在转录组研究中的显著优势,解析了斑马鱼ZGA阶段前后复杂的转录组动态变化,为斑马鱼转录组提供了高分辨率的注释资源。

PacBio的全长转录组测序技术为研究者提供了一个可以全面观察转录组动态变化的机会——无需拼接,直接获得转录本全长,可获得更多被二代短读长数据遗漏的novel 基因及isoforms,更真实地反映转录组全貌,这将为转录组学研究带来更多新的机遇。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

电子邮件地址不会被公开。 必填项已用*标注