新技术结合多组学,初迈基因组完成图新时代

真核基因组比较复杂,拥有很多重复序列,因此真核生物的基因组de novo组装一直是科研难点,用以往的测序手段几乎不可能得到完整的基因组图谱,NCBI数据库中拥有完整基因组的物种不到1%。但三代长读长测序技术的加入,将不可能变成了可能。

在本周发表在Nucleic Acids Research上的一篇文献中,研究者将Oxford Nanopore Technology(ONT)、PacBio技术和Illumina数据结合,完成了酿酒酵母Saccharomyces cerevisiae CEN.PK113-7D的完整基因组组装,并用Nanopore的direct RNA测序技术完成了酵母的全长比较转录组分析。

–‒-‒–内容精炼–‒-‒–

酵母基因组完成图:长读长测序Oxford Nanopore、PacBio SMRT混合组装,Illunima数据辅助校正,完成酵母基因组完成图(包括16条核基因组染色体及1个线粒体)

比较基因组分析:与已发表的S.cerevisiae S228C基因组比较,发现S.cerevisiae CEN.PK113-7D基因组中的大量染色体重排事件

全基因组碱基修饰图谱构建:5mC, 4mC和6mA

Direct RNA比较转录组测序:在获得全长转录本的同时,量化不同条件下的基因表达差异

研究结果

基因组组装及比较基因组学

1.基因组完成图组装

短读长测序在染色体末端靠近端粒处基因组图谱构建中存在明显劣势(Fig.1e),且缺失了线粒体基因组和Ⅻ染色体中部区域,而三代长读长测序却可以准确测出拥有大量重复序列的线粒体基因组和Ⅻ染色体中部区域,表现为更显著的测序深度(Fig.1d)。

Fig.1 The completeCEN.PK113-7D genome obtained from de novo assembly and its comparisons 

2.全基因组表观修饰

在CDS上游的DNA甲基化被认为与转录调节相关,本研究利用PacBio测序鉴定出了数千个4mC和6mA修饰,其中359 个4mC位点和297 个6mA位点位于CDS上游,可能调节这些CDS的转录;同时,S. cerevisiae曾被认为不含5mC,但在本研究中,利用 ONT技术鉴定出40个5mC修饰(Fig.1c),这些位点均不在CDS上游区域,暗示着可能行使其它功能。

3.比较基因组学研究

通过比较S.cerevisiae CEN.PK113-7D基因组与已发表的S.cerevisiae S228C基因组,发现二者有高度的一致性,共有5969个ORF(Fig.1f)。并且使用LAST软件比对这两个基因组,发现了555个染色体重排事件,其中>1kb的区段有35个(Fig.1b)。

Fig.2Results obtained from chromosomal rearrangement analysis

between CEN.PK113-7Dand S288C for synteny in panel (A) and translocation in panel (B).

此外,通过三代的长读长测序优势,研究者还分析了32个含有ORF的变异区段并发现其中有12个位于IV、VIII、IX和Ⅻ染色体上的共线性现象及VII染色体上的两个易位变异(Fig.2A)。此外,研究者还发现了9条染色体上的19个易位事件(Fig.2B)。

比较转录组

酿酒酵母在以葡萄糖为碳源的条件下生长会经历两个阶段(以葡萄糖为碳源的无氧呼吸和葡萄糖耗尽后以乙醇为碳源的有氧呼吸阶段)。在这两个阶段之间酵母细胞会对自身基因表达进行调整,以适应新的环境。

研究者用direct RNA测序技术对S. cerevisiae CEN.PK113-7D生长的这两个阶段进行比较转录组测序分析。

1.基因表达量分析

ONT direct RNA测序在以葡萄糖为碳源的生长阶段共获得~509Mb数据,包含~530,000条高质量reads,N50值为1,150 bases;在以乙醇为碳源的生长阶段共获得~623Mb数据,~623,000条高质量reads,N50值为1,263 bases。直接RNA测序得到的两个生长阶段的序列长度与基因组注释的结果一致(Fig.3A)。通过ONT direct RNA测序技术得到的转录本中有超过70%的转录本为全长转录本(Fig.3C)。

Fig. 3 Summary of thedirect RNA sequencing data

在S.cerevisiae CEN.PK113-7D的两个生长阶段中,有22个转录本拥有超过5000条reads,并且Fig.3B展示了不同代谢途径中,几个关键酶基因的差异性表达。Gene ontology分析(Fig.4)也反映了在这两个代谢过程中营养方式的改变导致的一系列基因表达的差异。

Fig.4 Heatmap illustration of the directionalenrichment

score of gene-set enrichment analysis of geneontology

2.转录本结构分析

传统的RNA-Seq技术中反转录、PCR扩增、短读长测序都会引入测序偏好性,让测序数据不能均匀覆盖整个转录本,造成对结果的误读和漏读。研究者通过ONT长读长测序技术发现在VIII染色体上的两个基因转录时聚合酶II越过了第一个ORF末端,继续转录直到第二个基因终止(Fig.5)。通过将ONT数据(Fig.5上图)和Illumina数据(Fig.5下图)进行比较分析,可见ONT的长读长可以清晰地将这一现象反映出来,而Illumina短读长则不能完全覆盖这一区域。

研究者在转录组数据中还发现了一些高度可信的非编码外显子ORF,例如rRNA、lncRNA及反义RNA等,为更深入的转录组学研究提供基础。

基于Oxford Nanopore和PacBio的三代长读长测序技术的发展及应用预示着“基因组草图时代”将过渡到“基因组完成图时代”,为比较基因组学研究奠定了坚实的基础。作为三代基因组测序中心,未来组通过增加产能、优化流程、持续扩大前期积累的三代测序优势;目前已配备有11台GridION X5和2台MinION测序仪,并于2018年1月17日率先通过Oxford Nanopore Technologies Limited(牛津纳米孔技术有限公司,ONT)官方认证,获得Nanopore DNA测序认证服务供应商资质。后续会购入通量更高的PromethION测序仪,致力于为合作伙伴提供高质量、超快捷的基因组学研究测序服务。

参考文献:

Jenjaroenpun P, Wongsurawat T, Pereira R, et al. Complete genomic andtranscriptional landscape analysis using third-generation sequencing: a casestudy of Saccharomyces cerevisiae CEN. PK113-7D[J].Nucleic Acids Research, 2018:1-15.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注