Nature丨“六角恐龙”-美西钝口螈基因组(32Gb)

1月24日,Nature在线发表美西钝口螈(Ambystoma mexicanum)(~32Gb)基因组组装结果,是迄今组装完成最大的基因组。文章中开发了新算法MARVEL,实现了对超大基因组低深度三代测序数据的组装。基因组信息显示,内含子和基因间区的极大扩张助于形成如此规模的基因组。美西钝口螈基因组中不包含其它已知脊椎动物基本的发育基因Pax3,其基因功能由旁系同源基因Pax7 代偿。

Fig.1美西钝口螈(Ambystoma mexicanum)

研究结果

  1. 基因组组装

基因组组装流程(Fig.2A):32×PacBio SMRT测序+Bionano光学图谱+MARVEL新算法。MARVEL新算法集成两阶段reads校正程序,可以保持长reads的完整性。组装Congtig N50:216kb,Scaffold N50:3Mb,基因组大小:32.4Gb。基因组中重复序列占65.6%(18.6Gb),说明如果能在长区段重复序列有很好的覆盖和跨越,对基因组组装起至关重要的作用。本文中使用的PacBio和近期火热的Oxford Nanopore并称三代单分子长读长测序,能更好地覆盖长重复序列区域(示例,Fig.2B),有助于复杂基因组组装。

Fig. 2 A基因组组装流程

B 长读长测序有助于覆盖长重复序列示例

  1. 长末端重复逆转录因子扩张

美西钝口螈基因组中重复序列高达18.6Gb,其中LTR和LINE是最主要的类别(Fig.3),其中不少长度超过10kb,并且组装出的97%的contigs都以LTR元件结尾。

Fig.3 A重复元件类型分析

B 通过GyDB2.0对重复序列注释并构树

通过重复元件的相对形成时间分析得知:美西钝口螈基因组经历了持续时间很长的转座子活跃期,随后发生了近期持续性爆发式的重复序列扩张(Fig.4),大规模的重复序列扩张让美西钝口螈拥有如此庞大的基因组。

Fig.4 Relative age (Kimura distance)

  1. HoxA 基因簇和受限的内含子大小

HoxA基因在肢体的近远轴(proximal-to-distal)发育中发挥重要作用,并且在断肢再生过程中会被重新活化。本研究中美西钝口螈的HoxA基因位点在单个contig上,含有明显的重复区域,比人类和蛙类的该基因大3.5倍,可能是由于该基因簇中在HoxA3和HoxA4之间存在一段170kb的扩张。

Fig.5 HoxA 基因簇的基因和重复元件比较分析
(人类、蛙类、美西钝口螈)

研究人员还比较分析了人类、小鼠、蛙类和美西钝口螈之间大量同源基因的内含子大小,结果发现(Fig.6):美西钝口螈中非发育基因平均大小是其它物种的13-25倍,而发育基因的内含子扩张倍数相比较低(6-11倍);并且与人类、小鼠和蛙类相反,美西钝口螈中发育基因的内含子比非发育基因的内含子要短。多种证据显示美西钝口螈中与发育相关的基因限制了自身内含子大小,原因可能是:在某些特殊的发育期,更小的基因大小有助于迅速地转录,从而上调基因表达

Fig.6 人类、小鼠、蛙类和美西钝口螈之间的
发育基因和非发育基因中的内含子长度比较

  1. 某些Pax家族成员缺失

通过基因注释和基因家族分析,在美西钝口螈中鉴定出了Pax4 缺失(其它两栖动物和脊椎动物也缺失Pax4),和Pax3 缺失(然而所有其它已知的脊椎动物都含有Pax3)。为了进一步验证美西钝口螈中Pax3 的缺失,研究人员1). 在基因组测序以及转录组测序的原始数据未发现Pax3的序列,2). 检查了Pax3 基因区域的邻近基因和高保守非外显子元件(non-exonic elements, CNEs),发现在小鼠的Pax3 附近的基因Sgpp2Epha4以及CNEs也同样存在于美西钝口螈中,但未找到Pax3 或者任何与Pax3 相关的CNEs(Fig.7)。这些证据说明,美西钝口螈丢失了Pax3 及与之相关的顺式作用元件。

Fig.7 美西钝口螈中,四足动物Pax7 和Pax3位点的保守基因和CNEs分析

  1. Pax7功能研究

在其它脊椎动物中,Pax3 和Pax7 都对肌肉、神经管和神经鞘等组织的发育起重要作用,尽管它们有一部分功能类似,但两者中任何一个的缺失都会导致很明显的表型变化(小鼠)。然而美西钝口螈缺失了其它四足动物都有的Pax3 基因后,由Pax7 承担起了类似的基因功能。为了更深入地研究美西钝口螈中Pax7的功能,研究人员利用TALEN和CRISPR-mediated基因编辑,形成不同的Pax7突变(Fig.8 a)。在子代中进行表型分析(Fig.8b-h)并以PCR和蛋白检验做验证。

本研究中的结果总的来说是:美西钝口螈中Pax7 基因的变异带来的表型变化,是其它脊椎动物中Pax3- 和Pax7- 突变表型的合集。后续可以进一步分析Pax7 基因在美西钝口螈中是如何调节,使得其绕过了Pax3 基因的丢失在其它脊椎动物中带来的发育影响。

Fig.8美西钝口螈Pax7 突变体与小鼠Pax3−/−Pax7−/−突变体有类似的表型

蝾螈的断肢再生功能具有非常重要的临床研究意义,此次美西钝口螈基因组的完成,与以往的单纯转录组数据相比,为研究提供了更为完整的参考信息。

参考文献

Sergej Nowoshilow, Siegfried Schloissnig, Ji-Feng Fei , et al. The axolotl genome and the evolution of key tissue formation regulators.Nature.2018

图片来源于网络|侵删

新技术结合多组学,初迈基因组完成图新时代

真核基因组比较复杂,拥有很多重复序列,因此真核生物的基因组de novo组装一直是科研难点,用以往的测序手段几乎不可能得到完整的基因组图谱,NCBI数据库中拥有完整基因组的物种不到1%。但三代长读长测序技术的加入,将不可能变成了可能。

在本周发表在Nucleic Acids Research上的一篇文献中,研究者将Oxford Nanopore Technology(ONT)、PacBio技术和Illumina数据结合,完成了酿酒酵母Saccharomyces cerevisiae CEN.PK113-7D的完整基因组组装,并用Nanopore的direct RNA测序技术完成了酵母的全长比较转录组分析。

–‒-‒–内容精炼–‒-‒–

酵母基因组完成图:长读长测序Oxford Nanopore、PacBio SMRT混合组装,Illunima数据辅助校正,完成酵母基因组完成图(包括16条核基因组染色体及1个线粒体)

比较基因组分析:与已发表的S.cerevisiae S228C基因组比较,发现S.cerevisiae CEN.PK113-7D基因组中的大量染色体重排事件

全基因组碱基修饰图谱构建:5mC, 4mC和6mA

Direct RNA比较转录组测序:在获得全长转录本的同时,量化不同条件下的基因表达差异

研究结果

基因组组装及比较基因组学

1.基因组完成图组装

短读长测序在染色体末端靠近端粒处基因组图谱构建中存在明显劣势(Fig.1e),且缺失了线粒体基因组和Ⅻ染色体中部区域,而三代长读长测序却可以准确测出拥有大量重复序列的线粒体基因组和Ⅻ染色体中部区域,表现为更显著的测序深度(Fig.1d)。

Fig.1 The completeCEN.PK113-7D genome obtained from de novo assembly and its comparisons 

2.全基因组表观修饰

在CDS上游的DNA甲基化被认为与转录调节相关,本研究利用PacBio测序鉴定出了数千个4mC和6mA修饰,其中359 个4mC位点和297 个6mA位点位于CDS上游,可能调节这些CDS的转录;同时,S. cerevisiae曾被认为不含5mC,但在本研究中,利用 ONT技术鉴定出40个5mC修饰(Fig.1c),这些位点均不在CDS上游区域,暗示着可能行使其它功能。

3.比较基因组学研究

通过比较S.cerevisiae CEN.PK113-7D基因组与已发表的S.cerevisiae S228C基因组,发现二者有高度的一致性,共有5969个ORF(Fig.1f)。并且使用LAST软件比对这两个基因组,发现了555个染色体重排事件,其中>1kb的区段有35个(Fig.1b)。

Fig.2Results obtained from chromosomal rearrangement analysis

between CEN.PK113-7Dand S288C for synteny in panel (A) and translocation in panel (B).

此外,通过三代的长读长测序优势,研究者还分析了32个含有ORF的变异区段并发现其中有12个位于IV、VIII、IX和Ⅻ染色体上的共线性现象及VII染色体上的两个易位变异(Fig.2A)。此外,研究者还发现了9条染色体上的19个易位事件(Fig.2B)。

比较转录组

酿酒酵母在以葡萄糖为碳源的条件下生长会经历两个阶段(以葡萄糖为碳源的无氧呼吸和葡萄糖耗尽后以乙醇为碳源的有氧呼吸阶段)。在这两个阶段之间酵母细胞会对自身基因表达进行调整,以适应新的环境。

研究者用direct RNA测序技术对S. cerevisiae CEN.PK113-7D生长的这两个阶段进行比较转录组测序分析。

1.基因表达量分析

ONT direct RNA测序在以葡萄糖为碳源的生长阶段共获得~509Mb数据,包含~530,000条高质量reads,N50值为1,150 bases;在以乙醇为碳源的生长阶段共获得~623Mb数据,~623,000条高质量reads,N50值为1,263 bases。直接RNA测序得到的两个生长阶段的序列长度与基因组注释的结果一致(Fig.3A)。通过ONT direct RNA测序技术得到的转录本中有超过70%的转录本为全长转录本(Fig.3C)。

Fig. 3 Summary of thedirect RNA sequencing data

在S.cerevisiae CEN.PK113-7D的两个生长阶段中,有22个转录本拥有超过5000条reads,并且Fig.3B展示了不同代谢途径中,几个关键酶基因的差异性表达。Gene ontology分析(Fig.4)也反映了在这两个代谢过程中营养方式的改变导致的一系列基因表达的差异。

Fig.4 Heatmap illustration of the directionalenrichment

score of gene-set enrichment analysis of geneontology

2.转录本结构分析

传统的RNA-Seq技术中反转录、PCR扩增、短读长测序都会引入测序偏好性,让测序数据不能均匀覆盖整个转录本,造成对结果的误读和漏读。研究者通过ONT长读长测序技术发现在VIII染色体上的两个基因转录时聚合酶II越过了第一个ORF末端,继续转录直到第二个基因终止(Fig.5)。通过将ONT数据(Fig.5上图)和Illumina数据(Fig.5下图)进行比较分析,可见ONT的长读长可以清晰地将这一现象反映出来,而Illumina短读长则不能完全覆盖这一区域。

研究者在转录组数据中还发现了一些高度可信的非编码外显子ORF,例如rRNA、lncRNA及反义RNA等,为更深入的转录组学研究提供基础。

基于Oxford Nanopore和PacBio的三代长读长测序技术的发展及应用预示着“基因组草图时代”将过渡到“基因组完成图时代”,为比较基因组学研究奠定了坚实的基础。作为三代基因组测序中心,未来组通过增加产能、优化流程、持续扩大前期积累的三代测序优势;目前已配备有11台GridION X5和2台MinION测序仪,并于2018年1月17日率先通过Oxford Nanopore Technologies Limited(牛津纳米孔技术有限公司,ONT)官方认证,获得Nanopore DNA测序认证服务供应商资质。后续会购入通量更高的PromethION测序仪,致力于为合作伙伴提供高质量、超快捷的基因组学研究测序服务。

参考文献:

Jenjaroenpun P, Wongsurawat T, Pereira R, et al. Complete genomic andtranscriptional landscape analysis using third-generation sequencing: a casestudy of Saccharomyces cerevisiae CEN. PK113-7D[J].Nucleic Acids Research, 2018:1-15.

Nanopore长读长测序让基因组组装更连续,小丑鱼Nanopore和Illmina混合组装基因组发表

小丑鱼主要栖息于泻湖及珊瑚礁区,与海葵有着密不可分的共生关系,因此又称海葵鱼。小丑鱼雌雄同体及与海葵互利共生的特性,吸引了研究人员广泛的关注。2018年1月在GigaScience发表了关于澳洲小丑鱼(Amphiprion ocellaris)的第一个利用Nanopore和Illumina混合组装基因组文章。研究结果显示,Nanopore数据的引入能明显增强基因组组装的连续性和完整度

小丑鱼基因组大小预估为791 Mb ~ 967 Mb,杂合度在0.6%,这些特性都是构建参考基因组过程中需要面临的困难。

基因组测序、组装、注释

利用Illumina和Nanopore杂合组装,测序深度分别为54×和11×,组装基因组大小为880Mb,经过BUSCO评估基因组完整度为96.3%(辐鳍鱼纲)。Scaffold N50从Illumina数据单独组装时的21kb提升到401kb(混合组装),并且增加了组装基因组16%的完整度。

Table 1. 小丑鱼基因组组装

与性别分化相关基因cyp19a1a的鉴定

在小丑鱼基因组中,对已有文献支持的性别分化相关基因cyp19a1a进行鉴定。将已发表的小丑鱼转录组数据(雌,雄)比对到本研究组装出小丑鱼基因组,发现小丑鱼的cyp19a1a 基因能被Nanopore数据连续覆盖。在混合组装中,该基因位于一个429Kb长的scaffold上;而在Illumina单独组装中,该基因零散地分布在3个短scaffolds上,未被完整组装出。这说明,Nanopore长读长数据的引入,有助于准确还原基因结构,利于基因注释

Figure 1.组装基因组的基因区域、涵盖该基因的组装scaffold、基因组测序reads、

  转录组测序reads,对性别分化相关基因cyp19a1a的覆盖/mapping 

本文发表了小丑鱼的第一个混合组装基因组,发现即便是低深度(11×)Nanoppore测序,都能显著提升基因组组装的连续度和完整性。

参考文献:

Tan, Mun Hua, et al. “Finding Nemo: Hybrid assembly with Oxford Nanopore and Illumina reads greatly improves the Clownfish (Amphiprion ocellaris) genome assembly.” GigaScience (2018).

研究全长转录组?建议先看看这几篇文献

基于二代高通量测序平台的RNA-Seq技术在过去几年中得到广泛应用,然而读长限制使其无法得到精确完整的转录本,极大地限制了人们对复杂转录本的深入研究。而基于三代长读长的Iso-Seq技术能测得转录本全长,精确识别各种可变剪切形式,完整重构转录本,为转录组研究奠定【以准确获得转录本结构为前提】的基础。

Fig.1[1]左图描述了可变剪切的几种形式;

右图示意三代长读长测序能准确识别该基因的2种可变剪接,而二代做不到

下面组学君为大家介绍两篇经典的全长转录组研究论文。什么叫经典?
经典就是前年的文章翻出来仍然能让人眼睛一亮。

经典文章聚焦

1高粱转录组

高粱适应环境的能力很强,是重要的抗非生物胁迫的模式研究体系。尽管目前已完成几种高粱品系的基因组测序,但是其转录组注释仍有待完善。研究者利用Iso-Seq 的TAPIS流程对数据进行评估和分析,结果表明PacBio Iso-Seq测序策略能够测通转录本全长,可鉴定全长的剪接异构体及其他形式的转录后调控事件(如APA),这不仅极大的丰富了高粱基因注释信息,也有助于其基因调控中研究,为转录组研究提供有力的研究工具,该成果于2016年6月发表于Nature communications[2]

Fig.2(a)使用Iso-Seq测序分析方法得到的AS数量与已发表的高粱基因组注释的AS数量比较;(b)含有Poly(A)位点个数对应的基因数

研究中发现了共计27,860个转录本,其中11,342(40.7%)是新发现的,7,065个基因(25.4%)是覆盖全长的。9,341个基因(69.9%)只有一种Isoform,约5,200个基因有两个或以上的Isoform,415个基因有5个或更多的Isoform。从Iso-Seq读取序列中,发现了10,053个可变剪接形式,注释了其中7,000个新的可变剪接形式,而其中仅有2,950个已注释(Fig. 2a)。在14,550个表达的基因中,11,013个基因中至少含有一个poly( A )位点,超过7,700个(50%)基因有两个或者更多的聚腺苷酸化位点(Fig. 2b),说明APA现象在高粱转录组中是广泛分布的。研究中还确定了超过2,100个未注释过的新基因以及数千个3’非翻译区不同的转录本,研究者认为大部分新基因为长链非编码转录本。

2 玉米转录组

玉米是全球总产量最高的农作物,也是研究植物转录组代谢通路的重要遗传模型。玉米基因组序列于2009年公布,后来陆续有研究者利用EST和RNA-Seq转录组数据对其基因注释进行了补充。然而由于RNA-Seq短读长的局限性使该方法无法获得全长转录本序列,限制了可变剪接形式的鉴定。

冷泉港实验室等单位利用三代测序技术的长读长优势,获得了玉米的全长转录组,在已有的玉米B73 RefGen_v3参考基因上发现了大量新信息,揭示了玉米基因表达的复杂性,该项研究成果于2016年发表在Nature communications[3]

Fig.3 Comparison of PacBio and RefGen_v3 Isoform

PacBio测序数据经处理得到643,330个高质量的转录本序列,其中606,145个序列(94.2%)能够比对到玉米RefGen_v3参考基因组上。经聚类分析得到了111,151个Isoform,对应26,943个基因,涵盖了玉米RefGen_v3中注释基因的70%。其中57% 的Isoform来自已知基因位点的新Isoform;2,803个(3%)新Isoform来自2,253个新的基因位点(Fig.3)。在PacBio Isoform中发现了来自53个家族的新Isoform,转录因子数量增至5,423个。其中155个新Isoform与生长激素应答的功能相关。此外,通过对PacBio数据的进一步挖掘,该研究还发现了867个新的LncRNA(平均读长1.1kb)。

文献读到这,你是否也不禁想,要不要我也把实验材料规整规整,做个转录组研究?稍等,有参考基因组的物种和无参物种,分析流程可是不一样的哦。

别担心,未来组不论是否有参,全长转录组项目经验都很丰富哦,以下为大家介绍2篇未来组项目经验论文,分别是有参异源四倍体棉花转录组和无参矮牵牛转录组。

1.未来组项目-有参异源四倍体棉花转录组分析

未来组参与的异源四倍体棉花全长转录组项目文章于2017年9月见刊New Phytologist[4],华中农业大学研究团队基于PacBio测序,并整合Iso-Seq流程开发适用于区分2套亚基因组转录本的分析方法,克服了短读长测序在解析多倍体Isoform的技术瓶颈,揭示了纤维特异性的可变剪接事件,2套亚基因组中部分同源基因的Isoform差异,并在Isoform水平上揭示了miRNA对可变剪接事件的调控,为研究多倍体物种可变剪接提供了新的研究角度。在异源四倍体棉花全长转录组分析中,针对四倍体物种开发了整合性Iso-Seq数据分析流程(https://github.com/Nextomics/pipeline-for-isoseq)(Fig.4)。

Fig.4异源四倍体棉花的Iso-Seq数据分析流程

研究者对多倍体棉花转录组进行分析,经mapping、phasing、clustering、consensus后总共得到44,968个基因,并从中定义了176,849个Isoform。其中全长Isoform平均2,175bp,比参考序列转录本平均1,462bp的长度长。

Fig.5(a)Iso-Seq数据及中检测的全长LncRNA与LncRNA_v1的Venn图;

(b)基因上polyA位点数目分布;(c)polyA剪切点(-50 ~ +50)的核苷酸相对频率

通过与参考序列比对,更新了18,008个基因,确定了222个融合基因,在新的转录本中确定了2,447个LncRNA,与LncRNA_V1比较,确定了365个新的LncRNA(Fig.5a)。在Iso-Seq中检测的44,968个基因中,基因上平均polyA位点数目为2.82(Fig.5b);同时分析了polyA位点侧翼核苷酸序列,其表现出核苷酸偏向性特征,在3’UTR的polyA剪切点的上游富含U碱基,在下游富含A碱基(Fig.5c),同时在polyA剪切点上游确定了2个保守的motifs(AAUAAA和UGUA)。

2.未来组项目-无参矮牵牛转录组分析

由华中农业大学园艺林学学院研究团队主导的,未来组参与的全长转录组分析项目文章,2017年3月发表于Scientific Reports[5]。研究通过结合全长转录组Iso-Seq和RNA-Seq两者优势,针对无参考基因组物种的转录组分析开发了HySeMaFi(hybrid sequencing and map finding)流程,该流程可对基因剪接形式进行挖掘,克服了RNA-Seq中不完善的Isoform重构形式,同时,也可定量Isoform表达,为后续研究提供准确的参考数据。

Fig.6 HySeMaFi 分析流程示意图

基于RNA-Seq和Iso-Seq两种测序策略,开发HySeMaFi分析方法,示意图见Fig.6。在RNA-Seq中,经不同组装方法拼装出所有理论上的Isoform形式(涵盖有真实的Isoform形式),同时在Iso-Seq中经过校正得到A、B两种Isoform。通过比对方法,建立RNA-Seq中 longest molecules(如图中 1)和PacBio corrected reads比对关系,用于后续下游分析,如得到的longest molecules和PacBio corrected reads可用于分析可变剪接形式,PacBio corrected reads可作为参考基因集做后续基因表达分析。

Fig. 7 经HySeMaFi方法全方位确定基因可变剪接形式

PacBio数据经聚类,80% Isoform聚类的cluster含有2个以内Isoform形式,同时也发现100个以上cluster含有50个Isoform形式(Fig.7a)。经HySeMaFi方法得到的转录本,如组装的longest molecules 和PacBio corrected reads,除了可能的外显子对应的基因Isoform外,至少有2,264基因有2个以上可变剪接形式(Fig. 7b)。为验证,以Miseq数据作为query,比对到Hiseq数据的longest Contigs,结果与基因分析中长读长作为数据集的结果一致(Fig.7c 和Fig.7d)。

通过结合RNA-Seq和Iso-Seq,开发的针对无参考基因组的HySeMaFi分析流程,在转录组分析中,可挖掘更多基因可变剪接形式及精确定量Isoform的表达。

基于长读长的转录组研究优势日益凸显,在对已知基因序列的补充注释,新的可变剪接形式分析、APA分析、融合基因和LncRNA的发现中发挥着越来越重要的作用。

未来组的全长转录组学研究,不仅包含PacBio SMRT技术,也已推出基于Nanopore的direct RNA测序技术,开启转录组学研究新纪元(技术详情请见Nature methods 文章关于direct RNA测序的测评解读),我们有丰富的全长转录组项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1] Park E, Pan Z, Zhang Z, et al. The Expanding Landscape of Alternative Splicing Variation in Human Populations[J]. The American Journal of Human Genetics, 2018, 102(1): 11-26.

[2] Abdel-Ghany S E, Hamilton M, Jacobi J L, et al. A survey of the sorghum transcriptome using single-molecule long reads[J]. Nature Communications, 2016, 7:11706.

[3] Olson A, Bo W, Ware D, et al. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing[J]. Nature Communications, 2016, 7:11708.

[4] Wang M, Wang P, Liang F, et al. A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulation[J]. New Phytologist, 2017, 217(1):163-178

[5] Ning G, Cheng X, Luo P, et al. Hybrid sequencing and map finding (HySeMaFi): optional strategies for extensively deciphering gene splicing and expression in organisms without reference genome[J]. Scientific Reports, 2017, 7:43793.

图片来源于网络|侵删

Nature methods丨基于Nanopore的direct RNA测序方法测评,你要不要来试试?

本周一,Nature Methods在线发表Oxford Nanopore direct RNA测序技术测评文章,结果表明,【不经反转、无须扩增的RNA直接测序】能获得全长的链特异性RNA,无测序偏好性,并同时记录碱基修饰,为后续研究基因结构和基因表达,提供新技术新方法。

direct RNA建库测序

提取样本RNA(该实验样本为酵母Saccharomyces cerevisiae),在建库时先后加上poly(T) 接头和测序接头,于Oxford Nanopore测序仪上机测序(该研究中试剂版本:R9.4,测序机型:MinION。未来组以更新款GridION X5机型搭建测序平台,通量更高、base calling更快)

 Fig.1 direct RNA测序的建库示意图

测序“raw data”展示

Fig.2 展示的是一段带接头序列的~1500-nt的转录本通过测序纳米孔时记录下的电流变化。可以看出测序的顺序是:接头序列→poly(A)→转录本主体。随后对电流变化进行算法识别,重构转录本序列。

当一条转录本完全经过后,纳米孔又重归开放状态,可以迎接下一条RNA的到来。

Fig.2 RNA分子经过纳米孔时记录下来的电流变化

对direct RNA测序进行测评

1. 与参考转录组数据比对

构建3个数据集:direct RNA在Nanopore测序;反转成cDNA用Nanopore测序;反转成cDNA用Illumina测序。

将测序reads比对到酵母参考转录组,比对情况如下:

2. 三个数据集之间两两比对

随后,对三个数据集对同一条转录本的reads支持情况进行了比较,结果显示相关度很高。

 Fig.3 支持每条转录本所对应的reads数量,两两间比对

   (n = 6,531 transcripts,每条转录本至少有一个数据集中的read支持)

3. 对参考基因组覆盖度的评估

将direct RNA 和 Illumina cDNA测序reads比对到参考基因组上,计算reads对基因的比对情况和覆盖度(Fig.4),direct RNA比对上的reads数量为2,045,748 (63.43%);Illumina RNA-seq reads比上的数量为708,592,030 (98.22%)。direct RNA 和 Illumina cDNA测序reads在对基因的覆盖方面,相关度很高(Spearman’s rho = 0.73,Fig.5)。

Fig.4 direct RNA和Illumina cDNA测序,比对到参考基因组的覆盖度

外圈:参考基因组;中圈:direct RNA;内圈:Illumina

Fig.5 direct RNA和Illumina cDNA测序,支持每个基因所对应的reads数相关性比较

n= 6,692 genes)

4. 对基因识别准确度的评估

该研究以酵母中的两个同工酶GAPDH基因为例,它们位于基因组不同的位置,编码同一个酶的不同形式,其编码序列有95.8%是完全相同的,仅有42个不同位点的碱基差异。基于以往二代测序是很难将短reads准确地mapping回参考基因组的。而在direct RNA测序中,该区域每条reads能覆盖这42个差异碱基中的大部分,即便有少量位点读取错误,也不影响将reads准确地mapping到对应的基因(Fig.6)。

Fig.6 direct RNA测序reads mapping到两个同工酶GAPDH基因的结果

5. 实验可重复性的评估

另外还对同一个样本构建了5个不同的文库分别上机测序,技术学重复结果相关性高(Spearman’s rho = 0.94–0.96;n= 6,713 transcripts),表明文库构建和上机测序实验重复性好。

6. 测序偏好性的评估

文章利用外源标准ERCC样品(The External RNA Control Consortium)评估预期和实际的测序读长及测序丰度,结果显示高度的一致性,Spearman’s rho = 0.93, P = 1.9 × 10−40, n = 92 ERCC transcripts(Fig.7a),说明direct RNA测序对转录本的长度没有偏好性。Fig.7b、c评估了对ERCC RNA的覆盖完整度,大部分reads对转录本的覆盖完整度都接近1.0,说明direct RNA测序大部分reads都是测的转录本全长。从Fig.7c还可以看出,direct RNA获得的是链特异性的RNA序列,这对进一步准确获得基因结构及基因表达信息有重要的意义。

Fig.7 测序外源标准ERCC RNA样品,评估direct RNA测序偏好性

7. 碱基修饰直接识别

Direct RNA测序能在读取RNA碱基序列的同时获得碱基修饰信息。Fig.8以两种常见的碱基修饰m6A和5-mc为例,展示了经过修饰的碱基与未经过修饰的碱基,在经过测序纳米孔时引起的电流变化有什么区别。

Fig.8 碱基修饰对电流变化趋势的影响示意图

(a) m6A; (b)5-mc

不经反转、无须扩增的RNA直接测序能获得全长的链特异性RNA,无测序偏好性,并同时记录碱基修饰,为后续研究基因结构和基因表达,提供新技术新方法。

来自Nanopore测序的2个线虫基因组,解析复杂的染色体重排

本文使用Oxford Nanopore 测序技术对秀丽隐杆线虫的两个品型(野生型;带有两个复杂染色体重排区域的突变型)进行了全基因组测序,完善了秀丽隐杆线虫参考基因组,研究突变型中复杂的重排机制。2017年12月,文章发表于Genome Research。

秀丽隐杆线虫的基因组虽然较小(~100Mb),但是含有大量各种类型的重复序列,其中最普遍的是转座元件,占到基因组的12%。线虫转座子的大小一般在1-3Kb,超出了二代测序和sanger测序的读长范围,如果利用这两个技术对基因组进行测序组装,会导致拼接错误,更不用说准确识别染色体重排、大区段插入、缺失等结构变异了。

为了攻克这些用以往的短读长测序技术无法解决的技术瓶颈,研究人员使用Oxford Nanopore MinION,对秀丽隐杆线虫的两个品型进行了长读长测序并分别de novo组装。

亮点

 1.组装完整度、连续性和准确性高

通过~60×Nanopore数据,组装出野生型秀丽隐杆线虫基因组,仅由48个contig组成,N50达3.99Mb,覆盖了参考基因组>99%的区域。

Fig.1 组装出线虫基因组中的contigs与参考基因组有极高的比对一致性

基于长读长优势,Nanopore与二代测序相比,在重复序列区域具有更好的跨越性,能更准确地识别重复元件,完善了参考基因组中>2MB的序列。

Fig. 2 (A)高测序深度的区域可能与重复序列相关

(B)通过重复区域测序深度与全基因组测序深度的比较,分析重复区域contigs组装的准确性

(C)长的测序reads跨越重复序列,增强了contigs组装连续性

原始测序数据准确度~86%,原始canu组装contig单碱基准确度~98%,经二代数据4Xpolish校正后最终达99.8%。

2.研究突变系中复杂的重排机制

1)II号染色体上xpf-1(e1487)区域重排

该突变由乙醛诱变产生,在xpf-1有复杂的重复和插入引起的重排。

Fig.3左侧纵坐标处为野生型线虫的xpf-1模型,右侧纵坐标为mab-3(~20kb)模型。诱变系的xpf-1重排区域中,复制了mab-3,并将其分2段插入到xpf-1的第二个外显子中(Fig.3中蓝色)。另外,插入片段中较大的那一部分,与xpf-1第二个外显子的一部分侧翼一起,再次发生了复制并形成倒转(Fig.3 中绿色和红色)。

Fig.3诱变系线虫Ⅱ号染色体上重排区域(xpf-1)示意图

以往的研究只能以寡核苷酸阵列、RT-PCR、反向PCR等技术对该诱变系的染色体重排模型进行预测。而在本研究中,借助Oxford Nanopore全基因组测序,组装出的一个单独的contig(contig017)包含了完整的xpf-1(e1487)重排区域,从而进行更准确地诠释

2)Ⅲ号染色体上ruIs32区域,外源质粒插入重排

该突变是由基因枪转入的两个质粒引起的基因片段插入。

通过组装的contig1884(Fig.4横坐标)与质粒pAZ132和unc-119的结构(Fig.4纵坐标)进行共线性比对。结果显示,转基因造成的插入,共包括3个拷贝的Ppie-1::GFP::H2B::pie-1和2个拷贝的unc-119(+)(局部)。

Fig.4 contig1884与质粒pAZ132和unc-119间的共线性分析

3.组装出了2个细菌基因组完成图

顺便提一下,研究人员在组装线虫基因组的同时,还装出了2个完整的细菌基因组(Fig.1中的contig14和20),经过比对数据库分析,认为细菌来源于线虫培养基,在提取线虫DNA时未被去除。

这提醒我们,如果是de novo组装基因组,尤其是小型动物,昆虫等物种,须尽可能减少环境微生物和肠道微生物的影响。

当然这也给了我们另一种启示,可以用Oxford Nanopore 技术研究微生物与宿主间的共生关系,研究一个物种的内外微环境等等。

本文利用Oxford Nanopore测序技术提升了线虫参考基因组组装指标,通过de novo组装研究了突变型线虫基因组的复杂染色体重排。另外我们还可以借助该技术的长读长优势,进行群体间(不同表型间),亚种间(例如不同品种的玉米),种间(例如研究在基因组加倍化事件后趋异的染色体重排,进行物种进化起源分析)等,各水平的比较研究

【未来组项目文章】绘制杜仲基因组精细图,探究杜仲的异戊二烯生物合成及环境适应机制

关于杜仲(Eucommia ulmoides)

杜仲是我国特有的、除三叶橡胶外世界上具有巨大开发前景的优质天然橡胶树种和名贵药用树种,国家二级保护野生植物。杜仲能耐严寒,成株在-30℃的条件下可正常生存,张家界、神龙架都有分布。获得高质量的参考基因组,解析杜仲环境适应及杜仲胶生物合成机制,对研究杜仲的起源和进化,遗传改良具有里程碑意义。

2017年11月,中国林业科学研究院经济林研究开发中心乌云塔娜团队、杜红岩团队,联合中国热带农业科学院橡胶研究所李德军团队及山东贝隆杜仲生物工程有限公司高瑞文团队合作完成耐寒橡胶树-杜仲基因测序和转录组研究,相关成果在线发布于《Molecular Plant》。

未来组在本项目中负责完成基因组测序、Bionano辅助拼接,基因组组装、基因注释和转录组测序分析等部分的工作。

材料与方法

基因组

神农架野生杜仲叶

二三代混合测序并BioNano辅助组装,转录组辅助基因组注释

转录组

同一棵杜仲不同生长发育时期的叶和果实进行RNA-Seq

结论

基因组组装和注释

预估基因组大小1.1Gb,组装基因组大小1.18Gb,重复序列~61%,杂合度0.8%,

Scaffold N50:1.88 Mb,注释了26,723个蛋白编码基因。

通过转录组数据、ESTs数据比对,以及CEGMA和BUSCO分析评估组装基因组的完整度和准确度,结果表明基因组组装效果good。

基因组起源和进化分析

通过分析单拷贝基因,构建杜仲与14种植物的系统发生关系(Fig.1),研究表明杜仲与真菊I类和II类的分化时间可追溯到约在一亿两千九百万年前。

Fig.1杜仲遗传起源

通过同义替代突变分析(Fig.2左),以及与3个已知物种(葡萄发生过1次基因组倍增,番茄发生过2次倍增,猕猴桃发生过3次倍增)进行共线性关系比较(Fig.2右)得知,杜仲仅经历了一次古老的基因组三倍化事件,无近期基因组复制发生。

Fig.2杜仲基因组倍增事件分析

影响环境适应性的基因

杜仲是从历经了白垩纪存活下来的活化石,有着极高的抗逆性,文章对杜仲的环境适应性相关基因进行了分析,筛选了与环境耐受性和次生代谢相关的扩张基因。

杜仲的生物胶合成

通过RNA-seq分析同一棵杜仲不同生长发育时期的叶和果实中杜仲胶合成相关基因的表达水平,并结合这些样本中生物胶的含量检测,得出结论:杜仲中生物胶的前体物质异戊二烯焦磷酸(IPP)可能主要来自甲瓦龙酸途径(MVA途径)(Fig.3)。

Fig.3与杜仲胶相关的基因、代谢通路和表达谱分析

杜仲胶由反式聚异戊二烯(TPI)形成,橡胶树橡胶由顺式聚异戊二烯(CPI)形成。小橡胶颗粒蛋白(SRPP)和橡胶延长因子(REF)被推测与生物胶合成相关,在杜仲和橡胶树中,REF/SRPP基因家族都存在显著扩张,而与橡胶树SRPP和REF基因同时参与CPI合成不同,在杜仲中只有SRPP基因参与TPI合成,REF基因皆为低表达甚至无表达(Fig.3)。

法尼基焦磷酸合酶(FPS)是生物胶合成途径中的一种关键酶,杜仲FPS基因家族存在扩张并出现功能分化,产生了具有反式长链橡胶合成功能的II类FPS基因(Fig.4 a)。进化分析显示,杜仲和橡胶树的REF/SRPP基因家族成员属不同分支(Fig.4 b)。

Fig.4 FPS/REF/SRPP基因家族系统发育分析

研究人员综合分析结果,绘制了橡胶树橡胶(顺式聚异戊二烯,CPI)和杜仲胶(反式聚异戊二烯,TPI)合成途径及关键酶(Fig.5),推测双子叶植物中橡胶生物合成为多起源。

Fig.5杜仲和橡胶树的产胶生物途径比较

中国林业科学研究院经济林研究开发中心等研究团队首次获得了杜仲高质量基因组序列并解析了杜仲环境适应及胶生物合成机制,对杜仲生物学研究、良种培育、种植及产业链形成具有重要意义。

PacBio长读长测序和BioNano光学图谱技术的引入,对杜仲基因组的组装连续性有了很大的帮助。未来组拥有Sequel、Nanopore、BioNano及Hi-C等平台,同时搭载天河二号和阿里云服务器,在承诺高标准交付指标的同时,将进一步大幅压缩项目服务周期,为合作伙伴提供专业优质的服务。

参考文献

Wuyun T,Wang L,Liu H,et al.The hardy rubber tree genome provides insights into the evolution of polyisoprene biosynthesis[J].Molecular Plant,2017.

Oxford Nanopore丨人转录组direct RNA测序数据首发

继基于Oxford Nanopore测序技术的人全基因组数据发布后,人转录组RNA直接测序数据也已于2017年11月30日在github上发布[1]。此前已为大家分享过全基因组数据分析结果(Nanopore测序组装人类基因组初探),今天组学君为大家呈上Nanopore除了ultra-long reads之外另一个amazing的创新点–direct RNA测序应用于人转录组的研究。

材料:GM12878人细胞系RNA
方法:1. direct RNA 测序30 flowcells(建库测序方式见如下示意图)

2. 反转成cDNA测序12 flowcell

测序平台:Oxford Nanopore MinION

结论

01

direct RNA测序能够评估poly-A的长度

poly-A的长度属于可变聚腺苷酸化(APA)的一种,可能与mRNA的稳定性和3’UTR区参与基因表达调控机制相关[2],Nanopore direct RNA测序能够评估poly-A长度,为研究3’UTR区的重要生物学意义提供一种新方法。

通过在Nanopore direct RNA测序时添加已知参照物SIRV,并对其进行polyA长度分析,中值在20-30nt之间,与预期相符,说明使用Nanopore direct RNA测序评估polyA长度的方法有着很高的准确度。

02

direct RNA测序能完整重构isoform,为研究可变剪接、融合基因提供基础

发布数据的链接中[1],展示了利用Nanopore技术测序对人转录组中Dystonin gene和p53gene进行外显子连接和isoform重构。

03

direct RNA测序能直接检测RNA表观修饰

RNA的表观修饰研究的兴起,可能也就是近5年的事情,gold rush才刚刚开始[3]。与以往其它技术不同,direct RNA测序能够直接将RNA表观修饰的信息以电流变化信号记录下来,通过相关算法来识别。发布数据的链接中[1],展示了在E. coli 16s rRNA中检测到m7G 和假尿苷修饰的证据。

研究人员期望通过direct RNA测序将RNA所有的表观修饰准确地检测出来,包括tRNA。

参考文献和链接

[1]https://github.com/nanopore-wgs-consortium/NA12878/blob/master/RNA.md

[2]Subtelny, Alexander O., et al. “Poly (A)-tailprofiling reveals an embryonic switch in translational control.” Nature508.7494 (2014): 66-71.

[3]Willyard, Cassandra.”An epigenetics gold rush: new controls for gene expression.” Nature542.7642 (2017): 406-408.

[未来组项目文章] 三代萤火虫基因组文章发表

萤火虫可以通过发光细胞中的荧光素和ATP,在荧光素酶的催化作用下,与氧发生化学反应,形成氧化荧光素并且发出荧光。萤火虫发出的荧光是一种冷光,其发光效率可高达98%左右。

萤火虫可以利用荧光的闪烁节奏形成特定的闪光信号,主要用来吸引异性交尾,偶尔也起一定的警戒作用。这种行为与蟋蟀鸣叫,蝴蝶起舞等类似,都可归为求偶行为,因为场面过于浪漫,被人们赋予更多诗意。

夏夜、繁星,微风吹拂,蒲扇轻摇,流萤如一盏盏悬空点燃的小灯笼,舞动出独属夜的宁静和美妙。然而,这些可爱的小精灵如今却难觅踪迹。萤火虫家族急速缩减,有几个主要原因:一是过度砍伐森林或过度景观开发导致萤火虫栖息地被直接破坏;二是光污染;三是农药的使用;四是水污染。

2016年4月,未来组联合中国最权威的萤火虫自然保护研究中心——守望萤火,共同启动对萤火虫的基因组测序研究。依托守望萤火研究中心多年的物种保护和研究经验,对萤火虫基因组进行深度测序,将有助于我们理解这种萤火虫独特的闪光求偶行为,保护萤火虫生物多样性,进而守望萤火,守护美丽和惊奇。

胸窗萤(Pyrocoelia pectoralis)

胸窗萤基因组大小预估为785Mb,杂合度在2%-3%,有约>40%属于重复序列,这些特性都是构建参考基因组过程中需要面临的困难。

Fig.1 基因组survey k-mer分析图

未来组通过高深度的PacBio测序,加上二代数据校正,以及去除组装基因组冗余,最终构建高质量的参考基因组(760.4Mb),覆盖预估基因组大小的96.9%,contig N50=3.04Mb,是迄今为止除了模式动物果蝇之外,基因组组装连续性最高的昆虫基因组,经过BUSCO评估基因完整性很好(Table 1)。

通过转录组reads和注释的unigenes评估基因组注释情况,有98%的unigenes可以比对到基因组上(Table 2)

未来组为构建高杂合高重复序列的复杂昆虫基因组,搭建个性化work flow(见后图),据此获得的高质量的萤火虫基因组,为进一步研究荧光的产生,特殊的求偶行为提供基础。

work flow

基于Nanopore测序的结构变异分析【染色体碎裂病例解析】

基因组结构变异(structural variation),包括倒位、易位、重排、拷贝数变异等,影响基因组的稳定性、相关基因的表达调控,进而决定物种表型。研究基因组结构变异对分析动植物的进化起源,遗传育种和人类的健康及优生优育有着重要的意义。

在二代测序时代,1 kb~3 Mb亚显微水平的基因组结构变异一直受限于测序技术的短读长,无法得到准确地解析。进入到三代测序时代后,测序读长由几百bp上升到数十Kb以上,终于为基因组结构变异检测分析提供了更好的选择。

目前新兴的Nanopore测序技术,更是将最长读长提升到1Mb,研究人员遂将其应用到结构变异检测分析领域,以期更优质的表现。以下为大家解读这篇11月初发表在Nature Communications,基于Nanopore测序数据分析病人染色体碎裂重排病例的论文。

文中的两个病例(以下简称P1,P2)属于先天性发育不良,在2,7,8,9号染色体上发生了染色体碎裂重排(chromothripsis rearrangements),从核型分析(P1)可以看到9号染色体上的一段序列插入到了2号染色体中。

Fig.1 P1的核型分析

研究人员对P1和P2进行了低深度的Nanopore全基因组测序(11-16×),建立起基于Nanopore测序数据进行结构变异分析的pipline:NanoSV(Fig.2),同时以Illumina数据进行对比,构建基因组SV图谱(Fig. 3),对比了Illumina和Nanopore多种SV检测算法,并对P1的双亲进行了Illumina测序,用以后续进一步phasing。

2SV检测

基于Illumina测序数据,从P1中能检测到40个de nove染色体碎裂重排,并得到了PCR和Miseq验证(Fig.3),而基于Nanopore测序数据进行NanoSV分析,也检测到同样的SV,优于其它算法,如Lumpy, Sniffles(Fig.4)。

Fig.3基因组SV图谱

Fig.4 Illumina及Nanopore多种SV检测算法比较

在P2中,Illumina检测到29个de nove染色体碎裂重排,而NanoSV检测到24个,为了找到NanoSV为什么会 “miss” 掉5个SV的原因,研究人员进行了一代验证,原因可能是因为染色体发生了非常复杂的多位点断裂重排(Fig.5),而Illumina数据并未能准确地还原整个过程。

Fig.5 复杂的多位点断裂重连位点图例

对比Nanopore和Illumina的覆盖度受基因组GC含量的影响,发现Illumina存在很明显的GC bias,而Nanopore的测序覆盖度受GC含量的影响较小。

Fig.6 Nanopore与Illlumina测序的GC偏好性比较

总得来说,基于Nanopore数据的NanoSV分析复杂的基因组结构变异,准确度高,与二代相比GC 偏好性低,属于更优质的选择。以下为基于NanoSV分析P1 染色体碎裂重排的详细图解,在确定重排序列的顺序和方向方面,比Illumina更胜一筹(Fig.7)。

Fig.7 基于NanoSV分析P1染色体碎裂重排的详细图解

1Phasing

在二代测序时代,无法准确地区分等位基因,对SV变异也无法得知来自哪个亲本。而现在,借助于Nanopore测序的超长读长,通过更好的overlap关系,能更好地进行phasing。本文中,研究人员建立了一个pipline,通过结合分析Illumina数据的杂合SNPs和Nanopore reads,比对回亲本参考序列,准确地证实P1中的染色体碎裂起源于父亲(Fig.8)。

Fig.8  染色体碎裂中断裂重连的phasing

最近流行的Nanopore测序技术,最长读长高达1Mb,长读长在结构变异检测分析领域优势明显,不仅能灵敏地检测到结构变异,更能准确分析出重排的顺序、方向,还有助于探寻变异来源。

参考文献

MJ van Roosmalen, MC Stancu, I Renkens, et al. MappingAnd Phasing Of Structural Variation In Patient Genomes Using NanoporeSequencing[J]. Nature Communications, 2017