Plant Journal| 如何通过全长转录组发表一区文章?异源多倍体应用实例

三代全长转录组在动植物转录本水平的研究优势越来越明显,然而基于全长序列得到的完善的转录本结构,如何发表一篇高质量文章还值得不断探索。由于高重复、高杂合性以及二代测序技术的局限,大量多倍体物种的转录组信息还没有完全且准确的挖掘出来,尤其是在可变剪接(Alternative Splicing,AS)和可变多聚腺苷酸化(Alternative Polyadenylation,APA)方面,蕴藏着复杂的转录后调控机制,通过对转录本结构的全面解析,有助于深入研究多倍体物种的基因功能和品系优势。

近日,农业部油料作物生物学与遗传育种重点实验室刘胜毅课题组联合湖北大学,在the Plant Journal杂志在线发表题为“A global survey of the transcriptome of the allopolyploid Brassica napus based on single molecule long-read isoform sequencing and Illumina-based RNA-seq data”的研究文章。本文结合了三代测序技术(Pacbio)和二代测序(Illumina),在转录本水平上探索甘蓝型油菜Brassica napus转录组的复杂性。这些数据提供了丰富的转录组资源,这将有利于基因组的重新注释,加强我们对B. napus转录本的了解,并应用于功能基因组的进一步研究。童超波研究员为通讯作者,姚胜黎为第一作者,希望组梁帆为共同作者。希望组参与了本文中的PacBio测序和分析工作。

研究思路

选择甘蓝型油菜栽培种“ZS11”,取不同发育时期的叶片、根、花芽、角果、愈伤组织等,提取总RNA后等量混合进行三代测序(Iso-Seq),各样本分别进行二代转录组测序。三代测序选用PacBio RS II平台,构建4个文库,共测31cell0-1 kb 5cell1–2 kb 10cell2–3 kb 10cell>3 kb 6cell。二代测序选用HiSeq 4000 平台,每个组织部位2-3个重复,共测123M reads

主要结果

1    特征数据统计

三代数据共得到1161468个ROI,其中72.2%是全长非嵌合序列。47%的全长序列唯一比对到基因组,三代测到的转录本平均长度为2487 bp,明显长于基因组上已有注释的转录本平均长度。矫正后,单碱基错误率降至 1.50%( 0.26% insertions, 0.27% deletions and 0.97% mismatches),校正后,BUSCO比对的完整性提升到83%。

转录本平均长度

2    已有数据横向比较

将Ensembl Plants Database中已有的cDNA序列与本次测得序列比较,数据库中的26346个序列与PacBio测得的63714个序列匹配上,且PacBio测到的全长cDNA更长。将非冗余的147698个转录本和之前已经测序的Darmor-bzh进行比较,发现有142476个转录本能够覆盖到37403个基因位点,其中31392个基因位点是多外显子基因。未比对上这个基因组的5222个转录本中,有4947个转录本可以比对到近源物种(拟南芥,白菜,甘蓝),这表明有些转录本可能是栽培种ZS11特有的。

 

3    可变剪接

共检测到222061个可变剪接事件,来自15068个基因位点,主要是内含子保留(IR),其中128967个转录本是现有基因组上未注释到的。统计显示,20230个多外显子基因有用多个剪接异构体,其中5761个基因能够产生5种以上异构体。比如,BnaC01g03120D在基因组注释上仅有1个转录本,但是PacBio测到了14个不同的剪接异构体。另外发现,可变剪接在An亚基因组中更为普遍。

2  BnaC01g03120D转录本可视化

4   LncRNA鉴定及验证

鉴定到20个已知lncRNA,529个新lncRNA,平均长度1.7 kb,lncRNA具有明显组织特异性。两个亚基因组中的同源基因分别产生了54和53个lncRNA,结果表明两个亚基因组的贡献是相等的。

各样品中lncRNA的表达量

5    APA分析

分析poly(A)位点的侧翼序列,发现上游富集尿嘧啶(U)和下游富集腺嘌呤(a)的核苷酸偏好明显。在polyA的上游,我们鉴定到了两个保守的加A信号,AAUAAA和UGUA。从两个亚基因组得同源基因对中分别鉴定到13812和14184个poly(A)位点,3299和3522个APA基因。An亚基因组的同源基因对polyA位点产生的贡献小于Cn亚基因组的同源基因。

4  MEME分析转录本中的poly(A)信号

6   转录本水平定量
以愈伤组织作为参考,和其他组织两两比较,探究温度、组织对AS的影响,结果显示大多数AS差异事件在HS-callus VS callus中被识别,说明环境因素对AS事件的影响大于组织分化。热处理愈伤组织后,发生特异性AS的基因主要与膜外壳、蛋白靶向、转录因子活性、定位、温度刺激响应和细胞过程的正向调控有关。

各组间差异AS事件统计

亮点总结

  • Ø  将测序数据分别与现有数据库、近源物种比较,锁定品系特有基因集,为品种优势研究奠定基础;
  • Ø  将ROI比对到不同的亚基因组上,区分不同亚基因组对AS、APA和lncRNA的贡献度;
  • Ø  针对AS、APA和lncRNA进行大量的RT-PCR验证;
  • Ø  二代定量和三代定性相结合,引入科学问题“温度、组织对AS的影响程度”,通过组间比较找到关键影响因素和相关基因。

希望组最新引进Sequel II,拥有成熟分析流程,更多方案设计和前沿资讯,欢迎垂询!

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注