国内首篇全长转录组新鲜出炉(三代测序那些事儿 第七期)
2015年4月21日Wiley旗下知名植物学期刊The plant journal 接收了中科院药植所的一篇丹参(Salvia miltiorrhiza的文章,国内首篇全长转录组文章也就此诞生(国际上首篇全长转录组文章2013年10月份发表在Nature Biotechnology上[1])。
趁着文章刚出来的那股新鲜劲儿还没过,小编今天就趁热打铁,从专业的角度麻利儿的为大家解读一下这篇号称国内首篇全长转录组的文章。
首先文章做的东西不多,但发了The plant journal,不要眼红,谁让人家用了最新的测序技术抢了国内首篇的头衔。
研究思路
文章的大体思路是从mRNA水平关注丹参中丹参酮(tanshinone)合成途径:
1)借助NGS测序平台Hiseq 2500 检测丹参中与丹参酮合成途径(MEP & MVA)相关的mRNA转录水平,并进行差异表达、共表达等分析;
2)利用三代测序平台 PacBio RSII (P4C2试剂)测序得到的 Isoform (准确的单条转录本信息)进行可变剪接(Alternatively splicing)分析,尤其关注参与丹参酮合成途径相关基因(CYPs、SmCPS1等)。
研究方案
取样:丹参酮一般认为产生于丹参根部周皮部(因此根部表现为棕红色),研究分别取了根部的周皮(periderm)、韧皮(phloem)、木质部(xylem)部3种类型的根部组织进行了mRNA测序。
测序:
Hiseq2500部分:3种类型根部样本各设置3个生物学重复,总共9个样本,每个样本产生~5G rawdata 。
PacBioRSII部分:3个样本混合测序,建<1kb、1-2kb、2-3kb、>3kb 四个 SMRTbell 文库,总共产生~4.8G raw data ,~79万 subreads(96%mapping 到了丹参参考基因组上), 根据 ployA 、5 端引物、3端引物信号,筛选得到~22万条全长转录本(full-length reads)。
分析:
1)PacBio数据原始错误率较高 (~15%) ,因此研究者使用了~50G的 Hiseq 2500 数据对 PacBioRSII 平台所产生的 subreads 进行了校正,校正算法为 2012 年 AU 等人发表的 LSC 算法。得到校正后的 subreads 后,再使用 Isoform 识别预测软件 IPD 预测得到了16,241个高质量非冗余 isoform。
2)基于Hiseq2500产生的mRNA数据的差异表达分析中研究者发现了在根部周皮部(periderm)特异表达与者高表达(相较于韧皮、木质部)的丹参酮合成相关基因 SmCPS1、SmKSL1、 GGPS、 IPI、 CYP 等;共表达分析还发现了丹参酮合成相关基因ODDs与SDRs的共表达模式。
3)最后研究者使用得到的16,241个高质量的Isoform进行了可变剪接分析(SpliceMap软件),结果显示,21%的基因发生了内含子保留 (intron retention),4%发生了外显子跳跃 (exon skipping),18%发生了5,剪切 (alternative 5 splice),39%发生了3,剪切(alternative 3 splice),其中包含一些丹参酮合成相关基因,比如 SmAACT3 、SmMK、SmPMK等。
目前,国内外已发表的全长转录组文章还不多,7篇左右,国内也就上述一篇,所以各位小伙伴想发这类文章,可得抓紧。
Paper:
[1] Sharon, Donald, et al. A single-molecule long-read survey of thehuman transcriptome. Nature biotechnology . 2013
[2] Au, K.F et al.Improving PacBio long read accuracy by short read alignment. PLosOne. 2012
[3]Tilgner, Hagen, et al. “Defining apersonal, allele-specific, and single-molecule long-read transcriptome.” PNAS. 2014
[4] Kin et al. “Characterization of the humanESC transcriptome by hybrid sequencing”. PNAS .2013
[5]Zhang, Wei, Paul Ciclitira, and JoachimMessing. PacBio sequencing of genefamilies-a case study with wheat gluten genes. Gene .2013.
[6] Treutlein, Barbara, et al.”Cartography of neurexin alternative splicing mapped by single-moleculelong-read mRNA sequencing.” Proceedings of the National Academy ofSciences . 2014
[7] Ganz, Holly H., et al. “NovelGiant Siphovirus from Bacillus anthracis Features Unusual GenomeCharacteristics.” PloS one . 2014
声明:本文原创,转载请注明来源。
发表评论
想参加讨论吗?请尽情讨论吧!