Plant Journal| 如何通过全长转录组发表一区文章?异源多倍体应用实例
1 特征数据统计
三代数据共得到1161468个ROI,其中72.2%是全长非嵌合序列。47%的全长序列唯一比对到基因组,三代测到的转录本平均长度为2487 bp,明显长于基因组上已有注释的转录本平均长度。矫正后,单碱基错误率降至 1.50%( 0.26% insertions, 0.27% deletions and 0.97% mismatches),校正后,BUSCO比对的完整性提升到83%。
图1 转录本平均长度
2 已有数据横向比较
将Ensembl Plants Database中已有的cDNA序列与本次测得序列比较,数据库中的26346个序列与PacBio测得的63714个序列匹配上,且PacBio测到的全长cDNA更长。将非冗余的147698个转录本和之前已经测序的Darmor-bzh进行比较,发现有142476个转录本能够覆盖到37403个基因位点,其中31392个基因位点是多外显子基因。未比对上这个基因组的5222个转录本中,有4947个转录本可以比对到近源物种(拟南芥,白菜,甘蓝),这表明有些转录本可能是栽培种ZS11特有的。
3 可变剪接
共检测到222061个可变剪接事件,来自15068个基因位点,主要是内含子保留(IR),其中128967个转录本是现有基因组上未注释到的。统计显示,20230个多外显子基因有用多个剪接异构体,其中5761个基因能够产生5种以上异构体。比如,BnaC01g03120D在基因组注释上仅有1个转录本,但是PacBio测到了14个不同的剪接异构体。另外发现,可变剪接在An亚基因组中更为普遍。
图2 BnaC01g03120D转录本可视化
4 LncRNA鉴定及验证
鉴定到20个已知lncRNA,529个新lncRNA,平均长度1.7 kb,lncRNA具有明显组织特异性。两个亚基因组中的同源基因分别产生了54和53个lncRNA,结果表明两个亚基因组的贡献是相等的。
图3 各样品中lncRNA的表达量
5 APA分析
分析poly(A)位点的侧翼序列,发现上游富集尿嘧啶(U)和下游富集腺嘌呤(a)的核苷酸偏好明显。在polyA的上游,我们鉴定到了两个保守的加A信号,AAUAAA和UGUA。从两个亚基因组得同源基因对中分别鉴定到13812和14184个poly(A)位点,3299和3522个APA基因。An亚基因组的同源基因对polyA位点产生的贡献小于Cn亚基因组的同源基因。
图4 MEME分析转录本中的poly(A)信号
图5 各组间差异AS事件统计
- Ø 将测序数据分别与现有数据库、近源物种比较,锁定品系特有基因集,为品种优势研究奠定基础;
- Ø 将ROI比对到不同的亚基因组上,区分不同亚基因组对AS、APA和lncRNA的贡献度;
- Ø 针对AS、APA和lncRNA进行大量的RT-PCR验证;
- Ø 二代定量和三代定性相结合,引入科学问题“温度、组织对AS的影响程度”,通过组间比较找到关键影响因素和相关基因。
希望组最新引进Sequel II,拥有成熟分析流程,更多方案设计和前沿资讯,欢迎垂询!
发表评论
想参加讨论吗?请尽情讨论吧!