我有四倍体咖啡,你有科学故事吗?(全长转录组文献解读-Gigascience)

多倍体化事件增加了基因组的复杂性,帮助克服极端环境,是推动植物进化的主要动力,在物种的演化过程中起了举足轻重的作用。然而多倍体物种的转录组分析,长久以来受限于二代测序读长偏短,不仅无法准确重构转录本,更无力探究各亚基因组间的isoform结构差异及基因如何选择性保留。

自PacBio全长转录组测序不断普及,以及高粱和玉米两篇全长转录组文献高调亮相Nature Communications引起广泛关注,研究人员开始尝试将这种新技术应用到多倍体物种的转录组研究中,以下是几篇多倍体物种PacBio SMRT 全长转录组文献统计,供大家参考。

本次为大家解读四倍体阿拉比卡种小粒咖啡(2n=4x=44)全长转录组文献[3],感受“全长转录组测序让多倍体物种isoform重构和亚基因组phasing不再是难题”。

阿拉比卡种小粒咖啡(Coffea arabica)为世界上最为广泛种植的咖啡品种,是由C.canephora和C.eugenioides杂交并基因组加倍形成的异源四倍体,其两个祖先种在味道、咖啡因含量、生存环境等方面有着显著的差别。C. arabica虽风味口感优质但对种植环境要求高、抗病虫害能力较弱,因此研究亚基因组基因表达调控,利于培育不仅美味而且更易种植的品种。

1材料与方法

随机选取Coffea arabica var. K7品系的不同植株,不同部位,不同发育阶段共计450 个果实。经样本前处理、RNA提取,反转成cDNA后,根据PacBio Iso-Seq protocol,分片段构建Pacbio RSⅡ文库并测序。(目前新一代PacBio Sequel测序仪可构建不筛分片段的转录组文库,更接近真实地还原物种转录本片段分布情况)

通过转录组注释、同源基因比对、候选基因筛选等一系列生物信息分析,筛选出与咖啡因、蔗糖合成相关的基因的isoforms,并与相关数据库比对。

2研究结果

咖啡因合成途径中isoform多样性

咖啡因的合成途径前期已有广泛的研究,已有比较完善的数据库提供候选基因和编码序列信息(转录组和基因组数据都有),在这篇四倍体小粒咖啡的论文中,研究人员找到了10个可能与咖啡因合成相关基因的高质量isoforms,并且发现这些isoforms都发生了5’非翻译区延伸。

Table1 咖啡因合成途径相关候选基因注释,isoforms及5’非翻译区延伸情况

这10个isoforms中,有9个比基因组DNA序列长,而有一个isoform可能因为发生了可变聚腺苷酸化(APA)而短于基因组DNA序列(Fig.2 c),在3‘UTR检测到2个潜在的APA信号(Fig.2 d)。

Fig.2 一个isoform(c25904/f2p0/977)可能因APA事件而短于基因组DNA序列

这些咖啡因合成相关的基因也存在可变剪切现象(AS),以下为DXMT2基因内含子保留AS示例(Fig.3)。

Fig.3DXMT2基因内含子保留AS示例

异源四倍体小粒咖啡转录组的isoforms表现出较明显不同的亚基因组来源,通过与已发表的祖先种之一C. canephora的转录组数据进行比对,XMT1、MXMT1、DXMT2基因的isoforms与C. canephora的isoforms有较好的一致关系,表示这些isoforms可能来源于C. canephora亚基因组;相反,XMT2、MXMT2、DXMT1与C. canephora的isoforms比对率不高,表明他们可能来源于另一个C.eugenioides亚基因组。

通过重构isoform初探复杂多倍体亚基因组的基因表达

通过PacBio 全长转录组测序,可准确地重构小粒咖啡的转录本信息,以蔗糖合成途径中非常重要的基因SS1为例,研究人员发现了9个转录本异构体,包括替换、缺失、内含子保留等多种可变剪接形式。

Fig.4 蔗糖合成相关基因SS1多种可变剪接形式

随后,同样通过与祖先种之一C. canephora的转录组数据进行比对,分析比对率和相同的核苷酸变异(Fig.5),以此推断单个isoform来源于哪个亚基因组。例如Fig.5中第1行(标黄)为祖先种之一C. canephora SS1基因序列,将小粒咖啡的多个isoforms的一致性序列与其进行比对,第2-5行的isoforms与C. canephora表现出高度的一致性,并共同在3,726 bp处有一个A-G的碱基替换,与第6-10行相比,在3,707bp、3,733bp处有着同样的inset、在3,713bp、3,715bp处有着同样的碱基替换,以此将isoforms的来源区分开。

Fig.5 SS1基因多个isoforms一致性序列中的碱基变异比较

第二个有力的证据是,第6-10行的isoforms与C. canephora相比较,在内含子10区域,有着更高的变异。

另外还可以通过等位基因加以佐证。

可变剪接、可变聚腺苷酸化、5’UTR延伸、亚基因组拷贝数这些因素的综合作用,形成了转录本的多样性,本文以咖啡和蔗糖合成途径相关基因为例,以PacBio SMRT长读长测序为技术手段,完成四倍体小粒咖啡 isoforms重构和亚基因组复杂、多样的基因表达研究,为其它多倍体物种基因表达调控研究提供参考。

未来组凭借率先引进PacBio Sequel平台的优势,已完成十余个多倍体动植物转录组测序分析,在多倍体物种isoforms重构和亚基因组phasing方面经验丰富。

引用文献

[1]Clavijo B J, Venturini L, Schudoma C, et al. An improved assembly and annotation of the allohexaploid wheat genome identifies complete families of agronomic genes and provides genomic evidence for chromosomal translocations[J]. Genome research, 2017, 27(5): 885-896.

[2]Wang M, Wang P, Liang F, et al. A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulation[J]. New Phytologist, 2017.

[3]Cheng B, Furtado A, Henry R J. Long-read sequencing of the coffee bean transcriptome reveals the diversity of full-length transcripts[J]. GigaScience, 2017.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注