研究全长转录组？建议先看看这几篇文献

基于二代高通量测序平台的RNA-Seq技术在过去几年中得到广泛应用，然而读长限制使其无法得到精确完整的转录本，极大地限制了人们对复杂转录本的深入研究。而基于三代长读长的Iso-Seq技术能测得转录本全长，精确识别各种可变剪切形式，完整重构转录本，为转录组研究奠定【以准确获得转录本结构为前提】的基础。

Fig.1^[1]左图描述了可变剪切的几种形式；

右图示意三代长读长测序能准确识别该基因的2种可变剪接，而二代做不到

下面组学君为大家介绍两篇经典的全长转录组研究论文。什么叫经典？
经典就是前年的文章翻出来仍然能让人眼睛一亮。

经典文章聚焦

1高粱转录组

高粱适应环境的能力很强，是重要的抗非生物胁迫的模式研究体系。尽管目前已完成几种高粱品系的基因组测序，但是其转录组注释仍有待完善。研究者利用Iso-Seq 的TAPIS流程对数据进行评估和分析，结果表明PacBio Iso-Seq测序策略能够测通转录本全长，可鉴定全长的剪接异构体及其他形式的转录后调控事件（如APA），这不仅极大的丰富了高粱基因注释信息，也有助于其基因调控中研究，为转录组研究提供有力的研究工具，该成果于2016年6月发表于Nature communications^[2]。

Fig.2(a)使用Iso-Seq测序分析方法得到的AS数量与已发表的高粱基因组注释的AS数量比较；(b)含有Poly(A)位点个数对应的基因数

研究中发现了共计27,860个转录本，其中11,342(40.7%)是新发现的，7,065个基因(25.4%)是覆盖全长的。9,341个基因(69.9%)只有一种Isoform，约5,200个基因有两个或以上的Isoform，415个基因有5个或更多的Isoform。从Iso-Seq读取序列中，发现了10,053个可变剪接形式，注释了其中7,000个新的可变剪接形式，而其中仅有2,950个已注释（Fig. 2a）。在14,550个表达的基因中，11,013个基因中至少含有一个poly( A )位点，超过7,700个（50%）基因有两个或者更多的聚腺苷酸化位点（Fig. 2b），说明APA现象在高粱转录组中是广泛分布的。研究中还确定了超过2,100个未注释过的新基因以及数千个3’非翻译区不同的转录本，研究者认为大部分新基因为长链非编码转录本。

2 玉米转录组

玉米是全球总产量最高的农作物，也是研究植物转录组代谢通路的重要遗传模型。玉米基因组序列于2009年公布，后来陆续有研究者利用EST和RNA-Seq转录组数据对其基因注释进行了补充。然而由于RNA-Seq短读长的局限性使该方法无法获得全长转录本序列，限制了可变剪接形式的鉴定。

冷泉港实验室等单位利用三代测序技术的长读长优势，获得了玉米的全长转录组，在已有的玉米B73 RefGen_v3参考基因上发现了大量新信息，揭示了玉米基因表达的复杂性，该项研究成果于2016年发表在Nature communications^[3]。

Fig.3 Comparison of PacBio and RefGen_v3 Isoform

PacBio测序数据经处理得到643,330个高质量的转录本序列，其中606,145个序列（94.2%）能够比对到玉米RefGen_v3参考基因组上。经聚类分析得到了111,151个Isoform，对应26,943个基因，涵盖了玉米RefGen_v3中注释基因的70%。其中57% 的Isoform来自已知基因位点的新Isoform；2,803个(3%)新Isoform来自2,253个新的基因位点（Fig.3）。在PacBio Isoform中发现了来自53个家族的新Isoform，转录因子数量增至5,423个。其中155个新Isoform与生长激素应答的功能相关。此外，通过对PacBio数据的进一步挖掘，该研究还发现了867个新的LncRNA(平均读长1.1kb)。

文献读到这，你是否也不禁想，要不要我也把实验材料规整规整，做个转录组研究？稍等，有参考基因组的物种和无参物种，分析流程可是不一样的哦。

别担心，未来组不论是否有参，全长转录组项目经验都很丰富哦，以下为大家介绍2篇未来组项目经验论文，分别是有参异源四倍体棉花转录组和无参矮牵牛转录组。

1.未来组项目-有参异源四倍体棉花转录组分析

未来组参与的异源四倍体棉花全长转录组项目文章于2017年9月见刊New Phytologist^[4]，华中农业大学研究团队基于PacBio测序，并整合Iso-Seq流程开发适用于区分2套亚基因组转录本的分析方法，克服了短读长测序在解析多倍体Isoform的技术瓶颈，揭示了纤维特异性的可变剪接事件，2套亚基因组中部分同源基因的Isoform差异，并在Isoform水平上揭示了miRNA对可变剪接事件的调控，为研究多倍体物种可变剪接提供了新的研究角度。在异源四倍体棉花全长转录组分析中，针对四倍体物种开发了整合性Iso-Seq数据分析流程(https://github.com/Nextomics/pipeline-for-isoseq)（Fig.4）。

Fig.4异源四倍体棉花的Iso-Seq数据分析流程

研究者对多倍体棉花转录组进行分析，经mapping、phasing、clustering、consensus后总共得到44,968个基因，并从中定义了176,849个Isoform。其中全长Isoform平均2,175bp，比参考序列转录本平均1,462bp的长度长。

Fig.5(a)Iso-Seq数据及中检测的全长LncRNA与LncRNA_v1的Venn图;

(b)基因上polyA位点数目分布;(c)polyA剪切点（-50 ~ +50）的核苷酸相对频率

通过与参考序列比对，更新了18,008个基因，确定了222个融合基因，在新的转录本中确定了2,447个LncRNA，与LncRNA_V1比较，确定了365个新的LncRNA(Fig.5a)。在Iso-Seq中检测的44,968个基因中，基因上平均polyA位点数目为2.82(Fig.5b)；同时分析了polyA位点侧翼核苷酸序列，其表现出核苷酸偏向性特征，在3’UTR的polyA剪切点的上游富含U碱基，在下游富含A碱基(Fig.5c)，同时在polyA剪切点上游确定了2个保守的motifs（AAUAAA和UGUA）。

2.未来组项目-无参矮牵牛转录组分析

由华中农业大学园艺林学学院研究团队主导的，未来组参与的全长转录组分析项目文章，2017年3月发表于Scientific Reports^[5]。研究通过结合全长转录组Iso-Seq和RNA-Seq两者优势，针对无参考基因组物种的转录组分析开发了HySeMaFi（hybrid sequencing and map finding）流程，该流程可对基因剪接形式进行挖掘，克服了RNA-Seq中不完善的Isoform重构形式，同时，也可定量Isoform表达，为后续研究提供准确的参考数据。

Fig.6 HySeMaFi 分析流程示意图

基于RNA-Seq和Iso-Seq两种测序策略，开发HySeMaFi分析方法，示意图见Fig.6。在RNA-Seq中，经不同组装方法拼装出所有理论上的Isoform形式（涵盖有真实的Isoform形式），同时在Iso-Seq中经过校正得到A、B两种Isoform。通过比对方法，建立RNA-Seq中 longest molecules（如图中 1）和PacBio corrected reads比对关系，用于后续下游分析，如得到的longest molecules和PacBio corrected reads可用于分析可变剪接形式，PacBio corrected reads可作为参考基因集做后续基因表达分析。

Fig. 7 经HySeMaFi方法全方位确定基因可变剪接形式

PacBio数据经聚类，80% Isoform聚类的cluster含有2个以内Isoform形式，同时也发现100个以上cluster含有50个Isoform形式（Fig.7a）。经HySeMaFi方法得到的转录本，如组装的longest molecules 和PacBio corrected reads，除了可能的外显子对应的基因Isoform外，至少有2,264基因有2个以上可变剪接形式(Fig. 7b)。为验证，以Miseq数据作为query，比对到Hiseq数据的longest Contigs，结果与基因分析中长读长作为数据集的结果一致（Fig.7c 和Fig.7d）。

通过结合RNA-Seq和Iso-Seq，开发的针对无参考基因组的HySeMaFi分析流程，在转录组分析中，可挖掘更多基因可变剪接形式及精确定量Isoform的表达。

基于长读长的转录组研究优势日益凸显，在对已知基因序列的补充注释，新的可变剪接形式分析、APA分析、融合基因和LncRNA的发现中发挥着越来越重要的作用。

未来组的全长转录组学研究，不仅包含PacBio SMRT技术，也已推出基于Nanopore的direct RNA测序技术，开启转录组学研究新纪元（技术详情请见Nature methods 文章关于direct RNA测序的测评解读），我们有丰富的全长转录组项目经验，针对特定项目，对分析流程进行优化，以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1] Park E, Pan Z, Zhang Z, et al. The Expanding Landscape of Alternative Splicing Variation in Human Populations[J]. The American Journal of Human Genetics, 2018, 102(1): 11-26.

[2] Abdel-Ghany S E, Hamilton M, Jacobi J L, et al. A survey of the sorghum transcriptome using single-molecule long reads[J]. Nature Communications, 2016, 7:11706.

[3] Olson A, Bo W, Ware D, et al. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing[J]. Nature Communications, 2016, 7:11708.

[4] Wang M, Wang P, Liang F, et al. A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulation[J]. New Phytologist, 2017, 217(1):163-178

[5] Ning G, Cheng X, Luo P, et al. Hybrid sequencing and map finding (HySeMaFi): optional strategies for extensively deciphering gene splicing and expression in organisms without reference genome[J]. Scientific Reports, 2017, 7:43793.

图片来源于网络｜侵删

研究全长转录组？建议先看看这几篇文献

发表评论

发表评论取消回复

联系我们

关于我们

官方微信公众号

发表评论

发表评论 取消回复

联系我们

关于我们

官方微信公众号

发表评论取消回复