单细胞RNA测序(scRNA-Seq)是分析细胞间异质性的一项关键技术,但是基于短读长的单细胞测序缺乏识别全长转录本的能力,不能开展更深入的细胞间异质性研究,例如可变剪接、基因融合事件等。因此,结合了长读长测序技术的单细胞全长转录组备受瞩目。作为三代测序的引领者,希望组在三代测序技术领域深耕多年,将长读长与单细胞测序技术结合,开发出了完整的纳米孔单细胞全长转录组实验分析流程,打破用三代测序单细胞全长转录组建库起始量高的技术壁垒,并于近日正式推出纳米孔单细胞全长转录组测序分析服务。
希望组纳米孔单细胞全长转录组实测数据
纳米孔单细胞全长转录组测序是将拥有不同标记信息的单细胞反转录成为全长cDNA,随后进行纳米孔 PCR-cDNA全长转录组建库并上机测序。希望组实测数据表明单个PromethION芯片可产出总量约70G的数据,平均reads的质量在9.0-11.0之间,reads的平均长度和N50长度均达到了1.2-1.5Kb (图1)。不管是数据产出还是reads质量与长度,纳米孔单细胞全长转录组都与常规纳米孔全长转录组测序指标相当。
图1 单个Cell 纳米孔单细胞全长转录组数据产出
拆分效率80%以上
接下来是关键的单个细胞数据拆分步骤,具有相同标记的reads将被识别并拆分。每个细胞拆分到的reads数,还与单细胞制备,PCR扩增及文库构建整个实验过程息息相关,稍有差池,就会导致细胞拆分不均匀。希望组测试数据表明,自主研发的纳米孔单细胞转录组的实际拆分率在80%左右(图2),拆分效率良好。
图2 纳米孔单细胞全长转录组部分拆分结果展示
数据质量满足分析需求
图3 纳米孔单细胞全长转录组占比
图4 纳米孔单细胞全长转录组reads与参考序列比对表
使用AlignQC (v2.0.4) 对单个细胞比对结果进行评估,并绘制基因和转录本的饱和曲线(图5),共检测到12,658个基因,其中完整的基因有7,787个,曲线趋近饱和,可进一步用于后续的定量分析。
图5 样本基因和转录本测序饱和度分析
以上实测数据充分表明,纳米孔单细胞全长转录组在数据产量、拆分效率、全长转录本比例以及数据饱和度等方面完全满足后续分析需求!
图6 纳米孔单细胞全长转录组分析流程
可变剪接、isoform定量、细胞分群, 纳米孔单细胞全长转录一网打尽
转录本定量分析,细胞聚类和特征基因筛选
将转录本序列与cDNA 序列比对,使用salmon软件对转录本进行定量分析,得到转录本的表达量,利用t-SNE(t-distributed stochastic neighbor embedding)分析细胞分群(图7)。可根据每个群体的特殊高表达基因与文献中已知细胞类群高表达基因进行对比,定义细胞群体类型,分析样本异质性。例如,对拟南芥根尖组织的研究,在单细胞水平揭示了拟南芥根尖细胞的异质性,描绘了拟南芥发育全景图并重构了根尖分生组织细胞的发育轨迹[1]。
图7 tSNE 细胞分群结果展示
全长转录本鉴定,发现单细胞特异表达基因
图8 isoform结构分类图
精准识别可变剪切,获得单细胞isoform组成
图9 转录本剪切图示。绿色为注释gtf ; 蓝色是ont检测的转录本。该基因长度100K已经能完整检测出已知转录本并识别新转录本。
基因表达量差异以及GO分析
根据多细胞样本中各种细胞类群基因表达量的差异可以绘制热图以及利用GO分析,了解各基因表达所属的生物学过程。例如,利用单细胞转录组测序,系统阐明了人类胚胎性腺中生殖细胞及其微环境细胞发育过程中的基因表达图谱及其调控机理(图10)。
图10 人类女性FGCs的动态基因表达模式[2]。左侧为女性FGCs四个阶段基因表达量差异热图,右侧为男性和女性FGCs的GO分析图。
总之,纳米孔单细胞全长转录组可广泛应用于在细胞图谱及标记基因分类、差异基因分析及机制研究以及细胞内环境与微环境之间关系等研究领域,通过本技术研究者可以发现更多的新基因、新功能,并将为诸如肿瘤、免疫等医学方向及动植物发育生物学等领域提供强有力的研究工具。