Next系列软件应用 | 白菜近完成图组装为着丝粒的进化提供了新的见解

白菜基因组是芸薹属首个也是使用最广泛的参考基因组,然而,目前的白菜参考基因组(Chiifu v3.0)仍有407个缺口和1.45Mb的相对较短的contig N50,完整的基因组序列信息对于理解基因组结构和进一步促进关键农艺性状的遗传改良至关重要。本研究中,使用ONT测序和Hi-C技术,展示了第一个白菜近完成图,代表了最高的完整性、可靠性和质量,将推动未来芸薹属基因组结构和功能基因的发现。

发表期刊:Plant Biotechnology Journal  
发表时间:2023.01.23

研究思路

研究结果

1.白菜基因组组装  
本研究使用ONT和Hi-C技术对白菜(Chiifu-401-42)进行了测序。使用NextDenovo(v2.5,https://github.com/Nextomics/NextDenovo)进行校正ONT和Illumina读数得到的contig。生成了12个contigs,contig N50为38.26Mb。利用Hi-C数据进行支架构建后,将所有contigs锚定在十条染色体上(图1)。

NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

图1 白菜基因组组装

2.ALECRM LTR对白菜着丝粒的侵袭

序列分析显示,94.23%的着丝粒区域被LTR占据(图2a)。在Chiifu v4.0的这555个着丝粒基因中,17.66%被转录,远低于整个基因组的基因转录比。为了更好地理解着丝粒的远程组织,生成了一个热图,显示了着丝粒上的成对序列身份。结果表明,在Chiifu v4.0中,着丝粒被破坏成着丝粒序列中的不同区域(图2b-c)。值得注意的是,在12个FL-LTR -RTs家族中,539个ALE和281个CRM LTRs在着丝粒的这些侵入区域内的拷贝数显著增加(图2b-c)。这些结果表明,着丝粒主要受到ALECRM LTR的入侵,进一步形成了白菜的着丝粒结构。

图2 白菜参考基因组Chiifu v4.0的着丝粒特征分析

3.白菜基因组着丝粒的多样性

染色体共线性分析表明,在所有白菜参考基因组中,同源着丝粒很少或没有序列共线性。例如,与染色体臂不同,Chiifu v4.0和基因组“A03”之间的着丝粒CentA04几乎没有序列共线性(图3a)。将Chiifu v4.0的其他七个完整着丝粒与基因组“A03”、ECD04和Z1 v2的同源着丝粒进行比较时,也观察到了很小的序列共线性。总之,这些结果表明,在不同的白菜基因组中,着丝粒是高度可变的。

图3 白菜基因组染色体共线性分析

4.快速扩增的LTR驱动着丝粒的进化

作者进一步注释了基因组“A03”、ECD04和Z1 v2中的FL-LTR-RT。在基因组“A03”、ECD04和Z1 v2的着丝粒区域共鉴定出1 001、993和767个FL-LTR-RT,这与Chiifu v4.0的着丝粒中FL-LTR-RTs的数量相似(图3b)。分析FL-LTR-RT在着丝粒中的插入时间表明,在Chiifu v4.0、“A03”、ECD04和Z1 v2中,78.83%-86.04%的FL-LTR-RTs扩增≤0.5 MYA,38.57%-57.78%的FL-LTR-RT扩增≤0.1 MYA。相比之下,在Chiifu v4.0、“A03”、ECD04和Z1 v2的着丝粒中,5.64%-7.86%的扩增>1MYA(图3b)。此外,在Chiifu v4.0、“A03”、ECD04和Z1 v2的着丝粒中分别检测到539、612、605和451个ALE  LTRs和281、261、214和214个CRM LTRs(图3d)。这些发现表明,LTRs是共享的,但在白菜的着丝粒中显示出不同的年龄和拷贝数。

根据最近的一项研究,作者将年龄≤0.5 MYA的FL-LTR-RT定义为年轻LTR,将年龄>0.5 MYA定义为老年LTR。FL-LTR-RTs的年龄分布分析表明,白菜LTR的着丝粒区域丰富(图4a)。Chiifu v4.0中不同染色体区域的LTR插入时间的进一步比较表明,着丝粒中的FL-LTR-RT显著年轻(平均0.14 MYA),比全基因组的FL-LTR-RT(平均0.32 MYA(图4b)。发现Chiifu v4.0中着丝粒中心部分的LTR比着丝粒的其他部分年轻得多(图4c)。此外,在Chiifu v4.0中发现了83个FL-LTR-RT的嵌套插入事件,这些事件远少于黑芥。总之,该结果表明,LTR在着丝粒中快速扩增,这可能会驱动白菜着丝粒的进化。

图4 白菜参考基因组Chiifu v4.0的着丝粒中的LTRs插入时间分析

5.旧的LTRs富集于白菜的近着丝粒

在Chiifu v4.0中比较了外周着丝粒和其他染色体区域之间LTR的插入时间后,作者发现近中心点中FL-LTR-RT的插入时间(平均0.51 MYA)明显比整个基因组的插入时间长(平均0.32 MYA),并且比着丝粒中的插入时间更长(平均0.14 MYA(图4b))。在基因组“A03”、ECD04和Z1 v2中发现了类似的模式(图4b)。比较近着丝粒和着丝粒之间的LTR发现,Gypsy LTRs在近着丝粒富集,而着丝粒富集的CopiaGypsy LTRs更多(图5c-e)。此外,Gypsy LTRs的插入时间(平均0.29-0.38 MYA)显著长于Copia LTRs(平均0.14-0.22 MYA)(图5f),这可能是白菜近着丝粒中LTRs插入时间早于着丝粒的原因。

图5 LTRs富集在白菜的近着丝粒

总之,接近完整的基因组组合,白菜Chiifu v4.0为芸薹属研究界提供了关键的基因组资源,并揭示了白菜中着丝粒的快速进化。这些资源将为阐明芸薹属植物的基因组结构和功能提供坚实的基础。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注