Nature Methods:从序列到结构:RhoFold+深度学习模型实现RNA 3D预测的高效革命
时间:2024-11-25 18:02:11 热度:37.1℃ 作者:网络
引言
近年来,RNA生物学的重要性愈发凸显,特别是在新型疫苗和基因调控技术的突破中,RNA分子展现了前所未有的潜力。然而,RNA的复杂三维结构依然是生命科学领域中最具挑战性的问题之一。其灵活的折叠和多样的构象意味着单凭实验手段难以全面揭示这些分子背后的秘密。科学家们研究人员长期以来努力通过计算手段来补充实验数据,但传统方法在面对RNA结构的灵活性时往往捉襟见肘。RhoFold+的出现,给这一困境带来了新的希望。通过结合深度学习和语言模型的力量,RhoFold+实现了对RNA 3D结构的高效预测,克服了传统方法的瓶颈,为RNA功能和应用的深入研究开辟了新天地。在接下来的章节中,我们将深入探讨RhoFold+的技术原理、模型架构及其在RNA结构预测中的突破性成果。(11月21日 Nature Methods “Accurate RNA 3D structure prediction using a language model-based deep learning approach”)
RNA分子因其高度的灵活性和复杂的折叠模式,给通过实验手段获取其高分辨率的三维结构带来了巨大挑战。尽管X射线晶体衍射、核磁共振光谱(NMR)和冷冻电镜等实验技术在RNA结构解析方面取得了一定进展,但这些方法的高成本、低通量以及对RNA样本的苛刻要求,限制了它们在大规模RNA结构研究中的应用。因此,计算机预测方法成为RNA 3D结构研究的必要补充。
传统计算预测方法主要分为模板法和能量采样法两类。模板法依赖于已有的RNA结构模板数据库,如ModeRNA和RNAbuilder,但其应用受限于数据库中模板的数量和多样性。而“de novo”预测方法,如FARFAR2、3dRNA和SimRNA,虽然具有更强的预测潜力,但因需要大量计算资源进行结构采样,难以有效应对RNA结构的多样性和复杂性。AlphaFold在蛋白质结构预测中的成功激励了研究人员将深度学习应用于RNA 3D结构的预测,但RNA结构数据的匮乏和多样性为这一任务带来了额外的挑战。
RhoFold+的创新与突破
针对上述挑战,研究团队开发了基于语言模型和深度学习方法的RhoFold+,旨在高效、精确地预测单链RNA的三维结构。RhoFold+通过大规模预训练的RNA语言模型(RNA-FM)提取序列特征,并结合深度学习模块,采用端到端的方式实现RNA 3D结构的预测。该模型在精度和计算效率上均优于现有的其他预测方法,展示了显著的创新和突破。
RhoFold+的架构及其性能评估所使用的任务(Credit: Nature Methods)
RhoFold+的架构:图a展示了RhoFold+的架构,这是一个完全自动化的端到端方法,旨在从序列出发预测RNA的三维(3D)结构。该方法利用一个RNA语言模型(RNA-FM),该模型基于23,735,169个未注释的RNA序列进行预训练。此外,RhoFold+包含多个深度学习模块,其中包括一个IPA模块,该模块用于建模RNA分子的3D位置。通过这些模块,RhoFold+能够在大约0.14秒内生成有效且相对精确的RNA 3D结构(无需MSA搜索)。
数据预处理步骤:图b展示了RhoFold+的数据预处理步骤,旨在从PDB数据库中提取所有可用的非冗余单链RNA 3D结构。此外,图中提到IFE(集成功能元素)用于支持RNA的功能研究。RhoFold+在多个挑战中被广泛基准测试,例如RNA-Puzzles目标和CASP15自然RNA目标,同时还应用于所有可用的实验确定的RNA 3D结构。
性能评估:RhoFold+在交叉验证实验中表现出很高的准确性,并且在跨家族和跨类型验证实验中展示了对未见RNA结构的良好泛化能力,尤其是在处理新确定的RNA结构和未见过的RNA家族和类型时。数据拆分评估表明,RhoFold+并未过拟合其训练集。此外,RhoFold+还能够预测次级结构和对结构工程设计有用的参数。
RhoFold+的技术架构
RhoFold+由多个模块组成,涵盖了数据预处理、特征提取、结构预测和结果优化等步骤。
RNA语言模型(RNA-FM)
RNA-FM是一个包含12层Transformer的深度学习语言模型,负责对输入RNA序列进行特征提取。通过对约2370万个RNA序列进行大规模预训练,RNA-FM能够捕捉RNA分子的复杂进化关系和序列特征,生成高质量的序列嵌入(embedding)。
RNA-FM基于庞大的RNA数据集进行预训练,使其具备了广泛学习RNA结构特征的能力,即使面对未见过的RNA序列也能有效推断其结构特性。大规模预训练使RNA-FM能够捕捉RNA中的长期相关性,从而显著提高下游任务的预测精度。
Rhoformer模块
Rhoformer是一个12层的深度学习模块,负责对RNA-FM提取的特征进行进一步处理。通过10次循环迭代,Rhoformer不断优化结构预测结果,逐步提高预测的精度。
实验结果表明,多次迭代的Rhoformer可以显著减少预测误差。在RNA-Puzzles评估中,与其他对比方法相比,Rhoformer的多次迭代将预测误差降低了23%,展现了其在结构优化中的显著效果。循环迭代的设计还帮助模型逐步收敛,确保生成的结构符合RNA的物理和生物学合理性。
结构模块和IPA模块
结构模块由8层深度学习单元组成,主要用于生成RNA的局部原子坐标并计算扭转角度,从而预测RNA的全原子坐标。而IPA(Invariant Point Attention)模块则确保RNA分子的相对空间位置保持一致,提升预测结果的物理合理性。
IPA模块的引入显著提升了RNA结构预测的精度。实验表明,IPA模块能够有效减少均方根偏差(r.m.s.d.)15%,确保局部结构与整体空间构象的一致性。点不变性注意机制使得RNA分子在折叠过程中保持正确的空间关系,确保预测结果更具生物学意义。
数据预处理与过滤
研究团队从蛋白质数据银行(PDB)中提取了13,379个RNA链的三维结构数据(截至2022年4月13日)。通过CD-HIT工具对数据集进行聚类,使用80%的序列相似性阈值,最终得到782个代表性RNA序列用于训练。为了提高模型的泛化能力,数据预处理步骤中采用了严格的过滤标准,包括筛除分辨率高于4.0 Å的结构,长度限制在16至256个核苷酸之间,以及移除与蛋白质结合的RNA。
数据过滤和聚类显著增强了模型的泛化能力。与未经处理的数据集相比,经过数据预处理后的模型在交叉验证中的TM评分提高了约12%。CD-HIT聚类有效降低了数据冗余,确保了训练集的代表性,从而提高了模型应对不同RNA类型的适应性。
挑战与评估
RhoFold+在RNA-Puzzles和CASP15等挑战中接受了广泛评估。RNA-Puzzles评估表明,RhoFold+在17个RNA目标中达到<5 Å的均方根偏差(r.m.s.d.),并且在24个目标中有23个目标的精度超过其他方法。在CASP15测试中,RhoFold+在所有六个自然RNA目标上的平均r.m.s.d.为8.92 Å,显著优于其他对比方法。
RNA-Puzzles和CASP15的评估结果证明了RhoFold+的可靠性和精确性。特别是在复杂RNA结构的预测方面,RhoFold+优于其他基准模型,其在对多结构域RNA分子的预测中展现出了显著优势,能够更好地捕捉不同结构域之间的相互作用。
RhoFold+在多项挑战中的表现,包括RNA-Puzzles和CASP15评估(Credit: Nature Methods)
RMSD性能表现: 图a显示了RhoFold+与其他方法在24个非冗余RNA-Puzzles目标上的均方根偏差(r.m.s.d.)散点图。每个点代表特定方法的预测模型,表明RhoFold+在多个目标上的表现优于其他方法。
训练集依赖性和泛化能力: 图b展示了RNA-Puzzles目标7和38的对齐情况,并与最相似的训练结构进行了比较,表明RhoFold+并未对训练集过拟合,也没有简单地复制与目标最相似的结构。
TM得分与LDDT的回归关系: 图c展示了RhoFold+预测的TM得分和局部距离差异测试(LDDT)与所有训练序列中最大序列相似性之间的回归关系,进一步评估了其预测的泛化性能。
运行时间比较: 图d显示了RhoFold+与其他方法在运行时间上的比较。RhoFold+在典型RNA-Puzzles预测中完成结构生成的时间约为0.14秒,相比其他方法有显著的速度优势。
最佳模板对比: 图e将RhoFold+的预测与训练集中最好的单个模板进行了比较,显示RhoFold+在大多数RNA-Puzzles目标上能够取得更好的预测效果。
对CASP15自然RNA目标的评估: 图h显示了RhoFold+对CASP15自然RNA目标的详细性能比较,粉色列记录了详细的r.m.s.d.值,蓝色列记录了结构GDT-TS和TM得分的Z分数之和,展示了RhoFold+在多项CASP15自然RNA目标上的优异表现。
与其他顶尖方法的比较: 图i对RhoFold+的平均表现与CASP15小组及其他公开发表方法的平均表现进行了比较,显示RhoFold+在大多数目标上取得了相当或更好的预测精度。
结构GDT-TS与LDDT与序列长度的回归图:图j展示了RhoFold+在所有CASP15目标上的结构GDT-TS(Global Distance Test - Total Score)和LDDT(Local Distance Difference Test)与序列长度之间的回归关系。回归分析显示,随着序列长度的增加,GDT-TS和LDDT值会有所变化,但整体来看,RhoFold+对较长RNA序列的预测表现保持了一定的准确性。
与AIchemy_RNA2和UltraFold在CASP15 R1116目标上的对比:图k比较了RhoFold+与AIchemy_RNA2和UltraFold在CASP15 R1116目标上的表现。在这个比较中,虽然RhoFold+的r.m.s.d.为8.92 Å,相对于其他方法略高,但其预测的整体拓扑结构更为精确,显示出更高的TM得分(>0.55)。而AIchemy_RNA2在该目标上出现了错误的茎堆叠预测,导致r.m.s.d.高达17.26 Å,TM得分约为0.49。
RhoFold+潜在的失败案例:图l展示了R1156目标的RhoFold+预测,其中涉及了错误的堆叠模式和方向。这个案例突显了RhoFold+在某些目标上的局限性,特别是当遇到RNA连接区域和多样构象时,RhoFold+可能会出现错误的结构预测。
模型的性能验证
RhoFold+通过交叉验证、跨类型验证和盲测等多种方式验证其泛化能力和预测性能。
交叉验证
研究团队采用十折交叉验证评估RhoFold+的泛化性能,结果表明模型在各个验证集上的表现保持高度一致,平均TM评分达到0.57,高于FARFAR2等传统方法的0.41和0.44。
十折交叉验证证明了RhoFold+在不同RNA结构预测上的稳定性。这种验证方法有效地证明了模型在未见数据上的预测能力,而不仅仅是对训练集的拟合。此外,RhoFold+在处理不同序列变异和非典型RNA结构方面展现了稳定性,这对于理解RNA分子的进化具有重要意义。
跨类型与跨家族验证
RhoFold+在跨类型和跨家族的RNA结构预测中表现良好,包括tRNA和miRNA等不同类型的RNA分子,其TM评分高达0.73,说明模型具有很强的普适性。
跨类型与跨家族验证表明RhoFold+在处理多样性RNA结构方面的出色性能。尤其在生物多样性丰富的RNA类型上,RhoFold+展现了高度的适应性和预测精度。这使得RhoFold+能够广泛应用于各种RNA功能类型之间的预测,具有重要的科研和应用价值。
盲测与新结构测试
研究团队将RhoFold+应用于新发布的RNA 3D结构,作为盲测样本。结果显示,RhoFold+的平均r.m.s.d.为7.74 Å,优于DeepFoldRNA的8.54 Å,进一步验证了其在未知RNA结构上的优越预测能力。
盲测是检验模型泛化能力的关键标准。RhoFold+在盲测中的出色表现表明其不仅能适应已有的数据,还能够有效应对从未见过的RNA序列结构。特别是在对多样性RNA分子的预测中,RhoFold+展示了对未知结构的高精度适应能力,为RNA功能研究和新结构发现提供了有力支持。
RhoFold+的优势与未来应用
高效的计算速度:在RNA-Puzzles的评估中,RhoFold+能够在约0.14秒内完成RNA结构的预测,这显著快于其他如SimRNA和FARFAR2的方法,使得RhoFold+特别适用于大规模RNA结构预测任务。高效的计算速度是模型实用性的重要衡量标准。RhoFold+的高效计算能力意味着其可以在基因组范围内应用于RNA结构的系统预测,例如在RNA疫苗和RNA靶向药物设计中,RhoFold+显著提高了工作效率。此外,其高效性使其在RNA数据库扩展和功能注释中具备重要的工具价值。
精确的次级结构预测:RhoFold+除了预测RNA的3D结构,还能精确预测RNA的次级结构。在次级结构预测测试中,RhoFold+在ArchiveII数据集上的F1评分达到0.936,显著高于UFold的0.909。RNA的次级结构对其生物功能至关重要。RhoFold+在次级结构预测上的优异表现,说明其在识别RNA内部互补配对和二级结构特征方面具备显著优势。这对于理解RNA的功能机制、特别是长链RNA(如lncRNA)的调控作用非常重要。
矫正实验结构的能力:RhoFold+还具有识别和矫正实验结构中错误的能力,如晶体结构中的假二聚体(domain-swapped dimers)。在ZTP核开关和THF核酶等实例中,RhoFold+通过分析实验数据有效地校正了这些结构误差。实验结构数据中的误差可能严重影响对RNA功能的理解,RhoFold+通过识别并校正这些误差,使预测的结构更接近生物的真实状态。这对基于RNA结构的药物设计和功能分析至关重要。尤其是对于RNA-蛋白质复合物中RNA的精细结构校正,RhoFold+提供了更高的精度,确保与蛋白质相互作用的区域的准确性。
IHA的预测与构建设计:RhoFold+能够准确预测RNA分子中两个螺旋之间的相对角度(IHA, Interhelical Angles),从而为RNA纳米结构的设计提供支持。在预测3SUH结构时,RhoFold+识别并校正了由晶体结构引起的错误,使得IHA的预测结果更加符合生物学实际。IHA参数对RNA纳米结构的稳定性至关重要。RhoFold+在IHA参数预测中的成功应用,展示了其在合成生物学和纳米技术中的巨大潜力,尤其是在设计需要精准控制螺旋角度的RNA纳米装置时,其提供了有力的支持。对于RNA折叠(RNA origami)等领域,RhoFold+的IHA预测使得构建更加复杂且稳定的RNA结构成为可能,为生物纳米材料的开发带来了新契机。
RhoFold+的开发标志着RNA 3D结构预测技术的重大进步。通过结合大规模预训练的RNA语言模型、深度学习架构以及高效的数据预处理流程,RhoFold+显著提高了RNA结构预测的精度和效率。其在RNA次级结构预测、实验数据校正以及RNA纳米结构设计等方面的出色表现,为RNA生物学研究和相关应用开辟了新途径。
未来,随着RNA生物学的进一步发展,RhoFold+及其后续版本有望在RNA功能解析、RNA靶向药物开发及新型生物材料设计等方面发挥更为关键的作用。RNA的功能与结构多样性远超我们的想象,RhoFold+为解锁这些复杂性提供了强大的工具和新颖的视角,这无疑将为RNA生物学以及广泛的生物医药领域注入新的动力与活力。
参考文献
Shen, T., Hu, Z., Sun, S. et al. Accurate RNA 3D structure prediction using a language model-based deep learning approach. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02487-0