客户端
游戏
无障碍

2

评论

1

分享

手机看

微信扫一扫,随时随地看

新加坡国立大学张阳团队开发第二代RNA结构预测算法,多项基准测试超越SOTA

图片

作者:梅菜

编辑:李宝珠

本文已获得张阳教授团队授权报道,转载请联系本公众号


来自新加坡国立大学的张阳教授团队提出了一种基于深度学习的高精度 RNA 结构预测框架 DRfold2,集成了预训练的 RNA 复合语言模型和去噪结构模块,用于端到端的 RNA 结构预测,其在多个基准测试中,相较于其他最先进的方法表现出色。


理解 RNA 分子的结构和功能一直是分子生物学和制药行业的核心研究方向。RNA,尤其是非编码 RNA (ncRNA),能够折叠成特定结构,并在基因调控 (如转录和翻译)、催化、生物信号传导、应激反应等多种细胞过程中发挥重要作用。


随着高通量测序技术的快速发展,RNA 序列数据呈指数级增长,但已知序列与实验解析 RNA 结构之间的差距却在不断扩大。因此,仅基于 RNA 原始序列解析其原子结构变得越来越迫切。研究人员已经开发了多种 RNA 结构研究方法,比如 X 射线晶体学、核磁共振光谱和冷冻电子显微镜 (cryo-EM) 等结构生物学技术。尽管这些实验技术能够提供更高的分辨率,但 RNA 三维结构的实验解析往往成本高昂,并且在某些情况下难以实现。因此,人们对直接从序列预测高质量 RNA 三维结构的计算方法需求日益增长。


「Ab initio RNA 结构预测」是指从 RNA 序列直接预测其三维结构的方法,而不依赖于任何实验数据或先验知识。这种方法的核心在于利用计算机模拟和计算化学技术,通过数学模型和算法来预测 RNA 分子的三维构象。


近日,来自新加坡国立大学张阳教授团队的最新研究成果进一步推动了「Ab initio RNA 结构预测」迈向更高水平。研究人员提出了一种基于深度学习的高精度 RNA 结构预测框架——DRfold2,它集成了预训练的 RNA 复合语言模型 (RCLM) 和去噪结构模块,用于端到端的 RNA 结构预测。DRfold2 在多个基准测试中,相较于其他最先进的方法,在全局拓扑和二级结构预测方面均表现出色。


详细分析表明,这种改进主要来源于 RCLM 对共进化模式的捕捉能力以及高效的去噪过程,使得 DRfold2 的无监督接触预测精度相比现有方法提高超过 100%。


相关成果以「Ab initio RNA structure prediction with composite language model and denoised end-to-end learning」为题已发表于预印本平台 bioRxiv。


研究亮点:

* DRfold2 集成了预训练的 RNA 复合语言模型 (RCLM) 和去噪结构模块,用于端到端的 RNA 结构预测
* 通过独特结合复合语言建模、基于去噪的端到端学习以及深度学习引导的后优化,DRfold2 为 「Ab initio RNA 结构预测」开辟了一条全新的发展方向
* DRfold2 与 AlphaFold3 具有高度互补性,在集成到优化框架后,实现了统计显著的精度提升


图片

DRfold2 RNA 结构测试数据集下载:

https://go.hyper.ai/lOM5c

数据集:构建独立测试数据集

为了客观评估 DRfold2 的性能,研究人员构建了一个独立测试数据集,其中包含 28 种 RNA 结构,它们的序列长度均小于 400 nts,并来源于以下 3 个类别:


* 最新的 RNA-Puzzles 目标序列
* CASP15 竞赛中的 RNA 目标序列
* 截至 2024 年 8 月 1 日,Protein Data Bank (PDB) 数据库中最新发布的 RNA 结构


值得注意的是,研究人员排除了 CASP15 数据集中大型合成 RNA 结构,因为它们偏离了自然界中的 RNA 结构,而自然 RNA 结构是功能分析和药物设计的主要研究对象。


为了保证严格的模型评估,训练集仅包含 2024 年之前发布的 RNA 结构,并且排除了与测试数据集序列相似度超过 80% 的 RNA。


DRfold2 RNA 结构测试数据集下载:

https://go.hyper.ai/lOM5c

模型架构:一种全新的 RNA 3D 结构预测流程 DRfold2

DRfold2 是一个全新的 RNA 3D 结构预测流程,包含 4 个核心模块: (1) RNA 复合语言模型 (RCLM),(2) RNA 变换块 (RNA Transformer Block),(3) 去噪结构模块 (Denoising Structure Module),以及 (4) 通过 CSOR 协议进行的最终模型选择和优化,如下图 A 所示:


图片

DRfold2 流程概览


从输入 RNA 序列开始,DRfold2 先利用预训练的 RNA 复合语言模型 (RCLM) 对查询序列进行编码,生成序列表示 (Seq Rep) 和成对表示 (Pair Rep);RCLM 通过复合似然最大化方法在大规模无监督序列数据上训练,从而实现更高效的序列模式识别,如下图 B:


图片

使用掩蔽负复合对数似然损失函数训练 RCLM 的详细信息


随后,这些序列和成对表示会输入 RNA Transformer 模块进行处理,以生成 RNA 结构折叠所需的关键特征表示 ,如下图 C:


图片

RNA Transformer Block 的详细信息


接下来,DRfold2 采用去噪 RNA 结构模块 (DRSM) 以端到端方式生成 RNA 构象 ,如下图 D:


图片

RNA 结构去噪模块的详细信息


最终的 RNA 结构模型通过后处理 CSOR 协议进行筛选与优化,以从多个检查点生成的构象集合中挑选和精炼最佳模型 ,如下图 E:


图片

CSOR 协议的详细流程,作为后处理步骤选择和优化最终 RNA 模型


虽然 DRfold2 的名称与该团队早期提出的 DRfold 方法类似,但 DRfold2 引入了基于完全不同框架的显著进展,最重要的是集成了复合语言模型,这大大增强了 RNA 序列和配对表示的能力。此外,预测流程还集成了去噪 RNA 结构模块 (DRSM),该模块采用控制扰动策略,通过高效地纠正噪声 RNA 构象来稳健地学习结构转化。


研究人员公开 DRfold2 在线服务器和本地运行代码,地址为:
https://zhanglab.comp.nus.edu.sg/DRfold2

研究结果:DRfold2 在多个基准测试中均优于其他最先进的方法

研究人员首先将 DRfold2 与 5 种最先进的 RNA 结构预测方法进行对比,包括 RNAComposer(基于片段组装和优化)、trRosettaRNA(深度学习方法)、RhoFold(端到端深度学习方法)、RoseTTAFoldNA(端到端深度学习方法)和DeepFoldRNA(深度学习方法)。


如下图,研究人员比较了 DRfold2 和基准方法在不同序列相似性阈值 (50%-80%) 下的 TM-score 和 RMSD 评估结果。其中,TM-score 是长度无关的打分函数,用于评估预测 RNA 结构的整体质量,取值范围 0-1,值越高表示预测结构与真实结构的相似度越高。


图片

6 种 RNA 结构预测方法在不同序列相似性截断 (50%-80%)下的 TM-score 和 RMSD 箱线图
绿色点和白色水平线分别表示均值和中位数


结果显示,在所有序列相似度阈值下,DRfold2 始终获得最高的平均 TM-score。例如:


* 在 80% 相似度阈值下,DRfold2 的平均 TM-score 为 0.351,比排名第二的 DeepFoldRNA (TM-score=0.296) 高 18.6%。

* 在 50% 相似度阈值 (最严格的测试集) 下,DRfold2 依然能获得平均 TM-score 0.269,比排名第二的 RoseTTAFoldNA (TM-score=0.229) 高 17.5%。

* 此外,DRfold2 在所有序列相似度阈值下的 RMSD (均方根偏差) 也始终低于所有对照方法,表明其预测结构更接近真实 RNA 结构。


研究人员进一步以黑猩猩 CPEB3 HDV-like 核酶 (PDB ID: 7QR3) 为例,该 RNA 长 69 个核苷酸,分析不同方法对其 RNA 三级结构的预测效果,结果如下图:

图片

一例来自黑猩猩 CPEB3 HDV 类 ribozyme (PDB ID: 7QR3) 的代表性建模示例

* DRfold2 准确捕捉到该核酶的整体拓扑结构,其 TM-score 达到 0.586,RMSD 仅 2.77 Å。

* DeepFoldRNA 在整体螺旋排列上表现尚可,但发夹环 (hairpin loop) 的方向出现显著偏差,导致 RMSD 高达 5.68 Å,是 DRfold2 偏差的两倍。

* RhoFold 和 RoseTTAFoldNA 在连接区域 (junction regions) 的空间预测存在更大误差,导致 TM-score 降至 0.323 和 0.285。

* 该目标 RNA 与训练数据集的最高序列相似度仅为 60.9%,表明 DRfold2 仍能在无同源模板的情况下,对新 RNA 序列提供可靠的结构预测。


以上这些结果表明:像 RCLM 这样的高阶语言模型提供的综合概率表示显著增强了学习共同进化模式和空间限制的能力,从而通过 DRfold2 的端到端网络实现了更精确的 3D RNA 结构建模。


在此基础上,为了比较 DRfold2 和 AlphaFold3 在 RNA 3D 结构预测中的表现,研究人员还将测试集中 RNA 序列提交到 AlphaFold 服务器,并使用默认种子配置获得 AlphaFold3 的预测结构。结果发现,DRfold2 的平均 TM-分数 (0.351) 和 RMSD (14.6 Å) 略高于 AlphaFold3 (0.345 和 16.0 Å)。


更值得一提的是,尽管 DRfold2 和 AlphaFold3 展现出相似的整体性能,但下图中的结果突显了两者之间的强大互补性,特别是在预测显著偏离对角线的情况下——通过将 AlphaFold3 的预测作为额外的势能函数项纳入 DRfold2 优化框架,研究人员在 TM-分数 和 RMSD 上都取得了统计学上显著的提升。

图片

DRfold2 和 AlphaFold3 在 RNA 结构预测中的比较分析

张阳教授团队多年来持续关注 AI 和计算生物学研究

本次研究提出的 DRfold2 其实是张阳教授团队此前提出的 DRfold 模型的再次升级。


2023 年 9 月,张阳教授团队在 Nature Communications 杂志上发表了题为「Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction」的论文。


该研究报道了一项用于精确预测 RNA 的三维结构全新技术 DRfold,核心创新在于引入了两种互补的势能函数:FAPE势能和几何势能。它们通过两个独立的 Transformer 网络进行训练,共同构成了 RNA 结构预测的深度学习势能。计算结果显示,与以前的 RNA 结构计算机预测方法相比,DRfold 在多项性能指标上均超越了这些方法。

图片

论文地址:
https://www.nature.com/articles/s41467-023-41303-9


从 DRfold 到 DRfold2,张阳教授团队多年来持续关注人工智能和计算生物学研究,其实验室是最早开展基于深度机器学习的蛋白质和 RNA 结构预测研究的实验室之一,曾获美国斯隆奖、美国国家科学基金会职业奖、密歇根大学基础科学研究奖等荣誉,自 2015 年起 7 次入选汤森路透/科睿唯安全球高被引科学家名单。由他实验室开发的 I-TASSER 算法 (https://zhanggroup.org/I-TASSER/), 2006 年起连续九次在世界范围的 CASP 实验中被评为最准确的自动化蛋白质结构预测方法。


2024 年 1 月 2 日,张阳教授团队在 Nature Methods 杂志上发表了题为「Improving deep learning protein monomer and complex structure prediction using DeepMSA2 with huge metagenomics data」的论文。


该研究研发了两款新的软件来提高蛋白质互作的结构预测精度。作者开发了 DeepMSA2,利用递推动态规划和隐马尔科夫模型算法,从海量宏基因组序列库中快速提取高质量 MSA 数据,然后利用新开发的 DMFold 软件构造蛋白质复合物的三维结构。


实验结果显示,DMFold/DeepMSA2 对蛋白质复合物的结构预测精度要显著优于AlphaFold2等算法。特别是,DMFold(https://zhanggroup.org/DMFold)算法获得最近一届蛋白质结构预测大赛 (CASP15) 蛋白质复合物结构预测冠军。


图片

论文地址:
https://www.nature.com/articles/s41592-023-02130-4


最近,该团队又进一步拓展了研究方向,涉足 RNA 与短肽的设计及其结构预测,并探索与药物设计相关的课题。未来,相信张阳教授还将带领其团队不断探索生物学的奥秘。


参考资料:

1.https://www.biorxiv.org/content/10.1101/2025.03.05.641632v1

2.https://mp.weixin.qq.com/s/X_VJ-WOWEP08p5GAJOgq9A

3.https://medicine.nus.edu.sg/bch/faculty/zhang-yang/

4.https://mp.weixin.qq.com/s/6JwSbmpSdYuHR9I3SH_bJg

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部