Advanced Science | 首创引入蛋白动态信息的AI模型，高效预测药物-蛋白亲和力

时间：2022-10-14　来源：消费快报

　　2022年10月6日，德睿智药与西湖大学、厦门大学科研团队共同开发的首个基于蛋白质动态信息的预训练模型ProtMD，发表于顶级期刊Advanced Science（Impact Factor: 17.5）。
　　该研究首创在预训练模型中引入蛋白质动态时空信息，在药物-蛋白亲和力预测任务等多个下游任务的表现上大幅超越目前最优模型。该模型可辅助药物化学专家更加精准的筛选出高活性小分子，从而加速临床前研发。该研究是近年来药物-蛋白亲和力预测领域发表的影响因子最高的论文之一。
　　基于靶点的药物筛选是基于功能蛋白进行的亲和力或功能筛选，因此获得有足够活性的小分子是实现药物筛选成功的关键要素之一，准确预测小分子和靶蛋白之间的结合亲和力是药物开发过程中的一个重大挑战。
　　在此项研究中，德睿智药将团队制药经验与AI技术深度融合。基于对蛋白质结构多样性的深入理解，团队构建了具有结构代表性的蛋白质“小样本”数据集，进行蛋白质动力学模拟后，获得其动态信息，并以此为基础建立AI预训练模型。该模型表现超越以往基于蛋白质3D静态结构信息的AI模型，达到目前最优，为药物-蛋白亲和力筛选提供了强有力的工具。
　　国际人工智能学界权威，IEEE Fellow，西湖大学人工智能讲席教授李子青（Stan Z. Li）指出：“传统的药物蛋白结合理论基于静态蛋白构象假设，而实际上蛋白构象在药物结合之前和之后发生了改变。此研究是预测蛋白-药物结合动态的一个尝试，在预训练模型中首次引入蛋白质时空动态信息，并设计了等变图匹配网络，以学习药物亲和力在蛋白构象几何形变条件下的变化，更准确地完成药物-蛋白亲和力预测这一核心任务，从而提升AI药物设计的有效性。这个工作为该领域研究提供了一个新的benchmark。”
　　1、ProtMD框架
图1. ProtMD框架示意图
　　ProtMD有两个专门设计的自监督学习任务：一个是基于Prompt的去噪生成预测，另一个是Snapshot Ordering。模型在两个下游任务上通过微调和线性探测进行验证，其中结合亲和力预测是一个回归问题，Ligand Efficacy Prediction[2,3]是一个分类问题。
　　2、预训练任务设计
　　2.1 预训练数据集
　　为了获取无标签的蛋白质时空信息进行预训练，德睿智药团队根据先前蛋白质研究经验，从PDB蛋白质数据库（RCSB PDB [https://www.rcsb.org]）共计57651个人类蛋白结构中选取了具有结构代表性的数十个蛋白质结构，使用Molecule Dance平台对这数十个蛋白质进行分子动力学模拟，获得数TB蛋白质空间动态信息用于下步预训练。
　　2.2 Prompt-based Denoising Conformation Generative Task
　　生成式自监督学习是无监督预训练的一个典型任务。为了更好地捕获构象中原子级的信息，提出了基于提示的去噪生成预测自监督任务。该任务要求模型根据当前构象产生未来构象。与朴素的生成式自监督学习不同，团队在模型中添加了一个时间序列提示Prompt来调节和控制源构象和目标构象之间的时间间隔，这使分子编码器能够捕获MD轨迹内的短期和长期依赖性，生成大于等于一步之后的构象。除此之外，额外的噪声被注入到构象中增加了该自监督生成任务的难度以防止模型过拟合。
　　2.3 Snapshot Ordering Prediction
　　此前已有大量研究证实，每种构象的形状和表面都带有了解潜在分子相互作用的关键信息。然而，只利用基于提示的去噪生成任务是建立在原子水平上的，无法有效捕获构象级全局信息。为了获取构象级别的信息，团队设计了一个快照排序任务。具体来说，通过将一组密切相关的构象排序为连贯的子轨迹，教会模型从全局角度理解它们的依赖关系。
　　目前预训练模型参数量越来越大，如BERT-base参数个数达1.1亿个[1]，使用此类模型面临着较大的性能瓶颈。为加速ProtMD的训练及推理过程、便于后续工业级大规模使用，我们训练了两个版本的ProtMD，即仅有1万参数的轻量级版本，以及有522万参数的完整版本。
　　3、实验结果
　　3.1 药物亲和力预测
　　在药物-蛋白亲和力预测任务上，ProtMD仅有1万参数的轻量级版本表现已超过以往最优（SOTA）模型，在522万参数版本达到1.367的RMSD和最佳的Pearson和Spearman系数，较SOTA模型提升5%表现。轻量级版本的参数个数比以往各类模型小50倍以上，ProtMD的更优表现表明了模型的高学习效率，引入蛋白质时空动态信息可显著提升药物亲和力预测效果。
　　3.2 Ligand Efficacy Prediction
　　在Ligand Efficacy Prediction[2,3]任务上，ProtMD 522万个参数版本AUPRC达到0.724，较SOTA模型提升14%表现。
　　4、总结
　　ProtMD的研发为基于蛋白的机器学习预训练模型研发提供了新方向，证明了蛋白质动态时空信息在蛋白-小分子亲和力预测上的重要性。既由该底层原理上的突破，该模型预测精度达到“同类最优”。ProtMD的工业级版本可大幅提高药物亲和力预测与虚拟筛选效率。
　　参考文献：
　　1.Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
　　2.Townshend R J L, Vögele M, Suriana P, et al. Atom3d: Tasks on molecules in three dimensions[J]. arXiv preprint arXiv:2012.04035, 2020.
　　3.Friesner, R. A., Banks, J. L., et al. (2004). Journal of Medicinal Chemistry, 47(7), 1739–1749.

刘慈欣签名数字藏品开售，第五境面推出硬核科幻IP“数字

继“棱镜计划”之后，美国再曝“电幕行动” 涉及45个国

中邮Hinova系列已正式发售，Hinova9/9Pro搭载骁龙778G，四

一次“全家福”活动看到海尔衣联网的生态布局

千千惠：成都跑出的国内领先互联网爆品抢购平台

彼得霍布里将为路特斯打造全新的未来设计语言

头条资讯

王者荣耀S8赛季新出的装备是什么新出的装备怎么用

王者荣耀S8辅助最厉害的是谁王者王者荣耀新英雄鬼谷子教程攻略发英雄联盟性价比最高的小件装备是什

英雄联盟对线的技巧是什么英雄联盟对线经济解析

王者荣耀的装备克制有哪些王者荣烬多兰戒出门烬出门装新套路英雄联盟十大冷门技巧是什么英雄英雄联盟对线小技巧有哪些英雄联王者荣耀技能最远的英雄是谁王者王者荣耀虞姬怎么玩王者荣耀虞姬王者荣耀遇到喷子怎么办王者荣耀英雄联盟重做后赵信玩法攻略

英雄联盟对线小技巧有哪些英雄联盟对线小技巧攻略

王者荣耀技能最远的英雄是谁王者王者荣耀虞姬怎么玩王者荣耀虞姬王者荣耀遇到喷子怎么办王者荣耀

推荐热点

LOLS8赛季60枚符文属性分析

英雄联盟打野抓人技巧分享

王者荣耀打野有什么技巧可以一次刷三个野怪的英雄

王者荣耀重做周瑜玩法攻略教学

英雄联盟重做后赵信玩法攻略

热门视频

五五开阿冷成王败寇MV欣赏 0
09-28

王者荣耀版浮夸在哪听王者荣耀版浮夸歌词欣赏 0
09-28

大鹏缝纫机乐队都选CMV欣赏 0
09-28

黄旭东祝福我的世界视频黄旭东奶我的世界视频分享 0
09-28

斗鱼糯米2秒17枪糯米sks17连点视频录像分享 0
09-28

日本PDD是谁日本PDD唱歌视频在哪看 0
09-28

Advanced Science | 首创引入蛋白动态信息的AI模型，高效预测药物-蛋白亲和力

时间：2022-10-14 来源：消费快报

时间：2022-10-14　来源：消费快报