清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

编辑 | 紫罗

为了促进分子特性预测,在药物发现领域,学习有效的分子特征表征非常重要。最近,人们通过采用自监督学习技术,预先训练图神经网络(GNN)来克服数据稀缺的挑战。然而,目前基于自监督学习的方法存在两个主要问题:缺乏明确的自监督学习策略和 GNN 的能力有限

近日,来自清华大学、西湖大学和之江实验室的研究团队,提出了知识引导的图 Transformer 预训练(Knowledge-guided Pre-training of Graph Transformer,KPGT),这是一种自监督学习框架,通过显著增强的分子表征学习提供改进的、可泛化和稳健的分子特性预测。KPGT 框架集成了专为分子图设计的图 Transformer 和知识引导的预训练策略,以充分捕获分子的结构和语义知识。

通过对 63 个数据集进行广泛的计算测试,KPGT 在预测各个领域的分子特性方面表现出了卓越的性能。此外,通过鉴定两种抗肿瘤靶点的潜在抑制剂验证了 KPGT 在药物发现中的实际适用性。总体而言,KPGT 可以为推进 AI 辅助药物发现过程提供强大且有用的工具。

该研究以《A knowledge-guided pre-training framework for improving molecular representation learning》为题,于 2025 年 11 月 21 日发布在《Nature Communications》上。

通过实验确定分子特性需要大量时间和资源,鉴定具有所需特性的分子是药物发现领域最重大的挑战之一。近年来,基于人工智能的方法在预测分子特性方面发挥着越来越重要的作用。基于人工智能的分子特性预测方法的主要挑战之一是分子的表征

近年来,基于深度学习的方法的出现成为预测分子特性的潜在有用工具,主要是因为它们具有从简单输入数据中自动提取有效特征的卓越能力。值得注意的是,各种神经网络架构,包括循环神经网络(RNN)、卷积神经网络(CNN)和图神经网络(GNN)擅长对各种格式的分子数据进行建模,从简化的分子输入行输入系统(SMILES)到分子图像和分子图。然而,标记分子的有限可用性和化学空间的广阔限制了它们的预测性能,特别是在处理分布外数据样本时。

随着自监督学习方法在自然语言处理和计算机视觉领域取得的显著成就,这些技术已被应用于预训练 GNN 并改进分子的表征学习,从而在下游分子性质预测任务中取得了实质性的进展

研究人员假设将定量描述分子特征的额外知识引入自监督学习框架可以有效应对这些挑战。分子有许多定量特征,例如分子描述符和指纹,可以通过当前建立的计算工具轻松获得。整合这些额外的知识可以将丰富的分子语义信息引入自监督学习中,从而大大增强语义丰富的分子表征的获取。

通常,现有的自监督学习方法依赖于GNN作为核心模型。然而,GNN的模型容量有限。此外,GNN可能很难捕捉原子之间的远程交互。而基于Transformer的模型已经成为一种改变游戏规则的模型。它的特点是参数数量不断增加,并且能够捕捉到长程相互作用,为全面模拟分子的结构特征提供了有希望的途径

自监督学习框架 KPGT

在这项研究中,研究人员引入了一种名为 KPGT 的自监督学习框架,旨在加强分子表征学习,从而推动下游的分子属性预测任务。KPGT 框架由两个主要组件组成:一个被称为 Line Graph Transformer(LiGhT)的主干模型和一个知识引导的预训练策略。KPGT 框架结合了高容量的 LiGhT 模型,该模型专门用于准确建模分子图结构,并利用知识引导的预训练策略来捕捉分子结构和语义知识

研究团队使用ChEMBL29数据集中的约200万个分子,通过知识引导的预训练策略对LiGhT进行了预训练

重写内容为:图表:KPGT 概述。(资料来源:论文)

KPGT 在分子性质预测方面优于基线方法。与几种基线方法相比,KPGT 在 63 个数据集上取得了很大的进步。

图示:KPGT 和基线方法在分子性质预测方面的比较评估。(来源:论文)

此外,通过成功利用 KPGT 识别造血祖细胞激酶 1 (HPK1) 和成纤维细胞生长因子受体 (FGFR1) 两个抗肿瘤靶点的潜在抑制剂,展示了 KPGT 的实际应用性。

图示:使用 KPGT 识别 HPK1 抑制剂。(来源:论文)

图示:使用 KPGT 识别 FGFR1 抑制剂。(来源:论文)

研究局限性

尽管 KPGT 在有效分子特性预测方面具有优势,但仍然存在一些局限性。

  • 首先,附加知识的整合是所提方法最显著的特征。除了 KPGT 中使用的 200 个分子描述符和 512 个 RDKFP 之外,还有可能纳入各种其他类型的附加信息知识。
  • 此外,进一步的研究可以将三维 (3D) 分子构象整合到预训练过程中,从而使模型能够捕获有关分子的重要 3D 信息,并有可能增强表征学习能力。
  • 虽然 KPGT 目前采用具有大约 1 亿个参数的主干模型,以及对 200 万个分子的预训练,但探索更大规模的预训练可以为分子表征学习提供更实质性的好处。

总的来说,KPGT 为有效的分子表征学习提供了强大的自监督学习框架,从而推动了人工智能辅助药物发现领域的发展。

论文链接:https://www.nature.com/articles/s41467-023-43214-1


# 长程  # 自然语言  # 清华大学  # 西湖  # 是在  # 激酶  # 抗肿瘤  # 的是  # 万个  # 架构  # 抑制剂  # https  # transformer  # rnn  # cnn  # 人工智能  # 循环  # for 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AMD Ryzen 5 2600: 游戏玩家高性价比之选  国产开源模型Kimi K2 Thinking上线美应用,挑战美国科技巨头!  唐库AI拆书工具怎样设置拆书深度_唐库AI拆书工具深度调节与内容详略控制【技巧】  佐糖AI抠图如何免费使用_佐糖AI免费额度获取与消耗查看【指南】  ChatGPT 4o 辅助学生复习 GRE 词汇的方法  解密AI时尚摄影:打造完美形象的终极指南  利用AI赋能教育:学习方式的未来之路  MagicAnimate怎么让图片动起来 字节跳动MagicAnimate配置及用法【教程】  怎么用AI帮你解读复杂的学术论文?快速抓住核心论点和证据  百度输入法总是弹出ai 百度输入法ai自动弹出关闭  旅游营销AI:ChatGPT邮件营销策略,提升旅游业务转化率  谷歌 Gemini AI 助手详解:功能、应用与隐私设置  秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】  手相解析:生命线的形状与意义详解,预示健康、财富和命运  Napkin AI:无需设计技能,AI一键生成精美图表  孩子作文写不出来?教你用AI引导孩子构思,写出优秀范文  EcoFlow Delta 3 Max Plus:打造你的智能电力生态系统  Google NotebookLM:AI赋能的智能笔记与思维导图工具  怎么用ai制作表情包 AI个性化动态表情包教程【方法】  Canva AI终极指南:释放AI力量,设计触手可及  终极游戏工作站:帝王蝎椅沉浸式体验评测  免费高效获客!ChatGPT助你快速生成潜在客户名单  AI 编码助手大比拼:Gemini、Tabnine 和 Cline 的深度测评  ChatGPT 4o图像生成器:免费AI绘画技巧与应用  goPDF:AI驱动的PDF文档处理全方位指南,提升工作效率  Depseek怎么生成员工成长总结_Depseek成长维度提取与案例整合【方法】  AI复古纱丽照片编辑:用Google Gemini轻松生成时尚照片  阿里通义app怎么用_阿里通义app使用方法详细指南【教程】  播客数据深度解析:揭秘全球听众分布和增长策略  Wrike:AI赋能的项目管理平台,提升电商效率与团队协作  如何通过 DeepSeek 优化 Kubernetes 配置文件  斑马AI如何设置奖励机制_斑马AI积分奖励与勋章获取【步骤】  Midjourney怎样做PPT模板_MidjourneyPPT模板生成【方法】  Claude怎样写任务型提示词_Claude任务提示词写法【步骤】  Mootion AI视频生成器:一键创作动画故事!  利用MECLABS AI解决业务难题:实用指南  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  探索泰勒·斯威夫特《August》的深层含义:歌词解析与情感分析  AI工作流程详解:概念到生产的完整指南  Sora 2 API 全面解析:功能、应用与 Lovable 集成指南  Semrush AI标题生成器:免费提升SEO和内容创作效率  Gemini怎样写细节型提示词_Gemini细节提示词编写【步骤】  AI症状自检:最佳AI症状检查器,告别网络庸医!  稿定设计AI抠图怎样处理复杂边缘_稿定设计AI复杂边缘细化技巧【技巧】  Jetson SegNet: 语义分割深度探索与实践  经济型游戏PC构建指南:30000卢比畅玩3A游戏  银行对账单解读完全指南:掌握财务状况,优化资金管理  解读Childish Gambino《This Is America》的深层含义与文化影响  ChatGPT新手指南:大学生如何高效利用AI工具?  探索占星术:揭秘 कुंडली 中的 शुक्र,财富与运势的钥匙 

 2023-11-23

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.