|
|
|
|
|
ECE 论文解读 ▎AdapGNN与MolExplain:提升分子性质预测的可解释性 |
|
|
论文标题:AdapGNN: enhancing the explainability of GNN models in molecular properties prediction
期刊:ENGINEERING Chemical Engineering
作者:Zhangpeng Wei, Wenli Du, Xin Peng, Feng Qian
发表时间:6 Feb 2026
DOI: 10.1007/s11705-026-2659-1
微信链接:点击此处阅读微信文章
文章信息
▎文章题目
AdapGNN: enhancing the explainability of GNN models in molecular properties prediction
▎文章来源
Zhangpeng Wei, Wenli Du, Xin Peng, Feng Qian. AdapGNN: enhancing the explainability of GNN models in molecular properties prediction. ENG. Chem. Eng., 2026, 20(5): 36
DOI:10.1007/s11705-026-2659-1
研究背景
图神经网络(GNNs)在分子性质预测中发挥着越来越重要的作用,但GNN模型容易面临过度平滑的问题致使模型的可解释性降低。为了提高GNN模型的可解释性进而加速分子结构-性质作用机制的理解和分析,华东理工大学彭鑫和钱峰教授团队在ENG. Chem. Eng. 提出了AdapGNN,这是一种专门为分子性质预测设计的新型模型无关框架,通过在传统的图神经网络信息流中引入额外的初始结点信息来抑制不同结点之间的趋同性。在此基础上,为了在预测过程中进一步强调分子中不同结构对目标性质的预测影响,提出了一个权重投影模块,该模块依据结点所在的局部化学环境生成特定权重。为了验证所提方法的有效性,并解决现有分子性质预测基准数据集缺乏用于可解释性定量评估的原子重要性真值的问题,提出了新的基准数据集MolExplain。
研究方法
AdapGNN:
可解释性增强的通用图神经网络框架
其核心思想是在图神经网络的标准信息传递流程中,将具有特异性的原始原子特征作为额外的补充引入到每一层更新后的结点信息中,该信息与前一个消息传递层生成的特征合并,并将合并后的特征馈送到下一层。该步骤保证了即使在多层信息传递之后结点仍然具有可分辨的特异性信息。在此基础上,文章引入了一个额外的权重投影模块,该模块依据结点所在的局部化学环境分配不同的权重,这些权重用于在原始原子特征信息引入时分化分子中不同结构的影响,从而凸显那些对预测至关重要的关键部分,同时这种投射方式也使得相同化学环境的原子经过传播后得到类似的特征信息,这与实际的化学直觉相符。
MolExplain:
图神经网络可解释性定量评测基准数据集
通过显示的构造从结构到性质的映射关系,MolExplain保证了对于模型可解释性的量化分析。该数据集由12个不同的任务组成,每个任务包含30万个样本。任务的具体构造流程包括3个步骤:1、指定影响结点贡献的局部环境;2、设计合适的转换函数将环境信息转换为目标性质值;3、根据任务中贡献/无贡献原子的样本比例选择是否使用人工掩码来避免类别不平衡问题。每条样本记录包括以SMILES字符串表示的分子、目标性质值以及和原分子一一对应的二值化分子掩码(0/1分别代表原子是否对于目标性质有实际贡献)。
主要贡献
方法有效性验证:文章选择了AttentiveFP和GCN两类经典图神经网络作为基准模型来探究AdapGNN框架的兼容性。在MolExplain数据集上的测试表明,相比较基准模型,AdapGNN框架在大部分任务上都带来了预测性能(10/12)以及可解释性(9/12)的提升,这表明该方法不仅提高了预测性能,同时使得模型对于结构-性质的关系捕捉更贴合实际情况。通过对结点之间的MAD (Mean Average Distance)的分析表明,AdapGNN框架的引入使得模型最后一层结点的MAD值有所提升,这表明过平滑现象被抑制了。
机制探究与分析:文章针对不同模型在同一任务中的可解释性分析结果表明,基准模型在预测目标性质时倾向于利用所有结点的信息。相反,AdapGNN使得模型很好的将注意力集中在真正有贡献的原子上从而实现了可解释性的提升。对权重投影机制生成的权重可视化分析表明,可解释性高的模型中经过投影后的原子权重和实际的原子贡献分布之间相似性更高,这表明权重投影机制的引入强化了原子间的差异性,并使得模型更容易关注到有贡献的结构。
重要图文解读

图1 解释了AdapGNN模型结构、MolExplain基准数据集构成以及实验结果的定量评估流程,整体概括了“模型设计-数据支撑-评估方法”三者之间的逻辑关系

图 2 展示了AdapGNN框架中具体的信息传递流程以及两类不同的权重投影方法。通过持续注入原始结点信息来对抗过度平滑,并使用权重投影模块来分化不同结构的影响性差异

图4 展示了MolExplain数据集中目标描述符(分子性质)的生成过程,该过程确保了目标预测性质可以完整地追溯到原子层级的贡献
作者简介
第一作者:韦章鹏,华东理工大学博士研究生,主要从事高通量分子筛合成系统中的表征特征提取和数据建模研究。
通讯作者1:彭鑫,华东理工大学教授,博士生导师,主要研究方向包括工业过程智能建模、控制及优化;人工智能驱动的科学研究;大模型及知识图谱的工业垂域应用;机器视觉及其工业应用。
通讯作者2:钱锋,华东理工大学教授,博士生导师,主要研究方向包括自动化、机器学习与人工智能、智能制造与工业智能系统、工业过程控制、工业过程系统工程、化工系统智能控制与集成优化等。
高教社免费全文网址

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。