联合掩码重建与对比学习的蛋白质相互作用预测

由 192****4237 创建0 次浏览

论文信息

字段 内容
标题 Joint Masked Reconstruction and Contrastive Learning for Mining Interactions Between Proteins
作者 Jiang Li, Xiaoping Wang
机构 华中科技大学人工智能与自动化学院、人工智能研究院、脑启发智能系统湖北省重点实验室
论文地址 https://arxiv.org/abs/2503.04650
代码地址 https://github.com/lijfrankopen/JmcPPI
发表时间 2025年3月6日

一句话概要

针对蛋白质相互作用预测中现有结构驱动方法计算资源消耗高、对已知蛋白过度依赖导致新蛋白泛化能力弱的问题,
论文提出JmcPPI方法,将PPI预测分解为残基结构编码与蛋白质相互作用推断两个阶段:
在第一阶段联合标准重建与掩码重建任务,利用异构图注意力网络挖掘残基内部结构信息;
在第二阶段通过对原始PPI图施加扰动生成多视图,设计多图对比学习策略迫使编码器从有限信息中推断蛋白质潜在表征。
在三个基准数据集上的实验表明,JmcPPI在不同数据划分方案下均超越现有最优模型。

背景与研究动机

蛋白质是生物体执行代谢、繁殖等生理过程的核心分子,而蛋白质-蛋白质相互作用(PPI)是分子机制的中心枢纽,直接调控蛋白质复合物形成、酶活性调节和信号转导等关键生物事件。准确解析PPI网络不仅为阐明疾病发病机制提供分子蓝图,对靶向药物开发、临床诊断和合成生物学应用也具有深远影响。

然而,系统地从复杂交错的网络中解码功能相关模式面临重大技术挑战。高通量测序技术的创新推动了蛋白质序列空间的指数级扩展,但功能注释的速度却落后于序列发现的速度,导致序列-功能注释缺口持续扩大。为了克服传统湿实验方法在通量、成本和可扩展性方面的局限,计算生物学社区持续致力于开发基于机器学习的PPI预测框架。

早期研究主要基于统计机器学习框架,代表性方法包括支持向量机、随机森林、条件随机场和朴素贝叶斯。这些方法基于序列同源性与结合亲和力之间的正相关性,通过手工设计的序列特征推断相互作用。但这些浅层模型受限于非线性表示能力不足和对人工特征工程的依赖,无法捕捉PPI网络中的高阶拓扑特征。深度学习技术的出现带来了范式转变,通过多层非线性变换实现端到端特征学习,显著增强了对复杂生物关系的建模能力。

近年来研究范式逐步转向基于图神经网络的蛋白质相互作用建模。尽管这些方法在序列驱动的PPI预测中取得了显著进展,但蛋白质功能的实现从根本上依赖于其三级结构的折叠构象。因此,仅依赖序列信息的预测方法在建模复杂PPI网络时仍存在固有限制,无法充分反映蛋白质在三维空间中的实际相互作用机制。

为了超越序列驱动方法的局限,基于蛋白质结构的研究范式应运而生。然而,现有结构驱动方法面临两个核心挑战:一是高计算资源消耗——需要对每个蛋白质的内部结构信息进行深度挖掘,导致模型训练和推理过程的计算成本高昂;二是泛化能力有限——现有方法过度依赖已知蛋白质的结构信息,难以有效预测新蛋白质之间的相互作用。论文以MAPE-PPI框架为切入点,指出其仍存在冗余计算、邻居残基影响建模不足以及对新蛋白质预测能力有限等问题。

现有方法的瓶颈

论文明确指出当前PPI预测方法面临以下关键局限:

结构与计算层面。 现有结构驱动方法需要深入挖掘每个蛋白质的内部结构信息,这导致模型训练和推理过程的高计算成本。MAPE-PPI在微环境码本学习阶段同时训练图编码器和微环境码本,导致高内存资源消耗。论文指出,图编码器实际上可以通过消息传递机制有效提取残基微环境信息,因此额外的码本训练是冗余的。

邻居信息建模层面。 MAPE-PPI使用标准图卷积网络进行信息传递,将不同邻居残基的影响视为等价。这种方式缺乏对局部结构差异的自适应建模能力,可能影响蛋白质内部结构信息的准确提取。可以理解为,同等权重的聚合方式忽略了不同残基对目标残基贡献的差异性,这在结构复杂的蛋白质中可能导致关键信息被稀释。

泛化能力层面。 与现有基于图的方法类似,MAPE-PPI使用常规图结构框架建模PPI网络,其预测性能严重依赖于已见蛋白质的交互模式。这阻碍了对新蛋白质之间潜在交互线索的充分探索,导致泛化能力不足。值得注意的是,这一问题在实际生物医学场景中尤为关键,因为真实应用经常需要预测从未见过的蛋白质对之间的相互作用。

残基级特征提取层面。 现有方法在提取残基级结构特征方面能力不足,导致重要理化性质信息丢失。复杂图计算过程带来的高内存消耗限制了模型的可扩展性。

核心洞察与贡献

论文的核心洞察在于:将PPI预测任务解耦为残基结构编码和蛋白质相互作用推断两个独立阶段,分别设计针对性的学习任务,从而在降低计算复杂度的同时增强对新蛋白质的泛化能力。关键认识在于——残基结构编码阶段通过图注意力机制聚合邻域信息,本身就整合了微环境信息,无需额外码本学习;蛋白质相互作用推断阶段通过对原始交互图施加扰动并设计对比学习任务,迫使模型从有限信息中推断蛋白质通用表征,减少对已见蛋白质的依赖。

基于上述洞察,论文提出JmcPPI方法,主要贡献包括:

  • 提出了首个集成残基掩码重建与多图对比学习的PPI预测方法JmcPPI,能够同时捕捉蛋白质的结构线索和交互线索,同时通过任务分解缓解高资源消耗问题。
  • 在残基结构编码阶段,结合异构图网络与注意力机制,设计标准重建和掩码重建两个自监督任务,充分挖掘蛋白质内部结构信息。
  • 在蛋白质相互作用推断阶段,生成两个新的交互图,设计多图对比学习任务,迫使编码器充分挖掘新蛋白质的外在交互信息。
  • 在多个PPI数据集上进行模型对比、泛化性分析和消融实验,结果证实JmcPPI在不同数据划分方案下均优于最先进基线模型。

方法详解

JmcPPI采用两阶段渐进式架构,包含残基结构编码和蛋白质相互作用推断。

问题形式化。 PPI预测任务定义为:给定蛋白质对(pi, pj),根据序列属性和结构特征推断它们之间的具体相互作用类型yij。论文构建两种图结构:蛋白质结构图Gp=(Vp,Ep),其中节点表示残基,边包含三种拓扑关系(顺序连接、径向连接和K近邻连接);蛋白质交互图Gq=(Nq,Rq),其中节点表示蛋白质,边表示相互作用。

残基结构编码。 论文利用HetGNN作为残基结构编码器的核心组件,并在其内部集成基于GAT的聚合算子。关键设计在于,为了降低模型内存消耗,采用了Transformer风格的dot-product版本注意力系数而非原始拼接版本。注意力系数计算公式为:

其中⊙表示dot-product(Hadamard积)操作。这一设计选择直接回应了MAPE-PPI的冗余计算问题——通过GAT的自适应权重分配能力,模型自动学习不同残基邻居的重要性,无需额外码本训练。

编码后的特征经过全连接层、ReLU激活、批归一化和Dropout处理。论文采用对称架构作为残基结构解码器,通过最小化重建特征与原始特征的均方误差来优化网络参数:

掩码残基重建。 为了进一步增强编码器的表达能力,论文引入与标准重建任务共享参数的掩码重建任务。以预定义比例随机掩码部分原始特征,迫使模型学习上下文感知的表征。掩码重建损失采用余弦相似度形式:

残基结构编码阶段的总体目标函数为:

蛋白质相互作用推断。 论文采用GIN作为蛋白质交互编码器,使用求和操作聚合邻居信息,多层感知机作为更新函数:

参照Sum-Product函数设计,同时使用向量加法和乘法操作整合蛋白质对特征:

采用多类交叉熵作为训练目标。

多图对比学习。 这是论文应对新蛋白质预测挑战的关键设计。对原始交互图从节点和边两个维度施加扰动生成两个新图。节点扰动以概率ρα将部分特征元素置零;边扰动重新分配源节点和目标节点。两个新图输入共享参数的编码器后,构建对比损失以拉近相同蛋白质不同扰动视图的距离,推远不同蛋白质的距离:

可以理解为,这一设计迫使编码器从有限且经过扰动的信息中学习蛋白质的通用表征,而不是记忆训练集中已见蛋白质的具体模式,从而显著增强对新蛋白质交互线索的挖掘能力。第二阶段总体损失为:

实验与结果

实验设置。 论文在三个基准数据集(SHS27k、SHS148k、STRING)上评估模型性能,涵盖七种蛋白质相互作用类型。采用随机(Random)、广度优先搜索(BFS)和深度优先搜索(DFS)三种数据划分方案,按3:1:1比例划分训练/验证/测试集。基线模型包括序列驱动方法(DPPI、DNN-PPI、PIPR、GNN-PPI、SemiGNN-PPI)和结构驱动方法(HIGH-PPI、MAPE-PPI)。

整体性能对比。 实验结果显示,JmcPPI在三个数据集上的平均F1分数分别比MAPE-PPI提升3.56%、2.45%和2.73%,总体性能增益达2.92%。值得注意的是,在更具挑战性的BFS和DFS划分下,JmcPPI展现更大优势——SHS27k的BFS划分下F1分数提升9.27%,STRING的DFS划分下提升4.09%。这表明论文的核心设计——通过对比学习减少对已见蛋白质的依赖——确实有效应对了泛化挑战。

泛化能力深度分析。 论文将测试集细分为三个子集:BS(蛋白质对均出现在训练集)、ES(其中一个蛋白质出现在训练集)、NS(两个蛋白质均未出现在训练集)。实验结果显示,JmcPPI在ES和NS子集上显著优于MAPE-PPI。例如,SHS27k的BFS划分下,JmcPPI在ES子集和NS子集上的F1分数分别比MAPE-PPI高约11%和6%。可以理解为,多图对比学习机制使模型能够从有限信息中推断蛋白质的通用表征,这是提升新蛋白质预测能力的核心原因。

类别级性能分析。 论文对每种交互类型的分类性能进行了细粒度分析。结果显示,表达(expression)类别在所有数据集上均表现出显著的识别困难——SHS27k的DFS划分下准确率仅为34.43%,STRING的BFS划分下低至16.08%。进一步分析发现,这些类别在训练集中占比极低(例如STRING的BFS划分下表达类仅占3.98%),表明类别不平衡是制约模型性能的关键因素。

消融实验。 论文从三个维度进行消融实验:重建任务有效性、对比学习机制有效性、对比任务类型敏感性。

重建任务消融实验显示,同时移除标准重建和掩码重建任务导致SHS27k数据集上性能大幅下降(平均F1降低20.26%),验证了残基结构编码阶段自监督学习对挖掘内部结构信息的关键作用。

对比学习消融实验表明,移除整个多视图对比学习在BFS和DFS划分下对模型性能冲击最大,印证了对比学习在困难数据划分条件下对提升新蛋白质交互信息捕捉能力的核心作用。

对比任务类型敏感性分析发现,无节点扰动或无边缘扰动的对比学习策略在某些划分方案下导致性能下降,表明适度的节点或边缘扰动对增强对比学习效果至关重要。

批判性评估。 整体而言,实验设计较为全面,baseline选择覆盖了序列驱动和结构驱动两类主流方法,且包含了近期性能最优的MAPE-PPI。消融实验系统验证了模块设计的必要性。但存在以下值得注意的问题:首先,基线方法的性能数据直接引用了MAPE-PPI论文的结果,可能存在实验环境差异导致的公平性问题;其次,消融实验中STRING数据集在移除重建任务后性能仅下降2.13%,远小于SHS27k的下降幅度,这可能意味着对于大规模数据集,蛋白质交互图本身已包含足够的结构信息,残基级重建的边际效益有所降低;再者,对比学习扰动率消融仅在SHS148k数据集上进行,未在SHS27k和STRING上验证,限制了结论的普适性。

优势与局限性

优势:

  • JmcPPI通过两阶段分解和对比学习策略,在提升新蛋白质预测泛化能力方面显著优于现有方法,特别是在BFS和DFS这类更具挑战性的划分方案下优势尤为突出。
  • 掩码重建与对比学习的联合设计在逻辑上环环相扣——掩码重建增强残基编码器稳健性,对比学习减少对已见蛋白质依赖,两者协同作用于整体性能提升。
  • 代码已开源,为复现和后续研究提供了便利条件。

局限性:

  • 对表达(expression)等少数类别的预测准确率较低,这表明类别不平衡问题尚未得到充分解决。论文虽然分析了问题成因,但未提出针对性的处理策略。
  • 超参数(如掩码率、扰动率、温度系数等)在不同数据集和划分方案下需要分别调优,这可能限制模型在新场景下的快速部署。
  • 模型使用AlphaFold2提取蛋白质三维结构,这意味着预测流程依赖于外部结构预测工具,可能引入额外的不确定性和计算开销。
  • 消融实验中STRING数据集对重建任务的依赖度远低于SHS27k,说明模型在不同规模数据上的行为差异仍需进一步解释。

未来方向与开放问题

论文在结论部分指出两个值得探索的方向:一是将JmcPPI应用于更广泛的生物信息学领域,如蛋白质-配体亲和力预测和药物相互作用预测;二是将氨基酸序列与生物医学文本相结合进行交互预测。

从现有实验结果出发,可以延伸出以下开放问题:首先,如何利用生成式模型或数据重采样技术缓解少数类别(如表达类)的样本不平衡问题?其次,掩码重建和对比学习两个阶段的任务权重是否可以通过自适应机制动态调整,以适配不同规模和特性的数据集?再者,当前的扰动策略(节点和边扰动)是否是最优选择?是否可以考虑引入领域知识指导的受限扰动,从而在保持数据增强效果的同时避免破坏关键的生物学结构?

组会预判问答

Q1:JmcPPI的计算效率相比MAPE-PPI有多大提升?是否给出了量化对比? 论文在引言中定性指出JmcPPI通过任务分解和GAT的邻域聚合消除额外码本训练,从而缓解高资源消耗问题。但在实验部分未报告训练时间或内存消耗的量化对比数据。一种可能的解读是,论文的主要贡献聚焦于泛化性能提升,计算效率作为附带收益尚未被严格量化。

Q2:掩码重建任务中的掩码率(0.25)是如何确定的?是否进行了敏感性分析? 论文在Table 2中列出了不同数据集和划分方案下的具体超参数配置,其中掩码率统一设置为0.25。但未在正文中展示掩码率变化对性能影响的消融实验。这可能意味着掩码率的选择主要依据经验参考值,尚未进行系统性的敏感性分析。

Q3:对比学习中的扰动率在不同划分方案下差异较大(如SHS27k的Random划分取0.1,DFS划分取0.25),这种差异背后的原因是什么? 论文在5.7节对SHS148k数据集进行了扰动率敏感性分析,结果显示模型对扰动率的敏感度在不同划分方案下存在显著差异——Random划分在低扰动率(0.1)时最佳,BFS划分在0.3时最优,DFS划分在0.2时最优。论文未给出对这种现象的理论解释,但可以推测:Random划分下训练集与测试集分布相似,少量扰动即可提供有益正则化;而BFS和DFS划分下测试集包含更多未见蛋白质,需要更大扰动来迫使模型学习通用特征。

Q4:论文提到所有序列驱动方法均不如结构驱动方法,这一结论是否具有普适性?是否存在特定的蛋白质类型或交互场景,序列信息反而更具优势? 论文在表3中呈现的结果确实显示结构驱动方法(HIGH-PPI、MAPE-PPI、JmcPPI)的F1分数普遍高于序列驱动方法。但需要注意的是,这些比较主要集中在七大交互类型的多标签分类任务上。可以理解为,对于某些功能与结构关联性较弱的交互类型,或当蛋白质三维结构难以可靠预测时,序列驱动方法可能仍具有补充价值。

本报告由立理AI生成,仅供参考,请以原文为准。

创作同款