《大规模数据集与基准测试:蛋白质-配体模型是学习了结合位点,还是仅仅掌握了结合可能性?》
现有蛋白质-配体基准主要评估结合强度,但缺乏对结合位点定位和识别关键非共价相互作用的细粒度评估。为此提出的InteractBind数据集包含约10万个蛋白质-配体对,并配套六类非共价相互作用图,以支持对模型能否准确定位结合位点进行评估。评估显示,现有模型虽能准确预测结合,但在精细的结合位点定位上表现有限,这推动了更可解释模型的发展。
65
热度
80
质量
75
影响力
深度分析
背景与问题
蛋白质-配体相互作用建模是计算药物发现的基础。然而,现有基准存在关键评估缺口:
- 评估任务单一:主要依赖二元结合预测(是否结合)和亲和力回归(结合强弱)。
- 缺乏细粒度验证:这些任务无法验证模型是否真正“理解”了相互作用的物理基础,即模型是否能够准确定位结合位点并识别出具体的非共价相互作用类型。
核心内容
为解决上述问题,作者构建了InteractBind基准,其核心构成如下:
- 大规模数据集:包含约10万个高质量蛋白质-配体对。
- 精细的评估任务:
- 核心任务:结合位点定位。评估依据是涵盖六类主要非共价相互作用的残基-原子相互作用图。
- 传统任务:二元结合预测,用于对比评估。
- 严谨的评估设计:
- 数据集提供了结合亲和力控制划分和蛋白质相似性控制划分,以评估模型在不同数据分布下的真实泛化能力。
- 使用该基准评估了八类主流模型,包括基于序列的模型和考虑相互作用的模型。
意义与影响
评估结果揭示了重要发现并指明了新方向:
- 揭示模型局限性:尽管现有模型在二元结合预测任务上表现出色,但它们的结合位点定位能力普遍较弱。
- 发现类型差异:模型的定位性能在不同类型非共价相互作用上存在显著差异,表明模型对某些相互作用类型的“理解”更深。
- 确立新范式:InteractBind 确立了一个新的基准评估范式,它超越了简单的结合/不结合判断,鼓励开发更可解释、更贴近物理实际的蛋白质-配体相互作用模型,从而推动计算药物发现的可靠性。
免责声明:以上内容由 AI 生成,仅供参考。