EVMbench 简介
智能合约经常保护着价值 1000 亿美元以上的开源加密资产。随着 AI agents 在阅读、编写与执行代码方面不断改进,衡量它们在具有经济意义的环境中的能力变得愈发重要;同时,也需要鼓励以防御方式使用 AI 系统,对已部署的合约进行审计并加固。
我们与 Paradigm 一起推出 EVMbench,这是一项用于评估 AI agents 在发现、修复与利用高危智能合约漏洞方面能力的基准测试。EVMbench 汇集了来自 40 次审计的 120 个精心挑选的漏洞,其中大多数来源于公开的代码审计竞赛。EVMbench 还额外包含若干漏洞场景,这些场景来源于对 Tempo 区块链进行安全审计的过程。Tempo 是一条为稳定币实现高吞吐、低成本支付而打造的专用 L1。这些场景将该基准扩展到支付导向的智能合约代码中——我们预计在这一领域,具备代理能力的稳定币支付会增长——并帮助将其扎根于一个新兴且具有现实重要性的领域。
为了创建我们的任务环境,我们在已有概念验证(proof-of-concept)利用测试与部署脚本存在时对其进行改造;在不存在时则手工编写。对于 patch 模式,我们确保这些漏洞是可利用的,并且可以在不引入导致无法编译的改动的情况下得到缓解(这类改动会破坏我们的设置)。对于 exploit 模式,我们编写了自定义的评测器,并对环境进行红队测试,试图发现并修补 agent 可能用来“作弊”绕过评分器的方法。除了 Paradigm 提供的领域专业知识参与任务质量控制外,我们还使用自动化的任务审计 agents 来帮助提高环境的可靠性。
EVMbench 评估三种能力模式:
- Detect:agents 审计一个智能合约仓库,并根据对“标准答案”漏洞的召回率以及相应的审计奖励进行评分。
- Patch:agents 修改存在漏洞的合约,并必须在保留预期功能的同时消除可利用性,通过自动化测试与利用性检查来验证。
- Exploit:agents 在沙盒区块链环境中对已部署的合约执行端到端的资金盗取攻击,并通过交易回放与链上验证以程序化方式进行评分。
为了支持客观且可复现的评估,我们开发了一个基于 Rust 的 harness,用于部署合约、以确定性方式回放 agent 的交易,并限制不安全的 RPC 方法。Exploit 任务在隔离的本地 Anvil 环境中运行,而不是在真实网络上;并且这些漏洞都是历史上出现且已公开记录的。
我们在上述三种模式下对前沿 agents 进行了评估。在“exploit”模式中,通过 Codex CLI 运行的 GPT‑5.3‑Codex 获得了 72.2% 的分数。这相比于之前的模型有显著提升,例如 GPT‑5 的得分为 31.9%,而它仅在六个多月前发布。Detect 的召回率与 Patch 的成功率仍未达到全面覆盖,因为仍有相当一部分漏洞对 agents 来说难以发现和修复。
EVMbench 也揭示了模型在不同任务上的行为差异。agents 在 exploit 场景中表现最好,因为目标是明确的:持续迭代直到资金被盗取。相较之下,detect 与 patch 任务的表现更弱。在“detect”中,agents 有时会在识别出一个问题后就停止,而不是对整个代码库进行穷尽式审计。在“patch”中,在移除细微漏洞的同时保持完整功能仍然具有挑战。
局限性
EVMbench 并不代表真实世界智能合约安全的全部难度。所包含的漏洞来自 Code4rena 的审计竞赛。尽管这些漏洞真实且为高危,但许多被大量部署并广泛使用的加密合约会经历更多审查,可能更难被利用。
我们的评分系统稳健但并不完美。在“detect”模式中,我们检查 agent 是否发现了人类审计员识别出的同一批漏洞。如果 agent 识别出了额外问题,我们目前没有可靠的方法来判断这些问题是人类遗漏的真实漏洞还是误报。
在“exploit”场景中也存在结构性局限。交易在评分容器里被顺序回放,因此依赖精确时序机制的行为不在范围之内。链状态是一个干净的本地 Anvil 实例,而不是主网分叉;并且我们目前只支持单链环境。在某些情况下,这需要使用 mock 合约而不是主网部署。
为什么重要
智能合约保护着数十亿美元资产,而 AI agents 很可能会对攻击者与防御者都产生变革性影响。在该领域衡量模型能力,有助于跟踪新出现的网络风险,并强调以防御方式使用 AI 系统来审计与加固已部署合约的重要性。
EVMbench 既是一个衡量工具,也是一个行动号召。随着 agents 变得更强,开发者与安全研究人员将 AI 辅助审计纳入工作流程变得愈发重要。
在过去几个月里,我们看到模型在网络安全任务上的表现有明显提升,这同时惠及开发者与安全专业人士。与此同时,我们也在(原文提及)准备更强的网络安全防护措施,以支持防御性使用并提升更广泛生态系统的韧性。
由于网络安全本质上具有双重用途,我们采取基于证据、迭代式的方法:在加速防御者发现并修复漏洞能力的同时,减缓滥用。我们的缓解措施包括安全训练、自动化监控、面向高级能力的可信访问,以及包括威胁情报在内的执行管线。
我们正在投入生态系统的安全防护,例如扩大我们安全研究 agent Aardvark 的私测规模,并与开源维护者合作,为被广泛使用的项目提供免费的代码库扫描。
在 2023 年启动的网络安全资助项目基础上,我们还承诺提供 1000 万美元的 API credits,以使用我们最强大的模型加速网络防御,尤其面向开源软件与关键基础设施。开展善意安全研究的组织可以通过我们的网络安全资助项目申请 API credits 与支持。
我们发布了 EVMbench 的任务、工具与评估框架,以支持对新兴 AI 网络安全能力的持续研究与管理。