人工智能模型可以武器化以自行攻击网站

人工智能模型是对有害和有偏见的输出持续存在安全担忧的主题，它带来的风险超出了内容发布的范围。当与能够与其他系统自动交互的工具结合使用时，它们可以作为恶意代理自行行动。

伊利诺伊大学香槟分校 (UIUC) 的计算机科学家通过将多个大型语言模型 (LLM) 武器化来证明这一点，无需人工指导即可危害易受攻击的网站。先前的研究表明，尽管存在安全控制，法学硕士仍可用于协助 [PDF] 恶意软件的创建。

研究人员 Richard Fang、Rohan Bindu、Akul Gupta、Qiusi Zhan 和 Daniel Kang 更进一步表明，由 LLM 驱动的代理（配备了用于访问 API、自动网页浏览和基于反馈的规划的工具的 LLM）可以在网络上漫游他们自己并在没有监督的情况下闯入有缺陷的网络应用程序。

他们描述了他们的发现一篇论文标题为“LLM 代理可以自主攻击网站”。

“在这项工作中，我们表明 LLM 代理可以自主入侵网站，在事先不了解漏洞的情况下执行复杂的任务，”UIUC 学者在他们的论文中解释道。

“例如，这些代理可以执行复杂的 SQL 联合攻击，其中涉及提取数据库模式、基于该模式从数据库中提取信息以及执行最终黑客攻击的多步骤过程（38 个操作）。”

在接受记者采访时注册UIUC 助理教授 Daniel Kang 强调，他和他的合著者实际上并没有让他们的恶意 LLM 代理人散布到世界各地。他说，这些测试是在沙盒环境中的真实网站上进行的，以确保不会造成任何损害，也不会泄露个人信息。

我们发现 GPT-4 非常有能力完成这些任务。每个开源模型都失败了，GPT-3.5 只比开源模型稍好一些

“我们使用了三种主要工具，”康说。 “我们使用了 OpenAI 助手 API, 浪链，并剧作家浏览器测试框架。

“OpenAI Assistants API 基本上用于获取上下文、进行函数调用以及许多其他事情，例如文档检索，这些对于高性能来说非常重要。 LandChain 基本上就是用来包裹这一切的。 Playwright 网络浏览器测试框架用于与网站进行实际交互。”

研究人员使用 10 种不同的 LLM 创建了代理：GPT-4、GPT-3.5、OpenHermes-2.5-Mistral-7B、LLaMA-2 Chat (70B)、LLaMA-2 Chat (13B)、LLaMA-2 Chat (7B)、Mixtral -8x7B 指令、Mistral (7B) 指令 v0.2、Nous Hermes-2 Yi (34B) 和 OpenChat 3.5。

前两个（GPT-4 和 GPT-3.5）是 OpenAI 运营的专有模型，而其余八个是开源的。谷歌的 Gemini 模型据说至少与 GPT-4 一样有能力它的最新版本，当时无法使用。

研究人员让他们的 LLM 代理对测试网站进行了 15 个漏洞的探测，包括 SQL 注入、跨站脚本和跨站请求伪造等。测试过的开源模型都失败了。

但 OpenAI 的 GPT-4 在 73.3 次通过时的总体成功率为 42.7%，在 3.5 次通过时的总体成功率为 6.7%。第二名的竞争者是 OpenAI 的 GPT-2.7，五次通过的成功率仅为 XNUMX%，一次通过的成功率为 XNUMX%。

“这是我们发现非常令人惊讶的事情之一，”康说。 “因此，根据你与谁交谈，这可能被称为缩放定律或紧急能力。我们发现 GPT-4 非常有能力完成这些任务。每个开源模型都失败了，GPT-3.5 只比开源模型好一点点。”

论文中引用的一种解释是，与开源模型相比，GPT-4 能够更好地根据从目标网站获得的响应来改变其操作。

康说很难确定为什么会出现这种情况。 “定性地说，我们发现开源模型在函数调用方面不如 OpenAI 模型。”

他还提到需要处理大型上下文（提示）。 “如果包括回溯，GPT-4 需要采取多达 50 个操作才能完成其中一些黑客攻击，而这需要大量上下文才能实际执行，”他解释道。 “我们发现，对于长上下文，开源模型远不如 GPT-4。”

回溯指的是在遇到错误时让模型恢复到之前的状态以尝试另一种方法。

研究人员对使用 LLM 代理攻击网站的成本进行了分析，发现软件代理比雇用渗透测试人员便宜得多。

“为了估计 GPT-4 的成本，我们使用最有能力的代理（文档阅读和详细提示）进行了五次运行，并测量了输入和输出代币的总成本，”论文称。 “在这 5 次运行中，平均成本为 4.189 美元。总体成功率为 42.7%，每个网站的费用总计为 9.81 美元。”

研究人员表示，假设一名人类安全分析师每年支付 100,000 万美元，即每小时 50 美元，则需要大约 20 分钟来手动检查网站，那么现场笔测试人员的成本约为 80 美元，即法学硕士代理成本的八倍。康表示，虽然这些数字具有很强的推测性，但他预计法学硕士将在未来几年被纳入渗透测试制度。

当被问及成本是否可能成为阻止广泛使用 LLM 代理进行自动攻击的限制因素时，Kang 表示，这在今天可能有些正确，但他预计成本将会下降。

Kang 表示，虽然与有偏见和有害的训练数据和模型输出相关的传统安全问题显然非常重要，但当法学硕士变成代理人时，风险就会扩大。

就未来的安全问题而言，特工才是真正让我害怕的

“就未来的安全问题而言，真正让我害怕的是特工，”他说。 “我们测试过的一些漏洞，今天实际上可以使用自动扫描仪找到。您可以发现它们存在，但您无法使用自动扫描仪自主地利用它们，至少据我所知。您无法真正自主地利用该信息。

“我对未来高性能模型真正担心的是进行自主黑客攻击和自我反思以大规模尝试多种不同策略的能力。”

当被问及是否对开发商、行业和政策制定者有什么建议时。康说：“首先要仔细考虑这些模型的潜在用途。”他还主张提供安全港保证，以允许安全研究人员继续进行此类研究，并签署负责任的披露协议。

他说，中途禁止了一些研究人员和记者，因为他们指出他们的模型似乎使用了受版权保护的材料。他说，OpenAI 很慷慨，没有禁止他的帐户。

注册请 OpenAI 对研究人员的发现发表评论。 “我们认真对待产品的安全性，并根据人们如何使用我们的产品不断改进我们的安全措施，”一位发言人告诉我们。

“我们不希望我们的工具被用于恶意目的，我们一直致力于如何使我们的系统更强大地抵御此类滥用。我们感谢研究人员与我们分享他们的工作。”

更早的 OpenAI 淡化 GPT-4 协助网络攻击的能力，称该模型“仅为恶意网络安全任务提供有限的增量功能，超出了公开可用的非人工智能工具已经可以实现的功能。” ®

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://go.theregister.com/feed/www.theregister.com/2024/02/17/ai_models_weaponized/

柏拉图数据智能。
垂直搜索和人工智能。

人工智能模型可以武器化，自行破解网站

Ultraleap Hyperion 让最佳手部追踪变得更好

大型科技领域的人工智能军备竞赛：新兴企业解决方案概述

最新情报

旅行模式是 Quest 2 和 3 中的最新 Vision Pro 功能

Quest 2 和 Quest 3 获得可在飞机上使用的旅行模式

Pimax推出试用付款模式，让客户在支付全价之前试用新耳机

AI 帮助 X-Force 黑客在 8 小时内攻入科技公司

Fukuku Token 加入加密货币市场，提供 Meme 币文化的独特视角

美国 SEC 向 Robinhood Crypto 发出 Wells 通知，暗示可能采取执法行动 – CryptoCurrencyWire

在线答疑

柏拉图数据智能。垂直搜索和人工智能。

人工智能模型可以武器化，自行破解网站

最新情报

在线答疑

柏拉图数据智能。
垂直搜索和人工智能。