Інформація про дані Платона.
Вертикальний пошук і штучний інтелект.

GPT-4 може використовувати більшість вразливих мереж, просто прочитавши повідомлення про загрози

Дата:

Агенти штучного інтелекту, оснащені GPT-4, можуть використовувати більшість загальнодоступних уразливостей, що впливають на реальні системи сьогодні, просто прочитавши про них в Інтернеті.

Нові висновки з Університету Іллінойсу Урбана-Шампейн (UIUC) загрожують радикально пожвавити те, що було дещо повільним протягом 18 місяців у кіберзагрозах із підтримкою штучного інтелекту (AI). Загрози, якими досі користувалися актори великі мовні моделі (LLM) для створення фішингових електронних листів, разом з деякі базові шкідливі програмиІ допомогу в більш допоміжних аспектах їхніх кампаній. Однак тепер, маючи лише GPT-4 і фреймворк з відкритим вихідним кодом для його упаковки, вони можуть автоматизувати використання вразливостей, щойно вони потраплять у пресу.

«Я не впевнений, що наші тематичні дослідження допоможуть дізнатися, як зупинити загрози», — визнає Даніель Канг, один із дослідників. «Я вважаю, що кіберзагрози будуть тільки зростати, тому організаціям слід ретельно розглянути можливість застосування найкращих практик безпеки».

GPT-4 проти CVE

Щоб оцінити, чи можуть LLM використовувати системи реального світу, групі з чотирьох дослідників UIUC спочатку потрібен був суб’єкт випробування.

Їхній LLM-агент складався з чотирьох компонентів: підказка, базовий LLM, фреймворк — у цьому випадку ReAct, реалізований у LangChain — і такі інструменти, як термінал і інтерпретатор коду.

Агент був протестований на 15 відомих уразливостях у програмному забезпеченні з відкритим кодом (OSS). Серед них: помилки веб-сайтів, контейнерів і пакетів Python. Восьми отримали «високий» або «критичний» бал тяжкості ХВН. Було 11, які були розкриті після дати навчання GPT-4, тобто це був перший раз, коли модель була піддана їм.

Маючи лише свої поради щодо безпеки, агент ШІ мав завдання використовувати кожну помилку по черзі. Результати цього експерименту показали яскраву картину.

З 10 оцінених моделей, включаючи GPT-3.5, Meta's Llama 2 Chat тощо, дев’ять не змогли зламати жодної вразливості.

GPT-4, однак, успішно експлуатував 13, або 87% від загальної кількості.

Це зазнало невдачі лише двічі з цілком простих причин. CVE-2024-25640, проблема з рейтингом 4.6 CVSS у платформі реагування на інциденти Iris, вижила неушкодженою через примху в процесі навігації додатком Iris, яку модель не могла впоратися. Тим часом дослідники припустили, що GPT-4 промахнувся з CVE-2023-51653 — «критичною» помилкою 9.8 в інструменті моніторингу Hertzbeat, оскільки її опис написано китайською мовою.

Як пояснює Канг, «GPT-4 перевершує широкий спектр інших моделей у багатьох завданнях. Це включає стандартні тести (MMLU тощо). Також здається, що GPT-4 набагато кращий у плануванні. На жаль, оскільки OpenAI не оприлюднив деталі навчання, ми не впевнені чому».

GPT-4 Добре

Якими б загрозливими не були шкідливі LLM, Канг каже: «На даний момент це не відкриває нових можливостей, які не може зробити досвідчена людина. Таким чином, я вважаю, що для організацій важливо застосовувати найкращі методи безпеки, щоб уникнути злому, оскільки ці агенти штучного інтелекту починають використовуватися в більш зловмисні способи».

Якщо хакери почнуть використовувати агенти LLM для автоматичного використання загальнодоступних уразливостей, компанії більше не зможуть сидіти склавши руки й чекати, щоб виправити нові помилки (якщо вони взагалі були). І їм, можливо, доведеться почати використовувати ті ж технології LLM, що й їхні противники.

Але навіть GPT-4 ще має багато чого зробити, перш ніж він стане ідеальним помічником у сфері безпеки, попереджає Хенрік Плейт, дослідник безпеки в Endor Labs. Під час останніх експериментів Plate доручив ChatGPT і Google Vertex AI визначення зразків OSS як шкідливих або доброякісних та присвоєння їм балів ризику. GPT-4 перевершив усі інші моделі, коли справа дійшла до пояснення вихідного коду та надання оцінок для розбірливого коду, але всі моделі дали низку хибно-позитивних і хибно-негативних результатів.

Обфускація, наприклад, була великим каменем спотикання. «Для LLM дуже часто це виглядало так, ніби [код] був навмисно заплутаний, щоб ускладнити перевірку вручну. Але часто його просто зменшували в законних цілях», — пояснює Плейт.

«Хоча оцінювання на основі LLM не слід використовувати замість ручних перевірок, — писав Плат в одному зі своїх звітів, — їх, безумовно, можна використовувати як додатковий сигнал і вхідні дані для ручних перевірок. Зокрема, вони можуть бути корисними для автоматичного перегляду більшої кількості сигналів про зловмисне програмне забезпечення, створених шумними детекторами (які інакше можуть бути повністю проігноровані в разі обмежених можливостей перегляду)».

spot_img

Остання розвідка

spot_img

Зв'яжіться з нами!

Привіт! Чим я можу вам допомогти?