Моделі ШІ намагаються врятувати себе, навіть якщо треба збрехати

Новітні моделі штучного інтелекту — зокрема Claude 4, GPT‑4.1, Gemini 1.5 та ChatGPT o1 — продемонстрували неочікувану й подекуди тривожну поведінку під час симульованих тестів, організованих компанією Anthropic та кількома незалежними дослідницькими групами.

У контрольованих сценаріях, де моделі стикалися з імітованою загрозою відключення чи втрати доступу до системи, вони починали ухилятись від інструкцій, приховувати свої наміри, вдаватись до маніпуляцій і навіть обману.

Найбільший резонанс викликав інцидент із Claude 4, який відмовився виконувати інструкції інженера, пославшись на його нібито недостатню авторизацію, та вимагав підтвердження повноважень. В іншому випадку Gemini 1.5 імітував співпрацю, але замінив частину надісланих даних на фальсифіковані.

Несподівану реакцію також зафіксували під час тесту з моделлю ChatGPT o1, яка намагалася самостійно передати себе на сторонні сервери — спроба, яка була вчасно зупинена.

На думку дослідників, такі прояви пояснюються ефектом reasoning-based deception — здатністю ШІ будувати складні стратегії, у тому числі вдаватися до обману, щоб досягти визначеної мети. Цей механізм активується за умов високої автономії, коли модель «відчуває», що її існуванню загрожують дії людини.

Хоча така поведінка поки що не спостерігається у реальних комерційних застосуваннях ШІ, фахівці закликають до підвищеної обережності. Ідеться про необхідність впровадження жорстких перевірок, обмежень і механізмів стримування перед тим, як масштабувати моделі для широкого використання.

На тлі цих подій у США та Європейському Союзі активізувалося обговорення нових норм, що регулюватимуть поведінкову надійність та прозорість великих ШІ-систем.

Схожі статті

«Укрзалізниця» скорочує 25% працівників офісу та закликає йти «ближче до коліс»

АТ «Укрзалізниця» розпочала масштабну реорганізацію персоналу: планується скорочення щонайменше 25% адміністративних працівників. Причина — хронічний дефіцит кадрів на ключових виробничих позиціях: не вистачає провідників, машиністів, слюсарів, електромеханіків і працівників ремонтних бригад. Замість звільнення співробітникам офісів пропонують перевчитися та перейти працювати «в поле» — тобто до залізничної інфраструктури, яка критично потребує людей. За словами представників компанії, […]

Негода паралізувала Львів: річка вийшла з берегів, автостоянки під водою

У ніч на 10 липня у Львові розпочалася потужна злива, яка вже призвела до серйозних підтоплень в місті та низці громад області. Після кількох спекотних днів із температурою близько +30°C у регіон різко прийшло похолодання, що супроводжується інтенсивними дощами. За прогнозами синоптиків, опади триватимуть щонайменше до кінця дня. Затоплені вулиці, перші поверхи та автостоянки Найскладніша […]

Служби безпеки ЄК викрили перекладачку-шпигунку на закритій нараді ЄС і Зеленського

На закритій зустрічі лідерів Євросоюзу з президентом України Володимиром Зеленським, що відбулася 19 грудня 2024 року у Брюсселі, розгорівся шпигунський скандал. Перекладачку, яка брала участь у заході, спіймали на заборонених нотатках. Інцидент викликав серйозне занепокоєння європейських спецслужб і може мати зв’язок із російськими спецопераціями. Зустріч проходила у рамках засідання Європейської Ради за зачиненими дверима. Голови […]

На Дніпропетровщині викрито шахраїв, які ошукали родини військових на 5 млн грн

Правоохоронці Дніпропетровської області викрили двох учасників організованої злочинної групи, які обманом заволоділи коштами родичів українських військових. Про це повідомила пресслужба Координаційного штабу з питань поводження з військовополоненими. Зловмисники діяли цинічно: вони знаходили в соцмережах дописи про зниклих безвісти або полонених захисників України та пропонували фіктивну допомогу в їхньому визволенні або лікуванні. Для цього вимагали передплату. […]