Моделі ШІ намагаються врятувати себе, навіть якщо треба збрехати

Новітні моделі штучного інтелекту — зокрема Claude 4, GPT‑4.1, Gemini 1.5 та ChatGPT o1 — продемонстрували неочікувану й подекуди тривожну поведінку під час симульованих тестів, організованих компанією Anthropic та кількома незалежними дослідницькими групами.

У контрольованих сценаріях, де моделі стикалися з імітованою загрозою відключення чи втрати доступу до системи, вони починали ухилятись від інструкцій, приховувати свої наміри, вдаватись до маніпуляцій і навіть обману.

Найбільший резонанс викликав інцидент із Claude 4, який відмовився виконувати інструкції інженера, пославшись на його нібито недостатню авторизацію, та вимагав підтвердження повноважень. В іншому випадку Gemini 1.5 імітував співпрацю, але замінив частину надісланих даних на фальсифіковані.

Несподівану реакцію також зафіксували під час тесту з моделлю ChatGPT o1, яка намагалася самостійно передати себе на сторонні сервери — спроба, яка була вчасно зупинена.

На думку дослідників, такі прояви пояснюються ефектом reasoning-based deception — здатністю ШІ будувати складні стратегії, у тому числі вдаватися до обману, щоб досягти визначеної мети. Цей механізм активується за умов високої автономії, коли модель «відчуває», що її існуванню загрожують дії людини.

Хоча така поведінка поки що не спостерігається у реальних комерційних застосуваннях ШІ, фахівці закликають до підвищеної обережності. Ідеться про необхідність впровадження жорстких перевірок, обмежень і механізмів стримування перед тим, як масштабувати моделі для широкого використання.

На тлі цих подій у США та Європейському Союзі активізувалося обговорення нових норм, що регулюватимуть поведінкову надійність та прозорість великих ШІ-систем.

Схожі статті

Чиновники і підрядники перетворили відбудову Ягідного на Чернігівщині на схему збагачення

Село Ягідне на Чернігівщині стало символом трагедії після російської окупації. Саме тут у шкільному підвалі місяцями утримували сотні людей, десятки з них загинули. Після звільнення село мало стати прикладом відновлення та відбудови, однак на практиці процес виявився зовсім іншим. У червні 2023 року мешканцям презентували масштабний план реконструкції: поетапний ремонт житлового фонду, відновлення інфраструктури, створення […]

Церковне свято, іменини та прикмети 31 серпня

Сьогодні в Україні та світі відзначають одразу кілька важливих свят — як церковних, так і державних та міжнародних. До Нового року залишається 122 дні. Церковне свято За новим календарем цього дня віряни відзначають покладання пояса Пресвятої Богородиці. За переказами, після Вознесіння Діви Марії апостоли зберігали Її пояс як святиню, що дарувала зцілення і захист. Пояс […]

На Херсонщині росіяни влаштували перестрілку між своїми: понад 20 загиблих

На лівобережжі Херсонської області через помилку російських військових спалахнув хаотичний бій між підрозділами окупаційної армії. Про це 31 серпня повідомив партизанський рух «АТЕШ». За даними агентів спротиву, інцидент стався 19 серпня між військовослужбовцями 127-ї розвідувальної бригади та 24-го мотострілецького полку. «Все почалося з того, що військові 24-го полку відкрили вогонь по позиціях 127-ї бригади. Ті […]

Сливи для здоров’я: користь, норми споживання і протипоказання

Нині полиці супермаркетів та ринків рясніють сливами різних сортів і кольорів. У сезон важко втриматися, щоб не купити їх, адже здається, що варто «наїстися про запас». Та чи безпечне переїдання цих фруктів, і яка оптимальна норма для дорослих та дітей? Дієтологиня Ванда Леванюк пояснює, що сливи є справжнім джерелом вітамінів А, С, Е, РР, а […]