Дослідження виявило обмеження ШІ у виконанні складних професійних завдань

Результати спільного дослідження компанії Scale AI та Центру безпеки штучного інтелекту свідчать, що сучасні системи штучного інтелекту наразі не можуть повністю замінити спеціалістів у галузях дизайну, програмування та аналітики. Про це повідомляє видання Washington Post, посилаючись на підсумки масштабного тестування популярних ШІ-моделей у реальних робочих умовах.

У межах дослідження науковці перевірили можливості таких систем, як ChatGPT, Gemini та Claude, залучивши їх до виконання сотень фріланс-проєктів. Завдання були максимально наближені до реальних замовлень на ринку: від розробки 3D-анімації, створення вебігор і написання програмного коду до форматування наукових матеріалів та побудови складних аналітичних моделей. Оцінювалася не лише коректність результатів, а й здатність ШІ розуміти контекст, дотримуватися вимог замовника та адаптуватися до змін у процесі роботи.

Результати виявилися доволі скромними. Найефективніша модель змогла якісно виконати лише 2,5% завдань. Майже половина проєктів була реалізована з низькою якістю, а близько третини так і залишилися незавершеними. У багатьох випадках ШІ створював пошкоджені файли або ігнорував ключові вимоги замовників. Навіть ті результати, які виглядали правдоподібно, при детальній перевірці містили критичні помилки.

Проблеми проявилися і в конкретних галузях. У тестах з дизайну інтер’єру штучний інтелект створював реалістичний на вигляд план приміщення, який водночас був технічно некоректним і не містив необхідної деталізації. Під час аналізу даних ШІ плутав кольори, накладав текст на графіки та пропускав цілі країни у візуалізаціях. У сфері розробки ігор система створила працездатний продукт, але повністю проігнорувала задану тему — замість гри про пивоваріння вийшов абстрактний проєкт.

Один з авторів дослідження Джейсон Хаузенлой пояснює такі результати двома ключовими обмеженнями. По-перше, сучасні чат-боти не мають довгострокової пам’яті, тому не вчаться на власних помилках у межах тривалих проєктів. По-друге, вони мають проблеми з візуальним розумінням, адже під час створення 3D-моделей працюють переважно через код, а не через повноцінний візуальний інтерфейс.

Водночас дослідники відзначають поступовий прогрес. Так, модель Gemini 3 Pro у листопаді 2025 року змогла виконати 1,3% завдань, тоді як її попередня версія показувала результат лише на рівні 0,8%.

Попри розвиток автономності ШІ, повна заміна людини-фахівця залишається малоймовірною в найближчому майбутньому. Хоча економічна вигода очевидна — створення гри людиною коштувало близько 1485 доларів, тоді як запуск Claude Sonnet обійшовся менш ніж у 30 доларів — різниця в якості все ще робить людську працю незамінною.

Схожі статті

Переговори про припинення війни опинилися під загрозою через нові вимоги РФ

Росія може відмовитися від подальших мирних переговорів з Україною у разі, якщо Київ не погодиться на виведення українських військ із підконтрольної частини Донецької області. Про це повідомляють поінформовані джерела, знайомі з перебігом підготовки майбутніх переговорів. За словами співрозмовників, зустріч представників сторін може відбутися вже наступного тижня та розглядається як ключова для подальшої долі дипломатичного процесу. […]

Готують саміт лідерів: що відомо про перемовини в березні

За інформацією джерел, наступна зустріч у форматі Україна–США–РФ може відбутися вже на початку березня в Абу-Дабі. За попередніми даними, головною темою стане підготовка можливої зустрічі на рівні лідерів держав. Йдеться про узгодження параметрів, формату та порядку денного потенційних перемовин між главами країн. Співрозмовники зазначають, що сторони наразі працюють над технічними деталями, зокрема над переліком питань, […]

МВФ висунув вимоги щодо податків і витрат — що відомо

За інформацією з джерел в Офісі Президента, переговорний процес із Міжнародним валютним фондом щодо нової програми фінансування супроводжується вимогами про перегляд податкової політики та параметрів соціальних видатків. За словами співрозмовника, ключові положення, які обговорювалися, стосуються можливого підвищення окремих податків і оптимізації бюджетних витрат. Джерело стверджує, що українська сторона намагалася відтермінувати запровадження частини рішень, які можуть […]

Правоохоронці розкрили масштабну схему розкрадання на Трипільській ТЕЦ

Правоохоронними органами було викрито схему розкрадання понад 50 мільйонів гривень під час виконання ремонтних робіт на Трипільській теплоелектроцентралі. Згідно з інформацією, наданою поліцією, в цій справі залучено шість осіб. Слідство з'ясувало, що основними порушеннями стали зловживання під час виконання робіт із відновлення та ремонту обладнання ТЕЦ.

Попередні результати розслідування вказують на те, що шахрайські дії мали місце через завищення вартості матеріалів, фальсифікацію обсягів виконаних робіт, а також через проведення фінансових операцій з підконтрольними підприємствами. Це дозволяло отримувати значні суми, не маючи на це законних підстав. Крім того, слідчі вважають, що кошти могли бути виведені через оформлення неправдивих документів, що підтверджували виконання робіт, яких насправді не було здійснено.

Правоохоронці провели низку обшуків та вилучили фінансову документацію, носії інформації та інші докази, що можуть підтверджувати протиправну діяльність. Наразі шістьом фігурантам повідомлено про підозру. Їм інкримінують привласнення та розтрату бюджетних коштів в особливо великих розмірах, а також службове підроблення.

У межах кримінального провадження триває досудове розслідування. Слідчі встановлюють роль кожного учасника схеми та перевіряють можливу причетність інших осіб. Також вирішується питання про обрання запобіжних заходів підозрюваним.

Трипільська ТЕЦ є одним із ключових об’єктів енергетичної інфраструктури регіону, тому ефективність та прозорість використання коштів на її відновлення має стратегічне значення.