Підпишіться на наш інстаграм!

Вигідна помилка. Чому штучний інтелект вчать брехати замість казати «не знаю»

Сучасні чатботи, такі як ChatGPT, вміють робити майже все, крім одного — чесно говорити «я не знаю». Виявилося, що ця «галюцинація» — не технічна помилка, а результат логіки, за якою розробники навчають свої системи штучного інтелекту. Спираючись на дослідження компанії-розробника штучного інтелекту OpenAI та Технологічного інституту Джорджії, журналісти Science розібралися, чому галюцинації стали нормою і чому розробники не поспішають їх усувати. Причина — бізнес та звичайна людська психологія. Переказуємо головне.

GIPHY

GIPHY

Галюцинації — системна риса ШІ

Сьогодні ШІ цілком здатний допомогти з покупками, підсумувати десятки сторінок тексту чи написати електронні листи, але так само він схильний впевнено видавати хибні відповіді. Для більшості користувачів це виглядає як випадковий збій розумної системи, але у новому дослідженні «Why Language Models Hallucinate» науковець у галузі комп’ютерних наук та штучного інтелекту з OpenAI Адам Калаї разом із колегами наводить інше пояснення: «Мовні моделі галюцинують, бо стандартні підходи до навчання й оцінювання винагороджують здогад, а не визнання невпевненості».

Власне, сама назва — галюцинації — не зовсім точно відповідає цьому явищу, адже мовні моделі не мають чуттів. Під цим терміном зазвичай мають на увазі правдоподібні, але хибні твердження, які ШІ подає з високою впевненістю й без посилань на перевірені джерела. Частина дослідників пропонує використовувати точніші терміни, на кшталт статистичних помилок чи вигадок, які виникають у процесі моделювання мови. Для загального сприйняття важливо розуміти, що це не поодинокі збої, а радше характерна риса ШІ, яка виникає з методів навчання і тестування.

GIPHY

GIPHY

На базовому рівні великі мовні моделі вчаться на великих обсягах текстів передбачати наступне слово в послідовності. При цьому метою моделі є доповнити текст словом, яке статистично найкраще вписується в контекст. На цьому етапі модель не розрізняє істинні й хибні твердження — її цікавить мовна правдоподібність, а не фактологічна правдивість.

Після тренування відбуваються численні допрацювання й виправлення, мета яких — додати моделі спеціалізації, забезпечити її правильну поведінку та пояснити, які результати від неї очікують у відповідь на конкретне повідомлення чи запитання. Та жоден з цих етапів не передбачає створення вбудованого індикатора істини: модель, як і до того, продукує найбільш ймовірнісно доречне продовження. Саме тому вона намагатиметься дати відповідь, навіть якщо їй для цього бракуватиме інформації.

У своїй статті дослідники OpenAI підкреслюють, що галюцинації природно випливають із того, як розробники оцінюють моделі. Вони проаналізували це на прикладі задачі, де система має визначити, чи є твердження істинним. У реальності модель не завжди впевнена, але на бенчмарках – своєрідних іспитах для моделей – вона отримує бали лише за правильні відповіді. Тоді, якщо за хибну відповідь, як і за її відсутність, модель не отримує нічого, стратегія вгадувати стає вигіднішою, ніж стратегія мовчати. Автори статті порівнюють таку поведінку зі студентом на іспиті: якщо за пропущене питання балів точно не буде, то раціонально хоча б спробувати.

GIPHY

GIPHY

Ціна боротьби з галюцинаціями

Сьогодні розробники мають у своєму розпорядженні цілий набір інструментів, які допомагають боротися з галюцинаціями під час роботи мовної моделі. Найпопулярнішими серед них є інструкційне дотренування, яке підказує кліше відповідей на нестандартні чи неможливі запитання, та розширення контекстної інформації завдяки зовнішнім джерелам, що часто допомагає моделі спиратися на конкретні факти. Також під час роботи моделі застосовують самоперевірку, кілька раундів генерації, зниження температури, різноманітні фільтри безпеки. Це справді зменшує кількість відвертих вигадок і небезпечних порад, особливо в публічних продуктах.

Водночас маючи на руках численні інструменти, розробники не поспішають усувати першопричину галюцинацій мовних моделей. Така, на перший погляд, контрінтуїтивна стратегія насправді має цілком вагомі причини.

За кожною популярною мовною моделлю стоїть компанія, яка прагне зробити свій продукт максимально привабливим. З погляду користувача асистент, який завжди щось відповідає, часто виглядає кориснішим, ніж той, який регулярно каже «я не знаю» чи «мені бракує даних». У короткостроковій перспективі впевненість, навіть інколи помилкова, може здаватися конкурентною перевагою.

GIPHY

GIPHY

Так формується компроміс між технічними особливостями та образом універсального помічника, який має відповідь на все. За цією логікою галюцинації враховують як керований фактор ризику, прийнятний у тих сценаріях, де немає жорстких вимог до прозорості чи надійності відповідей.

«Капітальні витрати, ціни на енергію та обчислення зростають, проте ефективність страждає через дедалі менші прибутки», — пояснив економіст Делфтського університету технологій Серваас Сторм.

За його словами, в умовах, коли лише п’ять відсотків користувачів бажають платити за підписку на послуги OpenAI, ніхто не хоче ризикувати зміною правил підготовки моделей ШІ, оскільки користувачі можуть перейти до конкурентів, чиї моделі виглядають більш впевненими у своїх відповідях.

Мовні моделі ніколи не будуть абсолютно точними

Теоретичні основи роботи мовних моделей і досвід їхнього використання показують, що певний рівень хибних відповідей є неминучим, тож очікувати від них абсолютно точного відтворення реальності не варто. Аналітичний розбір цієї проблеми у першоджерелі від OpenAI демонструє, що для частини запитів, особливо рідкісних фактів, помилки будуть завжди, тож повністю позбутися галюцинацій не вийде — навіть якщо змінити методи тестування.

Таким чином, бізнеси, які забезпечують роботу великих мовних моделей, постійно стоять перед вибором: змусити моделі чесно визнавати свою некомпетентність у певних питаннях чи дозволити їм викручуватись, хай і ціною неточностей та вигадок. Дотепер стандартом в галузі вважається саме другий варіант.

Для користувачів це означає, що великі мовні моделі варто сприймати як корисні інструменти, але не як джерело остаточної істини. Особливо у сферах медицини, права чи фінансів, де їхні поради слід сприймати як початковий етап перевірки, а не її фінальний результат.

Своєю чергою компанії та регулятори стикаються з питанням, чи готові вони підтримати стандарт, у якому чесне «не знаю» вважається не провиною ШІ, а ознакою зрілості системи. Експерти, зокрема дослідник ШІ Шефілдського університету Вей Сін, сумніваються, що найбільші гравці ринку швидко відмовляться від образу всезнаючих асистентів: «Виправлення галюцинацій убило б сервіс», — каже він.

У підсумку саме від обраної сьогодні стратегії залежить, наскільки коректною буде поведінка мовних моделей завтра.