Штучний інтелект погано впорався з поясненням наукових статей
Великі мовні моделі на основі штучного інтелекту, зокрема Chat GPT, виявилися схильними надміру спрощувати результати та висновки наукових статей. При цьому нові їх версії впоралися з узагальненням статей ще гірше за старіші. Схильність цих моделей до узагальнення та спрощення може навіть нашкодити користувачам, наприклад, якщо на основі медичної статті штучний інтелект порадить неправильне лікування. Дослідження опублікували в журналі Royal Society Open Science.
Які моделі штучного інтелекту не пройшли перевірку науковцями?
Зважаючи на те, скільки людей користується штучним інтелектом для пояснення наукових статей і повсякденних речей, науковці вирішили перевірити точність 10 найбільш розповсюджених моделей на його основі. Серед них були великі мовні моделі ChatGPT-4o, ChatGPT-4.5, DeepSeek, LLaMA 3.3 70B і Claude 3.7 Sonnet. Ці моделі попросили узагальнити статті чи їх анотації з наукових (Science, Nature) і медичних журналів (The New England Journal of Medicine, Lancet).
Запити до мовних моделей науковці змінювали: одні запити просили просто узагальнити статтю, другі — детально її прочитати та дати узагальнення згідно з фактами, треті — не відхилятися від зазначеної в статті інформації. Загалом науковці отримали 4300 узагальнених анотацій наукових статей і 600 узагальнених статей. Їх порівнювали з оригінальним текстом статей та узагальненнями, написаними іншими науковцями для журналів. Як з’ясувалося, моделі штучного інтелекту робили надмірні узагальнення у майже п’ять разів частіше, ніж ті науковці, які писали узагальнений зміст дослідження для журналу.
Китайський штучний інтелект DeepSeek, три моделі ChatGPT та дві моделі LLaMA надміру узагальнювали та спрощували інформацію у 26-73 відсотках випадків. Найменший відсоток таких спрощень мала мовна модель Claude. Старі моделі, такі як GPT-4 Turbo та LLaMA 2 70B, містили надміру узагальнену інформацію у 2,6 раза частіше, ніж анотації статей, тоді як новіші ChatGPT-4o та LLaMA 3.3 70B містили таку інформацію вже у 9 і 39 разів частіше. І такий результат зберігався навіть тоді, коли науковці просили штучний інтелект не відхилятися від поданих у статті фактів і не спотворювати їх. Тож навіть правильно сформований запит не захищає від помилки штучного інтелекту, тому отриману від нього інформацію потрібно перевіряти, наголошують науковці.
Наскільки точним може бути штучний інтелект
🤥 Дослідники вже з’ясували, що менш точними мовні моделі робить навчання на відгуках користувачів, через що вони можуть помилятися навіть у простих для людини завданнях.
🧠 Крім того, перевірка моделей штучного інтелекту в тесті на ознаки деменції показала, що майже усі старі його моделі відповідають критеріям діагностування цієї хвороби.
🫠 Та і в самих людей, які часто покладаються на допомогу штучного інтелекту, виявилися гіршими навички до критичного мислення, особливо у молодому віці.