ChatGPT і Claude висловилися про владу Китаю прихильніше китайською, ніж англійською

Чатботи ChatGPT і Claude прихильніше описували владу, коли політичні запити ставили мовою країни, де держава сильніше контролює медіа. Це показали шість досліджень великих мовних моделей — систем, на основі яких працюють чатботи. На прикладі Китаю дослідники з’ясували, що тексти з контрольованих державою медіа можуть потрапляти до даних для навчання моделей і через це позначатися на їхніх відповідях. Дослідження опублікували в журналі Nature.

ChatGPT і Claude висловилися про владу Китаю прихильніше китайською, ніж англійською. GIPHY

Як саме помітили вплив державного контролю?

Щоб перевірити, чи державний контроль медіа може впливати на відповіді чатботів, дослідники зіставили китайські тексти з медіа, підпорядкованих державі, з відкритими наборами даних, які використовують для навчання мовних моделей. Так вони знайшли понад 3,1 мільйона китайськомовних документів зі значними збігами з такими текстами. Також комерційні моделі відтворювали характерні фрази з державних медіатекстів, що вказало на ймовірну присутність подібних матеріалів у їхніх тренувальних даних. Коли ж відкриту модель Llama 2 додатково навчали на таких текстах, вона частіше за базову версію схвально описувала китайські політичні інституції та лідерів.

Схожу закономірність помітили й у комерційних моделях ChatGPT від OpenAI та Claude від Anthropic. Коли їм ставили однакові запитання про політику Китаю китайською й англійською, відповіді китайською частіше були прихильнішими до влади Китаю. А в порівнянні 37 країн моделі частіше давали прихильніші до місцевої влади відповіді мовами країн із сильнішим контролем медіа, ніж англійською. Автори наголошують, що це не доводить прямого втручання держав у роботу чатботів, але показує інший шлях впливу — через тексти, на яких ці системи навчаються.

Що ще відомо про приховані впливи в мовних моделях

🗳️ Раніше штучний інтелект заагітував людей голосувати за політичних кандидатів і показав, що чатботи можуть змінювати ставлення користувачів до виборів.

💬 Водночас, одна розмова з улесливим штучним інтелектом підвищила впевненість людей у власній правоті на чверть.

🔁 А мовні моделі передали одна одній схильність до шкідливих порад через приховані сигнали в даних, навіть коли ті не містили очевидно небезпечного змісту.