Розробники американської компанії OpenAI навчили свою нейромережу з обробки мовлення шукати відповіді на питання в інтернеті та підкріплювати їх посиланням на джерело. Модифікована GPT-3 формує запити подібно тому, як би ви питали пошуковик про щось, а затим збирає уривки з вебсторінок, які використовує для складання відповіді, а саму відповідь доповнює посиланням на першоджерело. Як навчити нейромережу шукати відповіді в інтернеті та не забувати, звідки саме вони взялися, розробники повідомили у статті, яку коротко переказали у своєму блозі.
Як нам відповідають нейромережі?
Комбінування машинного навчання із зовнішніми джерелами інформації принесло алгоритми, які здатні відповідати на практично будь-які наші питання з кінця 2010-х років. Подібним підходом мовна модель DeepQA/WATSON змогла обіграти найкращих гравців у телевікторину Jeopardy. Вони зможуть відповісти на таке ваше запитання, як, наприклад, чи є у равлика мозок.
Однак потім нейромережі навчили враховувати всі слова у тому, що ви їй повідомляєте. Відповіді у розгорнутій формі вимагають не лише пошуку відповідної інформації в інтернеті, а й об'єднання цієї інформації у декілька зв'язних речень. Щоб досягти прогресу у розгорнутих відповідях на питання, дослідникам (і нейромережам) потрібен великий урізноманітнений набір даних, щоб на складні питання типу «як» і «чому» можна було отримати зв'язну повноцінну відповідь довжиною в абзац. І GPT-3 від OpenAI (Generative Pre-trained Transformer, її третє покоління), диференціюючи ваші запити, так може.
GPT-3 може відповісти на запитання типу «Як працює мозок равлика?», ще писати вірші, розгадувати анаграми або перекладати прочитане. І її відповіді важко відрізнити від написаних людиною. Однак часто розказані нейромережею історії можуть виявитися галюцинаціями: правдоподібними, але зовсім не правдивими. І тому розробники з OpenAI вирішили привчити GPT-3 надавати розгорнуті відповіді на запитання, але при цьому підкріплювати їх посиланнями на джерела.
Як привчити нейромережу відповідати за свої слова?
Створений прототип копіює те, як люди шукають відповіді на запитання в інтернеті – нейромережа надсилає пошукові запити, переходить за посиланнями та прокручує сторінки браузера вгору та вниз. Словом, все те саме, що робили би ви. При цьому GPT-3 навчена цитувати свої джерела, що підвищує фактологічну точність та спрощує ваше сприйняття її відповідей. Модель збирає уривки зі знайдених нею у браузері сторінок, а потім використовує їх для складання відповіді. Точність моделі підвищують, винагороджуючи її за прийнятні відповіді за допомогою навчання із підкріпленням.
Так GPT-3 доручили шукати відповіді на запитання у стилі Explain Like I'm Five («поясни так, ніби мені п'ять років») у спеціально створеному для неї текстовому браузері. Відповідь на запитання модель теж шукала за людським прикладом. Її навчали, показавши, як люди шукали б відповіді на такі самі питання в інтернеті.
За цим прикладом вона, поки сама не задовольниться відповіддю, не перевиконає певну кількість дій або не збере необхідну кількість даних, згенерує єдину підсумкову відповідь, де на конкретні твердження розставить посилання.
Як відповіла нейромережа?
Щоб перевірити успіх своєї розробки, дослідники порівнювали відповіді GPT-3 з відповідями на ті ж питання користувачів Reddit. Завдання ж добровольців полягало в тому, щоб вибрати найкращу із запропонованих варіантів відповідей. Самі відповіді вчені оцінювали як за правдивістю, так і за інформативністю. Тобто, наскільки корисною і зрозумілою була відповідь, а також чи була точною. У результаті контрольна група надала перевагу відповідям нейромережі у 69 відсотках випадків. За оцінкою ж її відповідей, вони були правдиві у 75 відсотках випадків, а водночас правдиві та інформативні в 54 відсотках, що перевершує результати базової моделі GPT-3.
Однак, за словами розробників, хоч модель загалом правдивіша, ніж GPT-3 (у тому сенсі, що вона рідше генерує помилкові твердження), вона все ж таки пов'язана з ризиками. Відповіді з цитуванням сприйматимуться як правдиві, однак нейромережа не обов'язково обере достовірне джерело, шукаючи у мережі.
Залишається низка питань, на які належить відповісти розробникам нових моделей. Що робить джерело надійним? Які твердження є достатньо очевидними, щоб не вимагати посилання? Чи є компроміс між точністю та зрозумілістю відповіді? Вчені повідомляють, що достатньо дієва модель зможе сама відбирати джерела з найвищим ступенем довіри, імовірно, використовуючи змагальний підхід між своїми відповідями.
Навчити нейромережі відповідати на питання розгорнуто, і при цьому підкріплювати свої відповіді посиланнями на джерела, ввижається набагато кращою ідеєю за сліпу довіру текстам, які, на перший погляд, і не відрізнити від написаних людиною. І хоч навіть модифікованій GPT-3 поки не рекомендують повністю довіряти, вона може значно спростити роботу. Так само як наприклад, нейромережа, яку навчили виокремлювати важливі частини умов користування на сайтах, на які вам варто було б звернути увагу. Вона не зможе зняти з вас відповідальність за непрочитані пункти, однак значно полегшить вам завдання. Втім, для цього завдання вчені розробили алгоритм, з яким нейромережа повідомляє не лише результат, а і його правдивість, оцінюючи ступінь своїх знань при наданні певної відповіді.