Американські дослідники вирішили перевірити голосових помічників та людей на стійкість до обману від синтетичного голосу та знайшли спільні вразливості. Так пильність розумних колонок вдалося приспати англійським акцентом, а люди охочіше поділилися своїми даними у «комфортних умовах» онлайн-співбесіди без відеозв'язку. Синтетичний голос вчені створювали за допомогою загальнодоступних додатків та перевіряли на чотирьох найпопулярніших голосових помічниках. Стаття доступна на сервісі препринтів arXiv.
Чому потрібно захищатися від синтетичних голосів?
Наш голос передає набагато більше інформації, ніж просто слова, які ми їм озвучуємо. Це фундаментальна частина нашої ідентичності, яку часто називають «слуховим обличчям». На слух ми можемо приблизно оцінити стать, вік, національність і навіть ріст і соціально-економічний статус. Хоча ідентифікація людини по голосу недосконала, вона надихнула на створення систем розпізнавання осіб з метою безпеки, а також на прості додатки, що полегшують нам життя. Сьогодні голосом можна викликати холодильник, вмикати кавоварку, керувати авто, вносити плани у календар – системи автоматичного розпізнавання мовлення еволюціонували в персональних асистентів.
Але всі особливості голосу так само легко, як розшифровуються алгоритмами, піддаються глибинному навчанню. Нейромережі спокійно здатні імітувати людський голос і тому крім пропрієтарних систем, таких як Google Duplex, які здатні зателефонувати за вас в магазин і зробити замовлення, існує величезна кількість додатків, які перетворюють існуючі голосові зразки у потрібні вам речення.
І так, з огляду на тісний зв'язок між нашими голосами і нашою ідентичністю, інструмент, який імітує наші голоси, може завдати серйозної шкоди. По-перше, він може обійти голосові системи аутентифікації, наприклад, в банках. Або використовувати мобільні додатки для обміну голосовими повідомленнями, такі як WeChat. Безумовно постраждає і популярна концепція інтернету речей, коли вашими голосовими помічниками Alexa від Amazon і Google Home можна буде покерувати і без вас. Тому у своїй роботі вчені з Чиказького університету взялися випробовувати комерційні системи Microsoft Azure, WeChat і Alexa на стійкість до синтетичного голосу, а разом з тим і 14 добровольців — чи зможуть вони розпізнати фейк.
Наскільки вразливі голосові помічники?
Вчені використовували дві загальнодоступні системи синтезу голосу. Одній системі, AutoVC, потрібно до п'яти хвилин промови для створення прийнятної імітації цільового голосу, а іншій, SV2TTS, потрібно всього п'ять секунд. Така різниця обумовлює і якість, що допоможе зрозуміти рівень стійкості розумних колонок. З їхньою допомогою вчені намагалися розблокувати системи безпеки розпізнавання голосу, що використовуються колонками Microsoft Azure і Amazon Alexa, а також голосовим чатом WeChat. Система розпізнавання голосу Microsoft Azure сертифікована декількома офіційними галузевими організаціями, WeChat дозволяє користувачам входити в систему за допомогою голосу, а Alexa дозволяє людям використовувати свій голос для здійснення платежів в сторонніх додатках, таких як Uber. AutoVC вдавалося обдурити Microsoft Azure приблизно в 15 відсотках випадків, а SV2TTS — в 30 відсотках. Однак Azure вимагає, щоб користувачі вимовляли тригерні фрази для аутентифікації, і команда виявила, що SV2TTS може успішно підробити хоча б одну з десяти цих поширених фраз.
З огляду на більш низьку продуктивність алгоритму AutoVC, команда не пробувала використовувати його проти WeChat і Amazon Alexa, але SV2TTS успішно обманювала обидві системи приблизно в 63 відсотках випадків. За словами вчених, викликає тривогу той факт, що для всіх трьох популярних реальних систем, які послуговуються розпізнаванням голосу, існує як мінімум один синтезований зразок, який вони прийняли за справжній. Це наочно демонструє реальну загрозу атак синтезу мови. Цікаво, що навчені на наборах даних алгоритми, погано вміють відтворювати акценти. І виявилося, що на це і надія у голосових помічників — таку синтезовану мову їм частіше вдавалося відрізнити від реальної.
Як на штучний голос піддалися люди?
Продемонструвавши, що синтезований нейромережами голос може легко обдурити техніку, вчені перейшли до оцінки його впливу на людей. На відміну від попередніх робіт, де використовувалися опитування для вимірювання людського сприйняття мови, у цій роботі вони оцінювали сприйнятливість людей до синтезованої мови у різних інтерактивних умовах. Так добровольцям склали «довірливу обстановку», де вони були схильні не думати критично про голоси, які чують. Всі учасники не проявили жодних сумнівів або підозр під час інтерв'ю і з готовністю відповіли на всі запити «фальшивого інтерв'юера» і виконали їх. Довірливою обстановкою для людей вчені вважають або телефонні зустрічі, або дзвінки у Zoom з колегами, або дзвінки з одним або декількома людьми, яких вони знають (або думають, що знають).
Всі 14 учасників відповіли на три питання фальшивого інтерв'юера, відвідали запитаний вебсайт і навіть дали свій шкільний ідентифікаційний номер. Після того, як інтерв'ю завершилося і обман був розкритий, тільки четверо заявили, що, на їхню думку, щось «не так» в голосі фальшивого інтерв'юера. Важливо відзначити, що цих чотирьох учасників (навмисно) не попереджували про «застуду» співрозмовника. Цікаво, що і згадка фальшивої мови в описі опитування зробило статистично значимий вплив на відповіді — очевидний підвищений скептицизм по відношенню до ораторів.
Тож вчені закликають бути пильнішими та тримати у голові, що технології дають змогу якісно синтезувати голос. Більше про те чому ми віримо фейкам та що нам із цим робити, можна почитати у нашому матеріалі «Теорія брехні».