Вчені показали нову нейромережу, що зможе розрізняти оригінальні відео від діпфейків — тих, на яких нейромережі замінили справжнє обличчя на інше, наприклад, відомої людини. Для цього її навчали на кількох годинах справжніх відео, а вона зчитувала характерні якійсь особі міміку, жести та особливості мовлення. Розробники зосередилися на підробках відео з відомими людьми, зокрема з Володимиром Зеленським. 8 годин відео з ним було для моделі достатньо, аби зі 100-відсотковою точністю відрізняти справжні відео від фейкових. Своїми результатами вчені поділилися у Proceedings of the National Academy of Sciences. Як пишуть розробники, їхній підхід до навчання штучного інтелекту підійде і для інших осіб.
Хіба діпфейк з Зеленським було так важко розпізнати?
Діпфейками (діпфейк) називають технологію реалістичної заміни облич накладанням за допомогою нейромереж одних зображень та відео на інші. І хоча технологія створювалась для використання, наприклад, у кіно та рекламі, більш відомою вона стала через творення фальшивих порнографічних відео з відомими людьми.
Ще в перші дні повномасштабного вторгнення російської армії зокрема СБУ попереджало про можливі фейкові відео із Володимиром Зеленським. У березні ми їх побачили — від імені президента говорила доволі поганої якості голова з його обличчям, що була не менш неякісно «приклеєна» до тіла. Однак у цій області є набагато більш довершені технології, а тому такі соцмережі як Twitter, Facebook та подібні оголосили про видалення діпфейк-контенту, блокування його видавців та шукають способи боротьби з ним.
Проблемі діпфейк-відео зокрема з політиками присвятили своє дослідження науковці з Чехії та США, взявши за приклад нещодавній випадок із президентом України. Вони взялися за розробку класифікатора, який зможе допомагати вирізняти підробки від оригіналів.
На що слід звертати увагу?
У ході роботи вчені прагнули знайти оптимальну кількість рис, на які нейромережа має звертати увагу, щоб відрізнити оригінальне відео від несправжнього. Всього дослідники відібрали 780 поведінкових рис, які можна виділяти на відео, і навчали класифікатори на випадково обраних наборах. Найбільш виразними виявилися міміка, жести та особливості мовлення. Як зазначають розробники, технологіям створення діпфейк-відео буде складно моделювати всі три патерни, а також і взаємозв'язок між ними. Натомість навчена звертати на них нейромережа зможе виявити підробку.
Таким чином, з кожного відеосегменту нейромережа має визначити положення орієнтирів на обличчі, а зокрема положення голови, напрям погляду, а також відстань між кутками рота і відстань між верхньою та нижньою губами, що розкриває приблизно 20 ознак мімічних манер. Також на кожному сегменті оцінюється положення рук, кистей та плечей, а аудіо нейромережа аналізує за розкладеним на спектр записом, в якому може виділити потрібні характеристики. Загалом вона може враховувати 20 рис обличчя, 12 особливостей жестикуляції та 8 ознак особливостей мовлення.
Як у нейромережі вийшло впізнати Зеленського?
Щоб запам'ятати такі характерні риси у промовах Зеленського, нейромережі знадобилося трохи більше восьми годин відео з ним, які вчені взяли у відкритому доступі. Відрізнити справжнього президента України від створеного з ним на замовлення дослідників діпфейк-відео такий класифікатор зміг із 100-відсотковою точністю.
Як пишуть автори роботи, їхній підхід можна використовувати і для виявлення діпфейк-відео й інших особистостей, якщо показати нейромережі їхні оригінальні відео, аби вона могла вивчити їхні характерні риси. Втім, вони не планують публікувати свій класифікатор у відкритий доступ, але пропонують надати доступ до нього журналістам, щоб протидіяти дезінформації.
Також раніше ми розповідали, як діпфейк-відео запропонували ідентифікувати за серцебиттям — шукати на обличчях сліди кровообігу. А створені нейромережами фото інша нейромережа зможе впізнати за надто рівними зіницями ока, адже у людей ці контури не є ідеальними.