Нова нейромережа озвучила згенеровані іншою нейромережею відео

Компанія ElevenLabs показала нейромережу, яка може озвучувати відео, які створює нова нейромережа Sora від OpenAI. Для цього потрібно дати опис звукового супроводу, але у майбутньому ElevenLabs обіцяють, що їхня модель сама підбере аудіо на основі опису лише сцени для відео, пише New Atlas.

Озвучені нейромережею ролики. ElevenLabs / YouTube


👋 Слідкуйте за наукою разом з нами — підписуйтеся на наш телеграм та інстаграм, буде цікаво!


Як працює нейромережа?

Дотепер ElevenLabs працювала над програмним забезпеченням на основі штучного інтелекту для рекламних роликів і фільмів. Нейромережа мала б автоматично дублювати мовлення з відео на 20 мов зі збереженням оригінального тону й стилю. Тепер на її основі створили модель, яка озвучує відео, створені нещодавно представленою нейромережею Sora. Нейромережі допомогли підказки у тексті як-от «звук хвиль», «дзвін металу» чи «співи птахів». Зараз подробиці генерування цих ефектів ElevenLabs не розкриває, але з прикладів видно, що вона може додати фонові звуки не лише вулиці, а й шум від ходьби механічного робота.

  • ElevenLabs не єдина працює над створенням звуків за допомогою штучного інтелекту. Раніше таку створили вчені університету Карнегі-Меллон, використовуючи бібліотеки звукових ефектів.