logo

Разработчики ИИ-модели SeamlessM4T компании Meta опубликовали интересную статью в научном журнале Nature

Разработчики ИИ-модели SeamlessM4T компании Meta опубликовали интересную статью в научном журнале Nature
Разработчики ИИ-модели SeamlessM4T компании Meta опубликовали интересную статью в научном журнале Nature о её работе — сейчас модель способна синхронно переводить «речь в речь» на 101 язык мира.

Уникальность её в том, что она переводит слова сразу же, как только они «слетают с уст» говорящего. Обычно модели перевода речи используют многоэтапный подход. Сначала они переводят исходную речь в текст. Затем они переводят этот текст в текст на другом языке. Наконец, переведенный текст превращается в речь на новом языке. В результате получается «сломанный телефон» — на каждом этапе модели теряют не только в скорости, но и в точности перевода. SeamlessM4T переводит речь без «костыля» в виде текста.

Это возможно благодаря «параллельному интеллектуальному анализу данных». Модель обучена на данных звучания одних и тех же речевых высказываний на разных языках. «Субитры» в наборе данных тоже были, но SeamlessM4T научилась связывать звуки на одном языке с соответствующим речевым воспроизведением такого же текста на другом и делает перевод без этапа расшифровки / озвучания.

Исследователи Meta протестировали точность модели при помощи алгоритма для оценки качества перевода BLEU (Bilingual Evaluation Understudy). По результатам исследований модель Seamless получила оценки по разным показателям на 8-23% выше, чем конкурирующие с ней модели перевода. По оценкам разработчиков, в среднем Seamless примерно на 50% более устойчива к фоновому шуму, чем другие современные системы.

И хотя AudioPaLM от Google технически «знает» больше языков — 113 против 101 у Seamless — она может переводить их только на английский. SeamlessM4T не только понимает, но и сама говорит на 36 других языках. Уже само количество освоенных моделью языков является большим достижением.

Что в момент запуска модели в августе 2023 года, что сейчас Meta использует в качестве референса вавилонскую рыбку из фантастических книг Дугласа Адамса «Автостопом по галактике». Эту рыбку герои вставляли себе в ухо — а та им переводила звуки инопланетных существ на человеческий в режиме real-time. И за 1,5 года модель Seamless, кажется, стала ближе к своей цели.

А почитать публикацию в Nature можно по ссылке.

* Meta признана экстремистской в РФ

Канал источник:@antidigital