► 🔊 SenseVoice — это универсальная модель для обработки речи, способная распознавать речь,

🔊 SenseVoice — это универсальная модель для обработки речи, способная распознавать речь, определять язык, анализировать эмоции и выявлять звуковые события. Она поддерживаете более 50 языков, а её точность превосходит Whisper.

Модель отличается высокой скоростью обработки: например, SenseVoice-Small тратит всего 70 мс на 10 секунд аудио, что в 15 раз быстрее Whisper-Large. Она также умеет определять эмоции в речи и распознавать звуки вроде музыки, смеха или кашля.

Разработчики предлагают удобные инструменты для дообучения под свои задачи и готовые решения для развёртывания. Недавно добавили поддержку временных меток, экспорт в ONNX и улучшили мультиязычное распознавание.

🤖 GitHub

@devopsitsec