🔊 SenseVoice — это универсальная модель для обработки речи, способная распознавать речь,
10 апреля 2025 г.DevOps

🔊 SenseVoice — это универсальная модель для обработки речи, способная распознавать речь, определять язык, анализировать эмоции и выявлять звуковые события. Она поддерживаете более 50 языков, а её точность превосходит Whisper.
Модель отличается высокой скоростью обработки: например, SenseVoice-Small тратит всего 70 мс на 10 секунд аудио, что в 15 раз быстрее Whisper-Large. Она также умеет определять эмоции в речи и распознавать звуки вроде музыки, смеха или кашля.
Разработчики предлагают удобные инструменты для дообучения под свои задачи и готовые решения для развёртывания. Недавно добавили поддержку временных меток, экспорт в ONNX и улучшили мультиязычное распознавание.
🤖 GitHub
@devopsitsec