Ключевая штука для систем речевого взаимодействия.
Сейчас существует множество онлайн-сервисов с подобным функционалом, но не везде они применимы, т.к. ведут к проблемам с безопасностю (утечкам данных), могут вызывать задержкам при взаимодействии (медленный отклик) и тд.
Поэтому часто возникает необходимость использования что-то локальное.
Это решение было написано как раз для таких случаев.
Написан на C, с использованием:
wstk,
mpg123,
alphacephei framework.
Способен работать на стандартных серверах, обеспечивает быстрый ответ, подходит для создания диалоговых систем реального времени.
Цена: 350$
Задать вопросы или уточнить детали можно на странице с контактами.
Возможен ознакомительный период с установкой на ваши серверы (предпочтительно Ubuntu 22.04 x64).
Не зависит ни от каких онлайн сервисов, все данные обрабатываются локально
Существуют открытые модели для различных языков (русский есть)
Есть утилиты для этого в случае необходимости
Позволяет ограничить словарь доступных слов при распозновании
Позволяет генерировать вектор для идентификации говорящего
например: IBM x3550-M3
Достуно из dilaplan и скрипторв
Есть модуль для интеграции: mod_sivr_asr
Экономит память и повышает производительность
Простая интеграция c различными приложениями (см. пример ниже)
- wav
- mp3
- l16
- Linux
Example #1 (simple request)
Request:
curl http://127.0.0.1:8801/v1/transcriptions -X POST -H "Authorization: Bearer secret" -H "Content-Type: multipart/form-data" -F language="en" -F smodel="small" -F file="@test.mp3"
Response (json):
{
"text" : "hello world"
}
Example #2 (with speakes identify)
Request:
curl http://127.0.0.1:8801/v1/transcriptions -X POST -H "Authorization: Bearer secret" -H "Content-Type: multipart/form-data" -F language="en" -F smodel="small" -F vmodel="default" -F file="@test.mp3"
Response (json):
{
"spk" : [-0.644623, 1.023342, 2.575434, 0.623447, -0.602342, 1.0234234 -1.4824234 -0.021242, 0.824297, -0.152424, ... ],
"spk_frames" : 81,
"text" : "hello world"
}