Аналогично системам преобразования речи в текст (см. sttd).
Также была написана для случаев когда необходимость все иметь локально и чтоб не тормазило.
Написан на C, с использованием:
wstk,
lame,
speex DSP,
espeak,
onnx,
piper.
Способен работать на стандартных серверах, обеспечивает быстрый ответ, подходит для создания диалоговых систем реального времени.
Цена: 350$
Задать вопросы или уточнить детали можно на странице с контактами.
Возможен ознакомительный период с установкой на ваши серверы (предпочтительно Ubuntu 22.04 x64).
Не зависит ни от каких онлайн сервисов, все данные обрабатываются локально
Существуют открытые модели для различных языков (русский есть)
например: IBM x3550-M3
Достуно из dilaplan и скрипторв
Есть модуль для интеграции: mod_sivr_asr
Экономит память и повышает производительность
Простая интеграция c различными приложениями (см. пример ниже)
- wav
- mp3
- Linux
Request:
curl -q http://127.0.0.1:8802/v1/speech -X POST -H "Authorization: Bearer secret" -H "Content-Type: application/json; charset=utf-8" -d '{"language":"en","samplerate":8000,"foramt":"mp3","input":"Hello, how can I help you?"}'
ответ будет как mp3 поток (файл)