Text-to-Speech system

Аналогично системам преобразования речи в текст (см. sttd).
Также была написана для случаев когда необходимость все иметь локально и чтоб не тормазило.

Написан на C, с использованием: wstk, lame, speex DSP, espeak, onnx, piper.
Способен работать на стандартных серверах, обеспечивает быстрый ответ, подходит для создания диалоговых систем реального времени.

Цена: 350$
Задать вопросы или уточнить детали можно на странице с контактами.
Возможен ознакомительный период с установкой на ваши серверы (предпочтительно Ubuntu 22.04 x64).

Основные возможности:

Полностью локальная система на базе нейросети
Не зависит ни от каких онлайн сервисов, все данные обрабатываются локально
Многоязычная поддержка
Существуют открытые модели для различных языков (русский есть)
Способен работать на обычных серверах
например: IBM x3550-M3
Поддерживается в FreeSWITCH
Достуно из dilaplan и скрипторв
Есть модуль для интеграции: mod_sivr_asr
Предварительная загрузка и кэширование моделей
Экономит память и повышает производительность
Простой веб-API
Простая интеграция c различными приложениями (см. пример ниже)
Поддерживаемые форматы
- wav
- mp3
Поддерживаемые ОС
- Linux

--- Примеры ---

Request:
curl -q http://127.0.0.1:8802/v1/speech -X POST -H "Authorization: Bearer secret" -H "Content-Type: application/json; charset=utf-8" -d '{"language":"en","samplerate":8000,"foramt":"mp3","input":"Hello, how can I help you?"}'

ответ будет как mp3 поток (файл)