Speech-to-Text system

Ключевая штука для систем речевого взаимодействия.
Сейчас существует множество онлайн-сервисов с подобным функционалом, но не везде они применимы, т.к. ведут к проблемам с безопасностю (утечкам данных), могут вызывать задержкам при взаимодействии (медленный отклик) и тд.
Поэтому часто возникает необходимость использования что-то локальное.
Это решение было написано как раз для таких случаев.

Написан на C, с использованием: wstk, mpg123, alphacephei framework.
Способен работать на стандартных серверах, обеспечивает быстрый ответ, подходит для создания диалоговых систем реального времени.

Цена: 350$
Задать вопросы или уточнить детали можно на странице с контактами.
Возможен ознакомительный период с установкой на ваши серверы (предпочтительно Ubuntu 22.04 x64).

Основные возможности:

Полностью локальная система на базе нейросети
Не зависит ни от каких онлайн сервисов, все данные обрабатываются локально
Многоязычная поддержка
Существуют открытые модели для различных языков (русский есть)
Дообучени модели
Есть утилиты для этого в случае необходимости
Контекстный словарь
Позволяет ограничить словарь доступных слов при распозновании
Идентификация говорящего
Позволяет генерировать вектор для идентификации говорящего
Способен работать на обычных серверах
например: IBM x3550-M3
Поддерживается в FreeSWITCH
Достуно из dilaplan и скрипторв
Есть модуль для интеграции: mod_sivr_asr
Предварительная загрузка и кэширование моделей
Экономит память и повышает производительность
Простой веб-API
Простая интеграция c различными приложениями (см. пример ниже)
Поддерживаемые форматы
- wav
- mp3
- l16
Поддерживаемые ОС
- Linux

--- Примеры ---

Example #1 (simple request)

Request:
curl http://127.0.0.1:8801/v1/transcriptions -X POST -H "Authorization: Bearer secret" -H "Content-Type: multipart/form-data" -F language="en" -F smodel="small" -F file="@test.mp3"

Response (json):
{
 "text" : "hello world"
 }

Example #2 (with speakes identify)

Request:
curl http://127.0.0.1:8801/v1/transcriptions -X POST -H "Authorization: Bearer secret" -H "Content-Type: multipart/form-data" -F language="en" -F smodel="small" -F vmodel="default" -F file="@test.mp3"

Response (json):
{
 "spk" : [-0.644623, 1.023342, 2.575434, 0.623447, -0.602342, 1.0234234 -1.4824234 -0.021242, 0.824297, -0.152424, ... ],
 "spk_frames" : 81,
 "text" : "hello world"
}