Speech-to-Text system

Ключевая штука для систем речевого взаимодействия.
Сейчас существует множество онлайн-сервисов с подобным функционалом, но не везде они применимы, т.к. ведут к проблемам с безопасностю (утечкам данных), могут вызывать задержкам при взаимодействии (медленный отклик) и тд.
Поэтому часто возникает необходимость использования что-то локальное.
Это решение было написано как раз для таких случаев.


Написан на C, с использованием: wstk, mpg123, alphacephei framework.
Способен работать на стандартных серверах, обеспечивает быстрый ответ, подходит для создания диалоговых систем реального времени.


Цена: 350$
Задать вопросы или уточнить детали можно на странице с контактами.
Возможен ознакомительный период с установкой на ваши серверы (предпочтительно Ubuntu 22.04 x64).



Основные возможности:


--- Примеры ---

Example #1 (simple request)

Request:
curl http://127.0.0.1:8801/v1/transcriptions -X POST -H "Authorization: Bearer secret" -H "Content-Type: multipart/form-data" -F language="en" -F smodel="small" -F file="@test.mp3"

Response (json):
{
 "text" : "hello world"
 }
        


Example #2 (with speakes identify)

Request:
curl http://127.0.0.1:8801/v1/transcriptions -X POST -H "Authorization: Bearer secret" -H "Content-Type: multipart/form-data" -F language="en" -F smodel="small" -F vmodel="default" -F file="@test.mp3"

Response (json):
{
 "spk" : [-0.644623, 1.023342, 2.575434, 0.623447, -0.602342, 1.0234234 -1.4824234 -0.021242, 0.824297, -0.152424, ... ],
 "spk_frames" : 81,
 "text" : "hello world"
}