Данная технология была разработана в отделе Искусственного Интеллекта в компании BTSDigital. Может распознавать речь на казахском и русском языках.
Как это работает
Для входных данных принимает файл с аудио и выдает текст распознанной речи. Доступ осуществляется под секретным ключом, который будет выдан представителем сервиса.
Подключение к API
Адрес: stt-btsd.kz/transcribe
Техническое описание
Host: stt-btsd.kz
Endpoint: /transcribe
Метод: POST
Заголовки:
content-type: application/octet-stream
api-key (Секретный ключ): ''
Тело:
Binary audio file
Формат аудиофайла:
16bit wav
Приемлемая частота дискретизации (sample rate):
16000 Hz (для русского языка)
8000 Hz (для казахского языка)
8000 Hz (для смешанного языка)
Описание аргументов:
lang (обязательный): Указывает язык для распознавания речи. Принимает значения:
ru - Русский
kz - Казахский
mix - Смешанный(Русский/Казахский)
audio (обязательный): Бинарный файл аудио (формат 16bit wav, частота дискретизации в зависимости от языка).