Google Cloud Speech API

Cлужит современным средством распознавания речи, которое может точно транскрибировать речь на более чем 80 языках. Он также может эффективно обрабатывать региональные акценты и шумные условия.

Сайт компании

Платформы: Кроссплатформенность

Примеры использования преобразования речи в текст

Видео

Используйте эту модель для расшифровки звука из видеоклипов или других источников (например, подкастов) с несколькими динамиками. Эта модель также часто является лучшим выбором для звука, записанного с помощью высококачественного микрофона или с большим фоновым шумом.

Телефонный звонок

Используйте эту модель для расшифровки звука во время телефонного разговора.

ASR: командование и поиск

Используйте эту модель для расшифровки более коротких аудиоклипов. Некоторые примеры включают голосовые команды или голосовой поиск.

ASR: по умолчанию

Используйте эту модель, если ваша аудиосистема не подходит ни к одной из других моделей, описанных в этой таблице. Например, вы можете использовать это для длинных аудиозаписей, в которых используется только один динамик. Модель по умолчанию будет производить результаты транскрипции для любого типа аудио, включая аудио, такое как видеоклипы, для которых есть отдельная модель, специально адаптированная для него.

Преимущества

Google Cloud Speech, еще можно встретить названия: Cloud Speech API и Speech-to-Text API позволяет проводить следующие действия:

Асинхронно расшифровать локальный аудиофайл.

Асинхронно расшифровать аудиофайл в облачном хранилище.

Асинхронно расшифровать аудиофайл со смещением времени.

Создавать асинхронный речевой файл.

Распознавать потоковую речь.

Распознавать потоковую речь с пунктуацией.

Синхронно распознавать слова.

Расшифровать локальный многоканальный файл и прочее.

Синхронное распознавание (REST и gRPC) отправляет аудиоданные в API преобразования речи в текст, выполняет распознавание этих данных и возвращает результаты после обработки всего звука.

Асинхронное распознавание (REST и gRPC) отправляет аудиоданные в API преобразования речи в текст и инициирует длительную операцию. Используя эту операцию, вы можете периодически опрашивать результаты распознавания.

Потоковое распознавание (только gRPC) выполняет распознавание аудиоданных, предоставленных в двунаправленном потоке gRPC. Запросы потоковой передачи предназначены для распознавания в реальном времени, например для записи звука в реальном времени с микрофона.