跳转至

ffmpeg

Transfer speech into text

记录几个免费的,可行的方案。收费的版本有讯飞听见,口碑不错但是没有用过。

百度语音

This two files was originally taken from Baidu Python sdk, which can convert Mandarin speech into texts:

Voice2Text.py

base.py

Watson

The IBM Watson Speech to Text service uses speech recognition capabilities to convert Arabic, English, Spanish, French, Brazilian Portuguese, Japanese, and Mandarin speech into text.

View website

Extract audio & ...

将视频或者音频转为wav格式文件均可以使用:

ffmpeg -i INPUT OUTPUT.wav

音频文件转成pcm格式(来源):

wav 文件转 16k 16bits 位深的单声道pcm文件

ffmpeg -y  -i 16k.wav  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 16k.pcm

44100 采样率 单声道 16bts pcm 文件转 16000采样率 16bits 位深的单声道pcm文件

ffmpeg -y -f s16le -ac 1 -ar 44100 -i test44.pcm  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 16k.pcm

mp3 文件转 16K 16bits 位深的单声道 pcm文件

ffmpeg -y  -i aidemo.mp3  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 16k.pcm 
// -acodec pcm_s16le pcm_s16le 16bits 编码器 
// -f s16le 保存为16bits pcm格式
// -ac 1 单声道
// -ar 16000  16000采样率