## 什么是 Whisper OpenAI Whisper 是一个开源的语音识别系统,旨在将语音转换为文本。该系统特别强大,能够处理多种语言和不同的口音,以及各种音质和环境条件下的语音输入。 ## 安装 Whisper 1. Whisper 支持 CUDA 计算,安装请参考 [[NVIDIA#安装 CUDA]] 2. 安装必备工具 ```shell $ sudo apt install ffmpeg $ sudo apt install python3-full ``` 3. 在 Python 虚拟环境下安装 Whisper ```shell $ python3 -m venv venv $ source venv/bin/activate $ pip install git+https://github.com/openai/whisper.git ``` 4. 测试 ``` # 自定义模型大小和计算设备识别语音 $ whisper test.mp4 --model medium --language Chinese --device cuda ``` ## Whisper 命令行参数说明 - `--model <model_name>`: 指定要使用的模型大小。可选项有:`tiny`, `base`, `small`, `medium`, `large` - `--language <language>`: 指定音频语言,这有助于提高转录的准确性 - `--device <device>`: 指定计算设备,可选项有:cpu, cuda - `--output_dir <dir>`: 指定输出文件的目录,示例: --output_dir ./output - `--output_format <format>`: 指定输出格式,可选项有:txt, vtt, srt, tsv, json - `--tasks <task>`:,指定任务类型。可选项有:transcribe(转录),translate(翻译) - `--temperature <temperature>`: 设置采样温度,用于控制生成文本的随机性,通常在 0 到 1 之间 - `--best_of <n>`: 采样时比较不同结果,取最佳结果 - `--beam_size <size>`: 定义用于 beam search 的 beam 大小 - `--patience <patience>`: 在 beam search 中应用 patience 策略(大于1.0) ## 参考 - https://github.com/openai/whisper