## 什么是 Whisper
OpenAI Whisper 是一个开源的语音识别系统,旨在将语音转换为文本。该系统特别强大,能够处理多种语言和不同的口音,以及各种音质和环境条件下的语音输入。
## 安装 Whisper
1. Whisper 支持 CUDA 计算,安装请参考 [[NVIDIA#安装 CUDA]]
2. 安装必备工具
```shell
$ sudo apt install ffmpeg
$ sudo apt install python3-full
```
3. 在 Python 虚拟环境下安装 Whisper
```shell
$ python3 -m venv venv
$ source venv/bin/activate
$ pip install git+https://github.com/openai/whisper.git
```
4. 测试
```
# 自定义模型大小和计算设备识别语音
$ whisper test.mp4 --model medium --language Chinese --device cuda
```
## Whisper 命令行参数说明
- `--model <model_name>`: 指定要使用的模型大小。可选项有:`tiny`, `base`, `small`, `medium`, `large`
- `--language <language>`: 指定音频语言,这有助于提高转录的准确性
- `--device <device>`: 指定计算设备,可选项有:cpu, cuda
- `--output_dir <dir>`: 指定输出文件的目录,示例: --output_dir ./output
- `--output_format <format>`: 指定输出格式,可选项有:txt, vtt, srt, tsv, json
- `--tasks <task>`:,指定任务类型。可选项有:transcribe(转录),translate(翻译)
- `--temperature <temperature>`: 设置采样温度,用于控制生成文本的随机性,通常在 0 到 1 之间
- `--best_of <n>`: 采样时比较不同结果,取最佳结果
- `--beam_size <size>`: 定义用于 beam search 的 beam 大小
- `--patience <patience>`: 在 beam search 中应用 patience 策略(大于1.0)
## 参考
- https://github.com/openai/whisper