Openai Whisper - 小武Alan的笔记

## 什么是 Whisper OpenAI Whisper 是一个开源的语音识别系统，旨在将语音转换为文本。该系统特别强大，能够处理多种语言和不同的口音，以及各种音质和环境条件下的语音输入。 ## 安装 Whisper 1. Whisper 支持 CUDA 计算，安装请参考 [[NVIDIA#安装 CUDA]] 2. 安装必备工具 ```shell $ sudo apt install ffmpeg $ sudo apt install python3-full ``` 3. 在 Python 虚拟环境下安装 Whisper ```shell $ python3 -m venv venv $ source venv/bin/activate $ pip install git+https://github.com/openai/whisper.git ``` 4. 测试 ``` # 自定义模型大小和计算设备识别语音 $ whisper test.mp4 --model medium --language Chinese --device cuda ``` ## Whisper 命令行参数说明 - `--model <model_name>`: 指定要使用的模型大小。可选项有：`tiny`, `base`, `small`, `medium`, `large` - `--language <language>`: 指定音频语言，这有助于提高转录的准确性 - `--device <device>`: 指定计算设备，可选项有：cpu, cuda - `--output_dir <dir>`: 指定输出文件的目录，示例: --output_dir ./output - `--output_format <format>`: 指定输出格式，可选项有：txt, vtt, srt, tsv, json - `--tasks <task>`:，指定任务类型。可选项有：transcribe（转录），translate（翻译） - `--temperature <temperature>`: 设置采样温度，用于控制生成文本的随机性，通常在 0 到 1 之间 - `--best_of <n>`: 采样时比较不同结果，取最佳结果 - `--beam_size <size>`: 定义用于 beam search 的 beam 大小 - `--patience <patience>`: 在 beam search 中应用 patience 策略（大于1.0） ## 参考 - https://github.com/openai/whisper