# subtitle-extract **Repository Path**: devoink/subtitle-extract ## Basic Information - **Project Name**: subtitle-extract - **Description**: 音视频字幕提取 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-03-14 - **Last Updated**: 2025-03-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 视频/音频字幕提取工具 这是一个使用 OpenAI Whisper 模型从视频或音频文件中提取字幕的工具。 ## 功能特点 - 支持多种视频格式(mp4, avi, mkv, mov) - 支持多种音频格式(mp3, wav, m4a, aac) - 可输出 SRT 或纯文本格式的字幕 - 支持自动语言检测 - 支持指定特定语言 ## 安装依赖 ### 使用 Conda 环境(推荐) 1. 创建并激活新的 Conda 环境: ```bash conda env create -f environment.yml conda activate subtitle-extract ``` 2. 验证安装: ```bash python -c "import whisper, moviepy, pydub" ``` ### 使用 pip 安装(替代方案) 如果您不使用 Conda,也可以直接使用 pip 安装依赖: ```bash pip install -r requirements.txt ``` 注意:如果不使用 Conda,您可能需要手动安装 ffmpeg: - macOS: `brew install ffmpeg` - Ubuntu: `sudo apt-get install ffmpeg` - Windows: 从 ffmpeg 官网下载并添加到系统环境变量 ## 使用方法 基本用法: ```bash python extract_subtitles.py 视频文件路径 ``` 高级用法: ```bash python extract_subtitles.py 视频文件路径 --format srt --language zh ``` ### 参数说明 - `file_path`:必需参数,视频或音频文件的路径 - `--format`:可选参数,输出格式,可选 "srt" 或 "txt",默认为 "srt" - `--language`:可选参数,音频语言,默认为 "auto"(自动检测) ### 示例 1. 从视频文件提取字幕(自动检测语言): ```bash python extract_subtitles.py video.mp4 ``` 2. 从音频文件提取字幕并指定中文: ```bash python extract_subtitles.py audio.mp3 --language zh ``` 3. 提取纯文本格式的字幕: ```bash python extract_subtitles.py video.mp4 --format txt ``` ## 注意事项 1. 首次运行时会下载 Whisper 模型,这可能需要一些时间 2. 处理长视频时可能需要较长时间 3. 确保有足够的磁盘空间用于临时文件 4. 如果遇到 CUDA 相关错误,可能需要安装 CUDA 工具包来启用 GPU 加速