# subtitle-extract

**Repository Path**: devoink/subtitle-extract

## Basic Information

- **Project Name**: subtitle-extract
- **Description**: 音视频字幕提取
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-03-14
- **Last Updated**: 2025-03-31

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 视频/音频字幕提取工具

这是一个使用 OpenAI Whisper 模型从视频或音频文件中提取字幕的工具。

## 功能特点

- 支持多种视频格式（mp4, avi, mkv, mov）
- 支持多种音频格式（mp3, wav, m4a, aac）
- 可输出 SRT 或纯文本格式的字幕
- 支持自动语言检测
- 支持指定特定语言

## 安装依赖

### 使用 Conda 环境（推荐）

1. 创建并激活新的 Conda 环境：

```bash
conda env create -f environment.yml
conda activate subtitle-extract
```

2. 验证安装：

```bash
python -c "import whisper, moviepy, pydub"
```

### 使用 pip 安装（替代方案）

如果您不使用 Conda，也可以直接使用 pip 安装依赖：

```bash
pip install -r requirements.txt
```

注意：如果不使用 Conda，您可能需要手动安装 ffmpeg：

- macOS: `brew install ffmpeg`
- Ubuntu: `sudo apt-get install ffmpeg`
- Windows: 从 ffmpeg 官网下载并添加到系统环境变量

## 使用方法

基本用法：

```bash
python extract_subtitles.py 视频文件路径
```

高级用法：

```bash
python extract_subtitles.py 视频文件路径 --format srt --language zh
```

### 参数说明

- `file_path`：必需参数，视频或音频文件的路径
- `--format`：可选参数，输出格式，可选 "srt" 或 "txt"，默认为 "srt"
- `--language`：可选参数，音频语言，默认为 "auto"（自动检测）

### 示例

1. 从视频文件提取字幕（自动检测语言）：

```bash
python extract_subtitles.py video.mp4
```

2. 从音频文件提取字幕并指定中文：

```bash
python extract_subtitles.py audio.mp3 --language zh
```

3. 提取纯文本格式的字幕：

```bash
python extract_subtitles.py video.mp4 --format txt
```

## 注意事项

1. 首次运行时会下载 Whisper 模型，这可能需要一些时间
2. 处理长视频时可能需要较长时间
3. 确保有足够的磁盘空间用于临时文件
4. 如果遇到 CUDA 相关错误，可能需要安装 CUDA 工具包来启用 GPU 加速