# comic

**Repository Path**: hulutech/comic

## Basic Information

- **Project Name**: comic
- **Description**: ai连环画视频
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-01-25
- **Last Updated**: 2026-01-31

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# AI连环画剧

输入一个网址就可以生成连环画剧场，一键发布剪映，欢迎品鉴！！！  
本项目使用``https://www.a8z8.com/`` 作为连环画图片源

## 功能特性

- 连环画图片批量下载
- 图片转PDF功能
- 外部服务，AI智能提取PDF文字
- 外部服务，indexTTS，一键转音频
- capcut集成包，一键生成剪映草稿
- 支持多种图片格式（JPG, PNG, GIF, BMP, WEBP, TIFF等）


## 使用方式

main.go中填写URL地址，该地址为漫画图片列表地址

## 安装依赖

```bash
go mod tidy
```

## 使用方法

### 1. 漫画下载功能

```bash
go run main.go
```

```go
package main

import (
    "comic/pkg/imgtopdf"
)

func main() {
    // 创建转换器
	pdfConverter := imgtopdf.NewImageToPDFConverter("", "", "", 0)
    
    // 转换单张图片
	pdfConverter.ConvertSingleImage(actualFilePath, pdfSavePath)

	// OCR识别
	resp, err := ocrService.RecognizeFromPDFFile(pdfSavePath)
}
```

## 支持的图片格式

- JPG/JPEG
- PNG
- GIF
- BMP
- WEBP
- TIFF/TIF


## 包结构

- `pkg/imgtopdf`: 图片转PDF功能包
- `pkg/ocr.go`: OCR识别功能
- `pkg/capcut/`: CapCut相关功能
- `main.go`: 主程序入口

## 技术栈

- Go 1.25.5
- [gofpdf](https://github.com/phpdave11/gofpdf): PDF生成库
- [colly](https://github.com/gocolly/colly): 网络爬虫框架
- [chromedp](https://github.com/chromedp/chromedp): Chrome浏览器控制

# Comic AI - 图片文字解析工具

本项目集成了 MinerU OCR 功能，用于从图片中提取文字内容。项目依赖：[https://github.com/hulutech-web/mineru](https://github.com/hulutech-web/mineru)

## 功能特性

- 使用 MinerU 进行高质量 OCR 识别
- 支持多种图片格式（JPG, PNG, BMP 等）
- 中文优化的文字识别
- 与项目原有 OCR 服务集成
- 提供 API 服务供外部调用

## 系统要求

- Go 1.19+
- Python 3.8+
- pip
- uv (Python 包管理器)

## 安装依赖

### 1. 安装 Python 依赖

```bash
# 安装 MinerU（已通过 install_mineru.sh 自动安装）
./install_mineru.sh

# 或者手动安装
pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple
```

### 2. 设置环境变量

```bash
export MINERU_MODEL_SOURCE=modelscope
```

### 3. 安装 Go 依赖

```bash
go mod tidy
```

## 使用方法

### 使用 Go 程序调用 MinerU OCR

```bash
# 基本用法
go run main.go 
```

### API 接口说明

新的 MinerU OCR 服务提供与原服务相同的 API 接口：

- `POST /api/ocr/base64`: 使用 Base64 进行 OCR 识别
- `POST /api/ocr/file`: 使用文件上传进行 OCR 识别
- `GET /health`: 服务健康检查
- `GET /`: 服务信息

请求和响应格式与原服务完全兼容。

## 项目结构

```
.
├── pkg/
│   ├── tools.go          # MinerU OCR 服务封装
│   └── ocr.go           # 项目原有 OCR 服务
├── python/
│   ├── image_ocr_mineru.py  # 新 MinerU OCR API 服务（替换原服务）
│   └── requirements.txt # Python 依赖
├── install_mineru.sh    # MinerU 安装脚本
├── main.go             # 主程序入口
└── README.md
```

## 配置

MinerU 使用以下环境变量进行配置：

- `MINERU_MODEL_SOURCE`: 设置为 `modelscope` 以使用阿里云模型源加速下载

## 技术说明

### MinerU 集成

MinerU 是一个强大的文档解析工具，不仅能处理 PDF，还可以用于图片 OCR 识别。本项目通过以下方式集成：

1. 将单张图片转换为 PDF 格式
2. 使用 MinerU 的 PDF 解析管道进行 OCR 识别
3. 提取识别结果并进行后处理

### 新服务特性

新的 MinerU OCR API 服务：

- 提供与原服务相同的 API 接口
- 使用 MinerU 引擎进行更高质量的 OCR 识别
- 支持健康检查接口
- 更好的错误处理和日志记录

## 依赖管理

Python 依赖包含在 [python/requirements.txt](python/requirements.txt) 中：

- mineru[core]: 核心 MinerU 库
- PyMuPDF: PDF 处理
- pillow: 图像处理
- fastapi: API 框架
- uvicorn: ASGI 服务器
- 其他必要的库

## 注意事项

1. 首次使用时，MinerU 会下载大量模型文件，可能需要一些时间
2. 确保有足够的磁盘空间（模型文件可能超过 1GB）
3. 网络连接稳定以确保模型文件正确下载
4. 对于大型图片，处理时间可能较长
5. 新服务使用端口 8081，原服务使用端口 8081

## 故障排除

如果遇到问题：

1. 检查 MinerU 是否正确安装：`python -c "import mineru"`
2. 确认环境变量设置：`echo $MINERU_MODEL_SOURCE`
3. 检查网络连接和防火墙设置
4. 查看详细的错误信息

## 性能优化

- 对于批量处理，建议使用新的 MinerU OCR 服务
- 对于高质量文档 OCR，推荐使用 MinerU
- 根据具体需求选择合适的语言模型