# comic **Repository Path**: hulutech/comic ## Basic Information - **Project Name**: comic - **Description**: ai连环画视频 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-01-25 - **Last Updated**: 2026-01-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI连环画剧 输入一个网址就可以生成连环画剧场,一键发布剪映,欢迎品鉴!!! 本项目使用``https://www.a8z8.com/`` 作为连环画图片源 ## 功能特性 - 连环画图片批量下载 - 图片转PDF功能 - 外部服务,AI智能提取PDF文字 - 外部服务,indexTTS,一键转音频 - capcut集成包,一键生成剪映草稿 - 支持多种图片格式(JPG, PNG, GIF, BMP, WEBP, TIFF等) ## 使用方式 main.go中填写URL地址,该地址为漫画图片列表地址 ## 安装依赖 ```bash go mod tidy ``` ## 使用方法 ### 1. 漫画下载功能 ```bash go run main.go ``` ```go package main import ( "comic/pkg/imgtopdf" ) func main() { // 创建转换器 pdfConverter := imgtopdf.NewImageToPDFConverter("", "", "", 0) // 转换单张图片 pdfConverter.ConvertSingleImage(actualFilePath, pdfSavePath) // OCR识别 resp, err := ocrService.RecognizeFromPDFFile(pdfSavePath) } ``` ## 支持的图片格式 - JPG/JPEG - PNG - GIF - BMP - WEBP - TIFF/TIF ## 包结构 - `pkg/imgtopdf`: 图片转PDF功能包 - `pkg/ocr.go`: OCR识别功能 - `pkg/capcut/`: CapCut相关功能 - `main.go`: 主程序入口 ## 技术栈 - Go 1.25.5 - [gofpdf](https://github.com/phpdave11/gofpdf): PDF生成库 - [colly](https://github.com/gocolly/colly): 网络爬虫框架 - [chromedp](https://github.com/chromedp/chromedp): Chrome浏览器控制 # Comic AI - 图片文字解析工具 本项目集成了 MinerU OCR 功能,用于从图片中提取文字内容。项目依赖:[https://github.com/hulutech-web/mineru](https://github.com/hulutech-web/mineru) ## 功能特性 - 使用 MinerU 进行高质量 OCR 识别 - 支持多种图片格式(JPG, PNG, BMP 等) - 中文优化的文字识别 - 与项目原有 OCR 服务集成 - 提供 API 服务供外部调用 ## 系统要求 - Go 1.19+ - Python 3.8+ - pip - uv (Python 包管理器) ## 安装依赖 ### 1. 安装 Python 依赖 ```bash # 安装 MinerU(已通过 install_mineru.sh 自动安装) ./install_mineru.sh # 或者手动安装 pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple ``` ### 2. 设置环境变量 ```bash export MINERU_MODEL_SOURCE=modelscope ``` ### 3. 安装 Go 依赖 ```bash go mod tidy ``` ## 使用方法 ### 使用 Go 程序调用 MinerU OCR ```bash # 基本用法 go run main.go ``` ### API 接口说明 新的 MinerU OCR 服务提供与原服务相同的 API 接口: - `POST /api/ocr/base64`: 使用 Base64 进行 OCR 识别 - `POST /api/ocr/file`: 使用文件上传进行 OCR 识别 - `GET /health`: 服务健康检查 - `GET /`: 服务信息 请求和响应格式与原服务完全兼容。 ## 项目结构 ``` . ├── pkg/ │ ├── tools.go # MinerU OCR 服务封装 │ └── ocr.go # 项目原有 OCR 服务 ├── python/ │ ├── image_ocr_mineru.py # 新 MinerU OCR API 服务(替换原服务) │ └── requirements.txt # Python 依赖 ├── install_mineru.sh # MinerU 安装脚本 ├── main.go # 主程序入口 └── README.md ``` ## 配置 MinerU 使用以下环境变量进行配置: - `MINERU_MODEL_SOURCE`: 设置为 `modelscope` 以使用阿里云模型源加速下载 ## 技术说明 ### MinerU 集成 MinerU 是一个强大的文档解析工具,不仅能处理 PDF,还可以用于图片 OCR 识别。本项目通过以下方式集成: 1. 将单张图片转换为 PDF 格式 2. 使用 MinerU 的 PDF 解析管道进行 OCR 识别 3. 提取识别结果并进行后处理 ### 新服务特性 新的 MinerU OCR API 服务: - 提供与原服务相同的 API 接口 - 使用 MinerU 引擎进行更高质量的 OCR 识别 - 支持健康检查接口 - 更好的错误处理和日志记录 ## 依赖管理 Python 依赖包含在 [python/requirements.txt](python/requirements.txt) 中: - mineru[core]: 核心 MinerU 库 - PyMuPDF: PDF 处理 - pillow: 图像处理 - fastapi: API 框架 - uvicorn: ASGI 服务器 - 其他必要的库 ## 注意事项 1. 首次使用时,MinerU 会下载大量模型文件,可能需要一些时间 2. 确保有足够的磁盘空间(模型文件可能超过 1GB) 3. 网络连接稳定以确保模型文件正确下载 4. 对于大型图片,处理时间可能较长 5. 新服务使用端口 8081,原服务使用端口 8081 ## 故障排除 如果遇到问题: 1. 检查 MinerU 是否正确安装:`python -c "import mineru"` 2. 确认环境变量设置:`echo $MINERU_MODEL_SOURCE` 3. 检查网络连接和防火墙设置 4. 查看详细的错误信息 ## 性能优化 - 对于批量处理,建议使用新的 MinerU OCR 服务 - 对于高质量文档 OCR,推荐使用 MinerU - 根据具体需求选择合适的语言模型