# ocr_image **Repository Path**: lijunhao2016/ocr_image ## Basic Information - **Project Name**: ocr_image - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-05 - **Last Updated**: 2026-03-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 图片 OCR(低内存) 识别当前文件夹中的图片文字,**流式写入**文本文件,占用内存少。 使用 **RapidOCR**,**无需安装 Tesseract**,内置中英文识别。 ## 低内存设计 - **逐张处理**:同一时刻只加载、识别一张图,处理完即释放。 - **流式写文件**:识别结果立即写入 `ocr_result.txt`,不在内存里累积全文。 - **大图缩小**:单边超过 2000 像素的图会先缩小再 OCR(可在 `main.py` 中改 `MAX_IMAGE_SIDE`,设为 `0` 表示不缩小)。 - **输出为 .txt**:需要 Word 时用 Word 打开该 txt 另存为 .doc/.docx 即可。 ## 使用步骤 ### 1. 安装 Python 依赖 ```bash pip install -r requirements.txt ``` (无需单独安装 Tesseract,RapidOCR 自带 ONNX 模型。) ### 2. 运行 ```bash python main.py ``` - 若存在 `123.jpg`,只识别该文件。 - 若不存在,则识别当前文件夹下所有常见图片(jpg、png 等)。 - 结果按「每行一段」写入 **`ocr_result.txt`**,每张图片前有标题 `--- 图片: 文件名 ---`。