# ImageCrawler **Repository Path**: hcbunny/ImageCrawler ## Basic Information - **Project Name**: ImageCrawler - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-07 - **Last Updated**: 2026-02-07 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # ImageCrawler 一个基于 Python 3.9 的网页图片爬取与筛选工具,目标是收集“订票/预订类手机截图”,并输出对应 OCR 结果。 ## 功能说明 - 支持抓取来源:`baidu`、`google`、`both` - 支持 5 个业务分类: - 火车票订票 - 飞机票订票 - 酒店预订 - 景点预订 - 会议预订 - 每类默认抓取目标:`100` 张 - 自动质量过滤: - 尺寸与长宽比检查 - 清晰度检查 - 疑似马赛克过滤 - 疑似批注/标注过滤 - OCR 语义匹配过滤 - 每张入库图片同步生成 OCR 产物:`json + txt` ## 环境要求 - Python `3.9` - 建议使用 Conda 环境(例如:`py39`) ## 安装依赖 ```bash conda run -n py39 pip install -r requirements.txt ``` ## 运行方式 默认执行(双源 + 每类100张): ```bash conda run -n py39 python crawler.py --source both --target-per-category 100 ``` 常用参数示例: ```bash conda run -n py39 python crawler.py \ --source baidu \ --target-per-category 100 \ --max-per-query 80 \ --max-queries-per-category 140 \ --min-short-side 720 \ --min-laplacian 90 ``` ## 输出目录结构 每次运行会在 `result` 下生成一个时间戳目录: ```text result/ / images/ train_ticket/ flight_ticket/ hotel_booking/ attraction_booking/ meeting_booking/ ocr/ train_ticket/ flight_ticket/ hotel_booking/ attraction_booking/ meeting_booking/ summary.json ``` 说明: - `images//`:筛选后的最终图片 - `ocr//`:对应 OCR 文件 - `*.json`:OCR框、置信度、质量指标、来源、关键词 - `*.txt`:纯文本识别结果 - `summary.json`:每类采纳数、下载候选数、过滤原因统计 ## 本次已完成抓取结果 已完成一次全量抓取,目录: `result/20260207_165211` 结果统计(每类 100 张): - 火车票订票:100 - 飞机票订票:100 - 酒店预订:100 - 景点预订:100 - 会议预订:100 OCR 产物:每类 `200` 个文件(`100 json + 100 txt`)。 ## 注意事项 - Google 图片在部分环境中容易出现解析失败;本项目会继续尝试并可由百度源补足。 - 过滤逻辑为启发式规则,无法保证 100% 完美,可通过参数调整阈值。