# ImageCrawler

**Repository Path**: hcbunny/ImageCrawler

## Basic Information

- **Project Name**: ImageCrawler
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-02-07
- **Last Updated**: 2026-02-07

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# ImageCrawler

一个基于 Python 3.9 的网页图片爬取与筛选工具，目标是收集“订票/预订类手机截图”，并输出对应 OCR 结果。

## 功能说明

- 支持抓取来源：`baidu`、`google`、`both`
- 支持 5 个业务分类：
  - 火车票订票
  - 飞机票订票
  - 酒店预订
  - 景点预订
  - 会议预订
- 每类默认抓取目标：`100` 张
- 自动质量过滤：
  - 尺寸与长宽比检查
  - 清晰度检查
  - 疑似马赛克过滤
  - 疑似批注/标注过滤
  - OCR 语义匹配过滤
- 每张入库图片同步生成 OCR 产物：`json + txt`

## 环境要求

- Python `3.9`
- 建议使用 Conda 环境（例如：`py39`）

## 安装依赖

```bash
conda run -n py39 pip install -r requirements.txt
```

## 运行方式

默认执行（双源 + 每类100张）：

```bash
conda run -n py39 python crawler.py --source both --target-per-category 100
```

常用参数示例：

```bash
conda run -n py39 python crawler.py \
  --source baidu \
  --target-per-category 100 \
  --max-per-query 80 \
  --max-queries-per-category 140 \
  --min-short-side 720 \
  --min-laplacian 90
```

## 输出目录结构

每次运行会在 `result` 下生成一个时间戳目录：

```text
result/
  <YYYYMMDD_HHMMSS>/
    images/
      train_ticket/
      flight_ticket/
      hotel_booking/
      attraction_booking/
      meeting_booking/
    ocr/
      train_ticket/
      flight_ticket/
      hotel_booking/
      attraction_booking/
      meeting_booking/
    summary.json
```

说明：

- `images/<category>/`：筛选后的最终图片
- `ocr/<category>/`：对应 OCR 文件
  - `*.json`：OCR框、置信度、质量指标、来源、关键词
  - `*.txt`：纯文本识别结果
- `summary.json`：每类采纳数、下载候选数、过滤原因统计

## 本次已完成抓取结果

已完成一次全量抓取，目录：

`result/20260207_165211`

结果统计（每类 100 张）：

- 火车票订票：100
- 飞机票订票：100
- 酒店预订：100
- 景点预订：100
- 会议预订：100

OCR 产物：每类 `200` 个文件（`100 json + 100 txt`）。

## 注意事项

- Google 图片在部分环境中容易出现解析失败；本项目会继续尝试并可由百度源补足。
- 过滤逻辑为启发式规则，无法保证 100% 完美，可通过参数调整阈值。