# Crawler

**Repository Path**: examples_for_dev/crawler

## Basic Information

- **Project Name**: Crawler
- **Description**: 豆瓣电影Top250爬虫
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-06-15
- **Last Updated**: 2025-06-16

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 豆瓣电影Top250爬虫

一个用于爬取豆瓣电影Top250榜单的Python爬虫工具，能够自动获取电影排名、中文名称和评分信息，并保存为CSV格式文件。

## 项目特色

- 🎬 **完整数据**: 爬取豆瓣电影Top250的完整榜单
- 🚀 **高效稳定**: 内置智能延时和错误处理机制
- 🛡️ **反反爬虫**: 模拟浏览器请求头，避免被封禁
- 📊 **数据导出**: 自动保存为CSV格式，方便后续分析
- 🔧 **易于使用**: 简单的面向对象设计，一键运行

## 项目结构

```
python/
├── crawler/
│   ├── douban_top250_crawler.py    # 主爬虫代码
│   ├── requirements.txt            # 项目依赖
│   └── douban_top250.csv          # 爬取结果文件
├── ak-share/                       # 其他项目目录
├── akshare2/                       # 其他项目目录
└── README.md                       # 项目说明文档
```

## 技术栈

- **Python 3.6+**: 主要编程语言
- **requests**: HTTP请求库
- **BeautifulSoup4**: HTML解析库
- **lxml**: XML和HTML解析器
- **csv**: 数据保存格式

## 快速开始

### 1. 安装依赖

```bash
cd crawler
pip install -r requirements.txt
```

### 2. 运行爬虫

```bash
python douban_top250_crawler.py
```

### 3. 查看结果

爬虫运行完成后，会在同目录下生成 `douban_top250.csv` 文件，包含以下字段：

| 字段 | 说明 | 示例 |
|------|------|------|
| rank | 电影排名 | 1 |
| chinese_title | 中文电影名 | 肖申克的救赎 |
| rating | 豆瓣评分 | 9.7 |

## 代码架构

### 核心类：DoubanTop250Crawler

```python
class DoubanTop250Crawler:
    def __init__(self):
        # 初始化配置和请求头
        
    def get_page_data(self, start=0):
        # 获取指定页面的HTML数据
        
    def parse_movies(self, html):
        # 解析HTML，提取电影信息
        
    def crawl_all_pages(self):
        # 遍历所有页面进行爬取
        
    def save_to_csv(self, filename='douban_top250.csv'):
        # 将数据保存为CSV文件
        
    def run(self):
        # 主运行方法
```

### 关键特性

1. **智能请求控制**
   - 设置合理的请求间隔（2秒）
   - 使用真实浏览器User-Agent
   - 完善的异常处理机制

2. **数据解析优化**
   - 精确的CSS选择器定位
   - 容错处理，避免单个错误影响整体
   - UTF-8编码保证中文正确显示

3. **结果输出**
   - CSV格式便于Excel打开
   - UTF-8-BOM编码确保中文兼容性
   - 结构化数据便于后续分析

## 使用示例

```python
# 创建爬虫实例
crawler = DoubanTop250Crawler()

# 运行完整流程
crawler.run()

# 或者分步执行
crawler.crawl_all_pages()  # 爬取数据
crawler.save_to_csv()      # 保存文件
```

## 注意事项

⚠️ **使用须知**：
- 请合理使用爬虫，避免频繁请求
- 遵守豆瓣网站的robots.txt协议
- 仅用于学习研究目的，请勿商业使用
- 如遇反爬虫限制，请调整请求频率

## 常见问题

### Q: 爬虫运行失败怎么办？
A: 检查网络连接，确认豆瓣网站可正常访问，必要时调整User-Agent或增加延时。

### Q: 如何修改保存的字段？
A: 在 `parse_movies()` 方法中添加需要的字段提取逻辑，并在 `save_to_csv()` 中更新fieldnames。

### Q: 可以爬取其他豆瓣榜单吗？
A: 可以，修改 `base_url` 和相应的解析逻辑即可适配其他榜单。

## 开发者

- 基于豆瓣公开数据开发
- 使用MIT许可证
- 欢迎提交Issue和PR

## 版本历史

- v1.0.0: 基础爬虫功能实现
- 支持Top250完整榜单爬取
- CSV格式数据导出

---

**声明**: 本项目仅用于技术学习和研究目的，请遵守相关法律法规和网站使用条款。