# Crawler

**Repository Path**: itchenyumeng/Crawler

## Basic Information

- **Project Name**: Crawler
- **Description**: Python爬虫学习
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2020-06-30
- **Last Updated**: 2025-08-18

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Crawler

#### 介绍
Python爬虫学习

从零开始学习

#### 依赖库
- fake_useragent
- requests
- beautifulsoup4
- lxml
- pyquery
- jsonpath
- selenium
- Scrapy

#### 每个案例的内容
- demo01.py 第一个实例(快速使用)
- demo02.py 请求头的设置
- demo03.py Get请求的参数都是在Url中体现的,如果有中文,需要转码
- demo04.py 下载贴吧内容案例
- demo05.py post请求登录案例
- demo06.py ajax请求页面获取案例（豆瓣排行）
- demo07.py 忽略验证证书
- demo08.py proxy代理
- demo09.py 携带cookie
- demo10.py 保存cookie
- demo11.py 处理URL异常
- demo12.py requests库的使用(包含上面所有的案例的使用)
- demo13.py BeautifulSoup的使用
- demo14.py xpath的使用
- demo15.py pyquery的使用
- demo16.py json的学习
- demo17.py jsonpath的使用
- demo18.py 多线程的使用(爬取糗事百科段子)
- demo19.py selenium的使用
- demo20.py 爬取猫眼电影案例
- demo21.py selenium爬取虎牙当前直播的主播和人数案例
- demo22.py selenium使用js和操作滚动条(京东)
- demo22.py 爬虫类化(糗事百科案例)

#### ScrapyDemo
##### 各个文件作用
| 名称          | 作用                                                         |
| ------------ | ------------------------------------------------------------ |
| scrapy.cfg   | 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的信息在settings.py文件中) |
| items.py     | 设置数据存储模板，用于结构化数据。如：Django的Model          |
| pipelines.py | 数据处理行为。如：一般结构化的数据持久化                     |
| settings.py  | 配置文件。如：递归的层数、并发数、延迟下载等                 |
| spiders      | 爬虫目录。如：创建文件，编写爬虫规则                         |