# Crawler **Repository Path**: itchenyumeng/Crawler ## Basic Information - **Project Name**: Crawler - **Description**: Python爬虫学习 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2020-06-30 - **Last Updated**: 2025-08-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Crawler #### 介绍 Python爬虫学习 从零开始学习 #### 依赖库 - fake_useragent - requests - beautifulsoup4 - lxml - pyquery - jsonpath - selenium - Scrapy #### 每个案例的内容 - demo01.py 第一个实例(快速使用) - demo02.py 请求头的设置 - demo03.py Get请求的参数都是在Url中体现的,如果有中文,需要转码 - demo04.py 下载贴吧内容案例 - demo05.py post请求登录案例 - demo06.py ajax请求页面获取案例(豆瓣排行) - demo07.py 忽略验证证书 - demo08.py proxy代理 - demo09.py 携带cookie - demo10.py 保存cookie - demo11.py 处理URL异常 - demo12.py requests库的使用(包含上面所有的案例的使用) - demo13.py BeautifulSoup的使用 - demo14.py xpath的使用 - demo15.py pyquery的使用 - demo16.py json的学习 - demo17.py jsonpath的使用 - demo18.py 多线程的使用(爬取糗事百科段子) - demo19.py selenium的使用 - demo20.py 爬取猫眼电影案例 - demo21.py selenium爬取虎牙当前直播的主播和人数案例 - demo22.py selenium使用js和操作滚动条(京东) - demo22.py 爬虫类化(糗事百科案例) #### ScrapyDemo ##### 各个文件作用 | 名称 | 作用 | | ------------ | ------------------------------------------------------------ | | scrapy.cfg | 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的信息在settings.py文件中) | | items.py | 设置数据存储模板,用于结构化数据。如:Django的Model | | pipelines.py | 数据处理行为。如:一般结构化的数据持久化 | | settings.py | 配置文件。如:递归的层数、并发数、延迟下载等 | | spiders | 爬虫目录。如:创建文件,编写爬虫规则 |