# spider **Repository Path**: louxj/spider ## Basic Information - **Project Name**: spider - **Description**: 图片爬虫项目 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2019-04-07 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # spider #### 介绍 图片爬虫项目 - 课题:python爬区豆瓣妹子图 - 爬虫:知识+思路 - 环境:python 2.7 pycharm - 模块:urllib2 urllib bs4 [豆瓣妹子图参考网页](http://www.dbmeinv.com/?pager_offset=1) [库安装参考网站](http://blog.csdn.net/olanlanxiari/article/details/48195389) windows:CMD输入 ``` # beautifulsoup 4安装 pip install urllib pip install beautifulsoup4 pip list ``` 什么叫做爬虫?网页上面采集数据 学习爬虫有什么好处?案例:基础知识集合 1. 分析网页结构 2. 采集到的数据做数据分析 3. 基础知识 通过案例学习上述知识点,做到举一反三。 1、打开网页,获取源代码 *网站禁止爬虫?获取不到想要的内容/请求失败/ip容易被封 *解决办法:加上浏览器头部信息,伪装成浏览器:不告诉网站我是一个脚本,而告诉它自己是一个浏览器 2、获取图片 *find:找到第一个 *find_all:找到所有 3、开始下载图片 *urllib-------urlretrieve下载 *open文件操作 *字符串格式化 4、多页图片下载 *range()函数用来生成整数序列,含头不含尾 ------------------------------------------------------------------------------- 优势:代码少,第三方库多,开发效率高 python发展方向: 1、web开发 2、自动化运维开发 3、自动化测试 4、大数据 爬虫 数据分析 挖掘 采集 5、人工智能 机器学习