# spider

**Repository Path**: louxj/spider

## Basic Information

- **Project Name**: spider
- **Description**: 图片爬虫项目
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2019-04-07
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# spider

#### 介绍
图片爬虫项目

- 课题：python爬区豆瓣妹子图
- 爬虫：知识+思路
- 环境：python 2.7 pycharm 
- 模块：urllib2 urllib bs4

[豆瓣妹子图参考网页](http://www.dbmeinv.com/?pager_offset=1)

[库安装参考网站](http://blog.csdn.net/olanlanxiari/article/details/48195389)

windows:CMD输入
```
# beautifulsoup 4安装
pip install urllib
pip install beautifulsoup4
pip list
```

什么叫做爬虫？网页上面采集数据
学习爬虫有什么好处？案例：基础知识集合
1. 分析网页结构
2. 采集到的数据做数据分析
3. 基础知识

通过案例学习上述知识点，做到举一反三。

1、打开网页，获取源代码
    *网站禁止爬虫？获取不到想要的内容/请求失败/ip容易被封
    *解决办法：加上浏览器头部信息，伪装成浏览器：不告诉网站我是一个脚本，而告诉它自己是一个浏览器

2、获取图片
    *find：找到第一个
    *find_all:找到所有

3、开始下载图片
    *urllib-------urlretrieve下载
    *open文件操作
    *字符串格式化

4、多页图片下载
    *range()函数用来生成整数序列，含头不含尾


-------------------------------------------------------------------------------

优势：代码少，第三方库多，开发效率高

python发展方向：
1、web开发
2、自动化运维开发
3、自动化测试
4、大数据 爬虫 数据分析 挖掘 采集
5、人工智能 机器学习