# Job-Spider

**Repository Path**: wddark/Job-Spider

## Basic Information

- **Project Name**: Job-Spider
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2018-02-21
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 招聘网站爬虫
可爬取各大互联网行业常用招聘网站，采集职位主要信息输出到 csv 文件；  
爬虫和文件写入独立两个进程，进程A对每个网站的爬虫启动多线程，每个爬虫以生成器方式迭代返回数据，通过队列传输给进程B进行写入；  
注意：本爬虫仅供学习交流，请勿将爬取数据进行非法使用。

## 运行环境
* Python 3
* requests
* lxml

## 运行方式
方法一：使用命令行参数  
`$ python3 run.py -j 后端 -c 北京`

方法二：直接运行，根据提示输入参数  
`$ python3 run.py`  
`请输入职业：后端`  
`请输入城市：北京` 

## 配置
如果想自定义爬虫，可添加在`spider.py`末尾定义爬虫类，需要继承`BaseSpider`基类和关联`SpiderMeta`元类，
并且需要实现`crawl`方法迭代返回爬取数据，数据内容请参照已有爬虫类。