# Job-Spider **Repository Path**: wddark/Job-Spider ## Basic Information - **Project Name**: Job-Spider - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-02-21 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 招聘网站爬虫 可爬取各大互联网行业常用招聘网站,采集职位主要信息输出到 csv 文件; 爬虫和文件写入独立两个进程,进程A对每个网站的爬虫启动多线程,每个爬虫以生成器方式迭代返回数据,通过队列传输给进程B进行写入; 注意:本爬虫仅供学习交流,请勿将爬取数据进行非法使用。 ## 运行环境 * Python 3 * requests * lxml ## 运行方式 方法一:使用命令行参数 `$ python3 run.py -j 后端 -c 北京` 方法二:直接运行,根据提示输入参数 `$ python3 run.py` `请输入职业:后端` `请输入城市:北京` ## 配置 如果想自定义爬虫,可添加在`spider.py`末尾定义爬虫类,需要继承`BaseSpider`基类和关联`SpiderMeta`元类, 并且需要实现`crawl`方法迭代返回爬取数据,数据内容请参照已有爬虫类。