# jobs **Repository Path**: iprintf/jobs ## Basic Information - **Project Name**: jobs - **Description**: No description available - **Primary Language**: Python - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2017-07-12 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #拉勾职位信息抓取 ###使用流程: 1. 确定操作系统有python3和Django的运行环境 如果Mint和Ubuntu系统可使用python_env脚本来自动解决 运行python_env如果能显示解析信息代表运行环境没有问题 当然不解决python3和Django的运行环境只会影响解析入库问题,还是可以正常获取网页 2. 运行run.sh脚本进行抓取、解析、入库操作 没有任务记录文件,没有传参指定范围则报错 没有任务记录文件,传递一个参数代表指定起始值, 长度为默认100000条 没有任务记录文件,传递二个参数代表指定起始值和长度 没有任务记录文件,传递三个参数代表指定起始值、长度(此时长度无效)和结束值 任务记录文件存在,没有传参则读取任务记录文件获取范围(继续上一次任务) 任务记录文件存在,传递一个参数代表起始值,结束值从任务记录中获取 任务记录文件存在,传递二个或以上参数则代表覆盖上次任务 3. 查看日志 lagou_html 默认网页下载文件夹 lagou_html/lagou.log 下载日志文件(成功与失败都有日志信息) lagou_html/lagou.task 任务记录文件(记录任务起始值和结束值) lagou_html/run.id 当前正在处理ID的记录文件(用于断点续传) lagou_html/parse.log 网页解析日志文件