# web_数据挖掘_期中项目(51job) **Repository Path**: yangguojuan/web_mining_midtest ## Basic Information - **Project Name**: web_数据挖掘_期中项目(51job) - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-05-17 - **Last Updated**: 2021-05-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # web_数据挖掘_期中项目 [51Job](https://www.51job.com/) **1. url请求** - 使用 request_html **2. 解析 URL 参数** - 对链接进行解析,找出链接中的参数变化及其意义 - 解析参数含义 urllib.parse.unquote() - 构建行业分类、职能分类及关键词参数模版,自动生成对应 URL **3. 解析 HTML 抓取页面、详细页内容,以及翻页爬取** - 解析翻页参数,实现翻页抓取 - 避免爬虫太快出错, import time from random import random time.sleep(3+4*random())# 爬亦有道 - 用 XPath 解析页面,获取职位列表页面内容 - 循环遍历链接,获取职业详细页面内容 **4. 存储数据至本地** - 导出 Excel 文件