# web_数据挖掘_期中项目（51job）

**Repository Path**: yangguojuan/web_mining_midtest

## Basic Information

- **Project Name**: web_数据挖掘_期中项目（51job）
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-05-17
- **Last Updated**: 2021-05-17

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# web_数据挖掘_期中项目  [51Job](https://www.51job.com/)  

**1. url请求**  
- 使用 request_html

**2. 解析 URL 参数**  
- 对链接进行解析，找出链接中的参数变化及其意义
- 解析参数含义 urllib.parse.unquote()
- 构建行业分类、职能分类及关键词参数模版，自动生成对应 URL  

**3. 解析 HTML 抓取页面、详细页内容，以及翻页爬取**  
- 解析翻页参数，实现翻页抓取
- 避免爬虫太快出错， import time      from random import random        time.sleep(3+4*random())# 爬亦有道
- 用 XPath 解析页面，获取职位列表页面内容
- 循环遍历链接，获取职业详细页面内容

**4. 存储数据至本地**
- 导出 Excel 文件