# web_mining

**Repository Path**: siii/web_mining

## Basic Information

- **Project Name**: web_mining
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-16
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 猎聘数据挖掘——新媒体运营
### 数据加值宣言
本项目产出按毕业生的学历，工作的经验、薪水、地点以及公司名称挖掘有关 **新媒体运营职位** 的数据，以解决目前毕业生就业需求及特性的就业分析问题。

### 数据最小可用产品


-  **数据产品的数据类型：** 在requests模块输入学历、行业职称、经验、薪资、工作地点、公司名称等keywords精确挖掘猎聘网职业的相关信息，最后导出excel表格。
 
-  **最小可用产品MVP的核心价值：** 本项目根据特定的求职需求挖掘新媒体运营的相关数据，用户可根据学历、工作经验、薪资、公司地点等关键词求职，Excel表数据附上具体职业信息的url，方便用户查找，为有意向的毕业生提供参考方向。另外尝试导出“双职称关键词”、“职位与城市”的数据


### 挖掘Query参数
- 通过挖掘猎聘网新媒体运营职业的关键词信息导出excel表数据

 - **关键词：** 学历、行业职称、经验、薪资、工作地点、公司名称


### 思路方法及具体执行
#### 思路方法
该项目使用了课程中学习练习过的代码，在猎聘网上挖掘新媒体运营行业的招聘信息，通过了单页的模式构建，确认了“经验”为关键参数，还有薪资等参数可以供后续使用输入keywords准确挖掘岗位信息和职位要求，最后导入excel表格供用户查阅，帮助毕业生快速浏览招聘要求，找到适合的工作，解决用户需求。
#### 具体执行
1. 在猎聘官网查看新媒体运营行业的岗位需求及其xpath以便调用代码，确定关键参数及后续操作可能使用到的参数。
1.  **开始进行数据爬取，特别注意requests和pandas模块的导入，使用了requests模块+xpath来进行数据挖掘** 相对于crapy、selenium，requests模块+xpath更容易爬取到职业的相关信息，而selenium更适用于爬取网页，pandas模块的导入使最后的数据表格化，更易于求职者查询信息。
1. 将猎聘网新媒体运营的xpath放在对应的代码位置
1. 修改添加keywords
1. 利用pandas来将部分数据表格化，爬取成功后自动导出excel表格到桌面
1. 成功挖掘新媒体运营的数据后，检查表格数据是否准确，按挖掘顺序整理表格数据。

### 心得总结及感谢
- 这门课程在已学习过的python的基础上实现web数据挖掘，基本掌握了统计数据分析方法及大数据分析的方法。
在实践中学到了如何使用requests和pandas模块、selenium自动化抓取公众号信息、scrapy框架等等。学习了这些知识让数据爬取自动化，方便我们获取数据。

- 最后感谢廖汉腾老师和许智超老师的敦敦教导，期末项目使用了老师在课程中提供的代码，使用了猎聘网站相关岗位数据，以及在这门课程中帮助过我的同学。