# web_final_project

**Repository Path**: xinqi3050/web_final_project

## Basic Information

- **Project Name**: web_final_project
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-19
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 前程无忧数据挖掘——产品经理
### 数据加值宣言
本项目产出按毕业生的学历，工作的经验、薪水、地点以及公司名称等挖掘有关 **产品经理职位** 的数据，以解决目前毕业生就业需求及特性的就业分析问题。

### 数据最小可用产品


-  **数据产品的数据类型：** 在requests和scrapy模块输入教育需求、行业职称、经验、薪资、公司网站、公司名称等keywords精确挖掘前程无忧网站职业的相关信息，最后导出csv数据文件。
 
-  **最小可用产品MVP的核心价值：** 本项目根据特定的求职需求挖掘新媒体运营的相关数据，用户可根据学历、工作经验、薪资、公司地点等关键词求职，csv文件数据附上具体职业信息的url，方便用户查找，为有意向的毕业生提供参考方向。

![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/195510_fcc58730_1532326.png "屏幕截图.png")

### 挖掘Query参数
- 通过挖掘前程无忧网站的产品经理职业关键词信息导出json数据文件

 - **关键词：** 学历、行业职称、经验、薪资、工作地点、公司名称、职位信息，公司网站等
![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/200020_c415d0f1_1532326.png "屏幕截图.png")

### 思路方法及具体执行
#### 思路方法
该项目使用了码云中的用户newtonn的[项目](https://gitee.com/newtonn/scrapy_51job_spider?_from=gitee_search)以及课程中学习练习过的猎聘爬虫代码，在前程无忧网上查找产品经理行业的招聘信息，通过了单页的模式构建，确认了“经验”为关键参数，还有薪资等参数可以供后续使用输入keywords准确挖掘岗位信息和职位要求，最后导出csv文件表格供用户查阅，帮助毕业生快速浏览招聘要求，找到适合的工作，解决用户需求。
#### 具体执行
1. 在前程无忧官网查看产品经理行业的岗位需求及其xpath以便调用代码，确定关键参数及后续操作可能使用到的参数。
![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/185420_d1bbc3c8_1532326.png "屏幕截图.png")
2.  **开始进行数据爬取，特别注意requests和pandas模块的导入，使用了requests模块+xpath来进行数据挖掘** 相对于crapy、selenium，requests模块+xpath更容易爬取到职业的相关信息，而selenium更适用于爬取网页，pandas模块的导入使最后的数据表格化，更易于求职者查询信息。
3. 将前程无忧网站产品经理的xpath放在对应的代码位置
![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/202513_9fa01418_1532326.png "屏幕截图.png")
4. 修改和添加keywords
5. 在scrapinghub上提供了免费的Scrapy Cloud可供部署你在本地用Scrapy框架编写的爬虫。
6. 成功挖掘产品经理的数据后，检查表格数据是否准确，按挖掘顺序整理表格数据。

#### [代码链接](https://gitee.com/xinqi3050/web_final_project/tree/master/tlt_51job_spider)

### 加分项——scrapinghub网站部署
![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/201142_97e06d8d_1532326.png "屏幕截图.png")
- 爬虫数据抓取
![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/201412_ca7901d5_1532326.png "屏幕截图.png")

### 心得总结及感谢
- 这门课程在已学习过的python的基础上实现web数据挖掘，基本掌握了统计数据分析方法及大数据分析的方法。
- 在实践中学到了如何使用requests和pandas模块、selenium自动化抓取公众号信息、scrapy框架等等。学习了这些知识让数据爬取自动化，方便我们获取数据。
Scrapy Cloud 大概有这么几个用处：
* 1.云端部署爬虫（支持本地部署和 Github 上部署）
* 2.定期执行爬虫计划
* 3.数据导出、发布
* 4.插件扩展（Addons）
* 5.状态监控
* 6.版本控制

- 最后感谢廖汉腾老师和许智超老师的教导，期末项目使用了老师在课程中提供的代码和码云上的用户实践的代码，在猎聘的课程题材的基础上使用参数框架挖掘了前程无忧网站相关岗位数据。