# web_mining **Repository Path**: fangqiao07/web_mining ## Basic Information - **Project Name**: web_mining - **Description**: web_mining作业存储 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-04-26 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 在广州年薪20-30万的产品经理能力分析 ## 项目背景 现在市场以及未来几年里,好的产品经理还是十分稀缺的。而想要在广州能够成为一个有满意的薪资的产品经理,需要也具备一定的能力基础。因此,让当代产品经理方向的学生明白在广州年薪20-30万的产品经理需要具备什么能力,因此更有动力去学习。相同,让专业老师了解学生具备什么能力而更好就业,从而开设相关课程也是有一定的参考价值。 本项目针对这个问题,利用scrapy框架在“猎聘网”,爬取了广州市、年薪20-30万、产品经理相关词。对其职位描述、经验要求等进行了分析。 ## MVP价值主张宣言 ### PRD1.数据加值宣言 - 本项目以“产品经理”为关键词,挖掘的关于在广州年薪20-30万的产品经理能力分析的数据,总共241条,共6页。为给产品经理方向的学生及其老师提供一定的学习与教学的参考意义。 - 关键词:产品经理 - 页数:所有 - 类别数据:公司介绍、公司名字、公司规模、公司链接、学历要求、工作地点、工作城市、年龄要求、注册时间、注册资本、经营范围、经验要求、职位、职位描述、薪水、语言要求。 - 爬取岗位:产品经理 - 说明:基于“招聘网”,我们搜索了广州产品经理岗位并且薪资在20-30万,取其详细页面进行分析。 ### PRD2.数据加值 产品核心价值:通过[scrapy框架](https://blog.csdn.net/qq_36949176/article/details/84498734)抓取筛选出广州薪资20-30万的产品经理,进行分析出其需要具备的能力,使得让学生了解其需要具备的能力并进行学习与规划。 #### [Query参数](https://gitee.com/fangqiao07/web_mining/blob/master/liepin/items.py) 职位=zhiwei 公司名字=company_name 公司链接=company_url 薪水=xinshui 工作城市=gongzuodidian 学历要求=job_qualifications_xueli 经验要求=job_qualifications_jingyan 语言要求=job_qualifications_yuyan 年龄要求=job_qualifications_nianling 职位描述=zhiwei_miaoshu 公司介绍=company_jieshao 公司规模=guimo 工作地点=location 注册资本=zhuceziben 注册时间=zhuceshijian 经营范围=jingyingfanwei ## 思路方法及具体执行 - [使用猎聘进行抓取数据](https://www.liepin.com/zhaopin/?key=%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%86&d_sfrom=search_fp_nvbar&searchField=1) - url参数解析 利用urllib.parse模块解析url并建构参数模板,形成新的url. ![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/114854_40428411_2228994.png "微信截图_20200719114433.png") - 使用scrapy框架,抓取数据 ①、[利用scrapy框架搭建猎聘网职位列表页模板](https://gitee.com/fangqiao07/web_mining/blob/master/liepin2/spiders/liepinSpider.py) [与猎聘相比较会更加容易简便获取想要信息](https://www.liepin.com/zhaopin/?key=%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%86&d_sfrom=search_fp_nvbar&searchField=1) ![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/101532_d9439bf0_2228994.png "微信截图_20200720101516.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/115959_d37ef5b7_2228994.png "微信截图_20200719115937.png") ②、[根据需求调整不同的参数生成不同url进行职位列表页爬取 ](https://gitee.com/fangqiao07/web_mining/blob/master/liepin2/spiders/liepinSpider.py) ![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/120129_a3004e27_2228994.png "微信截图_20200719120107.png") ③、[利用scrapy框架搭建职位详情页模板 ](https://gitee.com/fangqiao07/web_mining/blob/master/liepin/spiders/liepin_allmessageSpider.py) ![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/120255_36cb8131_2228994.png "微信截图_20200719120239.png") - [把职位列表页中的详情页链接读入岗位详情页模板,开始爬取职位详情页信息](https://gitee.com/fangqiao07/web_mining/blob/master/liepin/%E7%94%9F%E6%88%90liepin_message.ipynb) ![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/120413_2869159e_2228994.png "微信截图_20200719120401.png") - 成功地挖掘多页数据,且有系统地整合数据,每一笔数据有新增如下栏位 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/101832_046d2d28_2228994.png "微信图片_20200720101806.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/101936_7058ba60_2228994.png "微信截图_20200720101914.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/003622_ccce9619_2228994.png "微信图片_20200720003518.png") - [第一次爬取猎聘网广州产品经理20-30万年薪职位信息](https://gitee.com/fangqiao07/web_mining/blob/master/%E7%AC%AC%E4%B8%80%E6%AC%A1%E7%8C%8E%E8%81%98%E7%BD%91%E5%B9%BF%E5%B7%9E%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%8620-30%E4%B8%87%E5%B9%B4%E8%96%AA%E8%81%8C%E4%BD%8D%E4%BF%A1%E6%81%AF.xlsx) - [(新增整合数据)猎聘网广州产品经理20-30万年薪职位信息详细页面](http://https://gitee.com/fangqiao07/web_mining/blob/master/%E7%8C%8E%E8%81%98%E7%BD%91%E5%B9%BF%E5%B7%9E%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%8620-30%E4%B8%87%E5%B9%B4%E8%96%AA%E8%81%8C%E4%BD%8D%E4%BF%A1%E6%81%AF.xlsx) ## 心得总结及感谢 - 在这学期在web_mining学习到了怎么去用xpath,怎么去爬网页上、公众号的代码。在其中遇到了许多坑,但是有同学的帮助后容易解决了不少。在许智超老师的详细讲解代码和廖老师的知识输入,在其中学习获益。再次感谢帮助了一学期的网新学子,也感谢两位老师的教导。