# web_wajue **Repository Path**: chen7179/web_wajue ## Basic Information - **Project Name**: web_wajue - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-19 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 挖掘猎聘网上海地区的产品经理职业情况 - [电子讲义 ](https://gitee.com/chen7179/web_wajue/blob/master/%E7%94%B5%E5%AD%90%E8%AE%B2%E4%B9%89.ipynb) - [数据(excel)](https://gitee.com/chen7179/web_wajue/blob/master/%E7%8C%8E%E8%81%98%E4%B8%8A%E6%B5%B7%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%86%E8%81%8C%E4%BD%8D%E4%BF%A1%E6%81%AF.xlsx) ### 加值主张宣言 - 数据加值宣言: - 该项目是挖掘猎聘网中上海地区产品经理职业数据,抓取到企业对该职业的招聘要求,如学历,工作经验,薪水等,为有意愿当产品经理的应届毕业生们提供参考,提早做出职业规划,也对相应职位的薪资有一定的了解。 - MVP的数据价值: - 通过挖掘上海地区的产品经理职业数据,对比学历,工作经验,薪水等,解决大学生对该职位的盲目性,对未来就业做出职业规划。 1. 问题:许多大学生对产品经理这一职业的职业要求还不够了解 2. 方案:抓取上海地区的产品经理职业要求,学历、经验、薪资等提供参考,提前做出职业规划 ### 问题情境的数据参数选择 #### query参数: - dqs - curPage #### 关键词:产品经理 ``` # 关键词更改 参数修改后列表=[参数修改(curPage=[i],key=["产品经理"]) for i in range(10)] 参数修改后列表 ``` ### 数据挖掘:思路方法及具体执行 - 方法选择:由于猎聘网的数据都在html中,使用xpath便可以获取,于是使用了xpath获取网页数据 ### ``` class LiepinspiderSpider(scrapy.Spider): name = 'liepinSpider' allowed_domains = ['www.liepin.com'] start_urls =starts_url def parse(self, response): r=response.xpath('//ul[@class="sojob-list"]/li') for a in r: job_xueli =a.xpath('//div[contains(@class,"job-info")]/p/span[@class="edu"]/text()').extract() job_jingyan=a.xpath('//div[contains(@class,"job-info")]/p/span[@class="edu"]/following-sibling::span/text()').extract() job_xinshui=a.xpath('//div[contains(@class,"job-info")]/p/span[@class="text-warning"]/text()').extract() job_shijian=a.xpath('//div[contains(@class,"job-info")]/p/time/@title/text()').extract() job_zhicheng=[x.strip()for x in (a.xpath('//div[contains(@class,"job-info")]/h3/a/text()')).extract() ] job_company_name=a.xpath('//div[contains(@class,"sojob-item-main")]//p[@class="company-name"]/a/text()').extract() job_url=a.xpath('//div[contains(@class,"job-info")]/h3/a/@href').extract() job_company_url=a.xpath('//div[contains(@class,"sojob-item-main")]//p[@class="company-name"]/a/@href').extract() ``` ### 单页数据+url解析 ``` url="https://www.liepin.com/zhaopin/?compkind=&dqs=020&pubTime=&pageSize=40&salary=&compTag=155&sortFlag=15&compIds=&subIndustry=&jobKind=&industries=&compscale=&key=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88&siTag=bFGQTbwE_AAQSb-u11jrBw%7EfA9rXquZc5IkJpXC-Ycixw&d_sfrom=search_prime&d_ckId=29ad48338b62368ba7537c9cdb34d6ff&d_curPage=1&d_pageSize=40&d_headId=29ad48338b62368ba7537c9cdb34d6ff" from urllib.parse import urlparse, parse_qs,urlencode import pandas as pd def parse_url_qs_for_curPage (url): six_parts = urlparse(url) #把url拆成6部分 out = parse_qs(six_parts.query)#取出query值并输出为字典out return (out) 参数模板=parse_url_qs_for_curPage(url) 参数模板 #下面这个函数要改,上面的url要改 def 参数修改(key,curPage): 参数=参数模板.copy() 参数["key"]=key 参数["curPage"]=curPage return 参数 ``` ### 多页数据 ``` def 参数修改(key,curPage): 参数=参数模板.copy() 参数["key"]=key 参数["curPage"]=curPage return 参数 ``` ### 系统设计思维 - 该项目是挖掘猎聘网中上海地区产品经理职业数据,抓取到企业对该职业的招聘要求,如学历,工作经验,薪水等,提供数据参考 | | scrapy | request | selenium | |:----:|:---------------:|:---------:|:----------:| | 优点 | 模块化,速度快 | 定制灵活 | 自动爬取 | | 缺点 | 需要执行js才能获取到网页 | 并发性较差 | 速度慢 | - 选用scrapy框架的原因:模块化、爬取时间快、效率高 ### 数据导出 ``` ulist=list() class LiepinPipeline: def process_item(self, item, spider): df=pd.DataFrame(item["liepin_xueli"]).rename(columns={0:"学历"}) df["经验"]=item["liepin_jingyan"] df["薪水"]=item["job_xinshui"] df["职称"]=item["job_zhicheng"] df["公司名称"]=item["job_company_name"] df["链接"]=item["job_url"] df["公司链接"]=item["job_company_url"] self.addition(df) def addition(self,df): ulist.append(df) df_合并=pd.concat(ulist) df_合并.to_excel("猎聘上海产品经理职位信息.xlsx") ``` ### 数据整理 ``` df=pd.DataFrame(item["liepin_xueli"]).rename(columns={0:"学历"}) df["经验"]=item["liepin_jingyan"] df["薪水"]=item["job_xinshui"] df["职称"]=item["job_zhicheng"] df["公司名称"]=item["job_company_name"] df["链接"]=item["job_url"] df["公司链接"]=item["job_company_url"] self.addition(df) ``` ### 心得 - 在经过本学期的学习和期末实践,我初步初步了解到了爬虫是如何在网页上爬取数据的,抓取数据这一能力对以后的就业也有很大的扩充,也从数据科学的角度分析其主要价值及对人文科学的贡献和实践意义。在今后的学习中也会更加关注数据的向善价值,提高数据科学的理念。 ### 感谢: - 感谢有scrapy框架,让挖掘数据更快,更简单 - 也感谢网上许多大佬分享的文章给予我们学习和参考 - [大数据分析:研究武汉新型肺炎的发展历程](http://www.woshipm.com/data-analysis/3347742.html)其中有谈到scrapy一些使用情景 - [如何利用数据挖掘潜在用户?](http://www.woshipm.com/data-analysis/593685.html) 有很大的拓展意义