# web_mining **Repository Path**: siii/web_mining ## Basic Information - **Project Name**: web_mining - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-16 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 猎聘数据挖掘——新媒体运营 ### 数据加值宣言 本项目产出按毕业生的学历,工作的经验、薪水、地点以及公司名称挖掘有关 **新媒体运营职位** 的数据,以解决目前毕业生就业需求及特性的就业分析问题。 ### 数据最小可用产品 - **数据产品的数据类型:** 在requests模块输入学历、行业职称、经验、薪资、工作地点、公司名称等keywords精确挖掘猎聘网职业的相关信息,最后导出excel表格。 - **最小可用产品MVP的核心价值:** 本项目根据特定的求职需求挖掘新媒体运营的相关数据,用户可根据学历、工作经验、薪资、公司地点等关键词求职,Excel表数据附上具体职业信息的url,方便用户查找,为有意向的毕业生提供参考方向。另外尝试导出“双职称关键词”、“职位与城市”的数据 ### 挖掘Query参数 - 通过挖掘猎聘网新媒体运营职业的关键词信息导出excel表数据 - **关键词:** 学历、行业职称、经验、薪资、工作地点、公司名称 ### 思路方法及具体执行 #### 思路方法 该项目使用了课程中学习练习过的代码,在猎聘网上挖掘新媒体运营行业的招聘信息,通过了单页的模式构建,确认了“经验”为关键参数,还有薪资等参数可以供后续使用输入keywords准确挖掘岗位信息和职位要求,最后导入excel表格供用户查阅,帮助毕业生快速浏览招聘要求,找到适合的工作,解决用户需求。 #### 具体执行 1. 在猎聘官网查看新媒体运营行业的岗位需求及其xpath以便调用代码,确定关键参数及后续操作可能使用到的参数。 1. **开始进行数据爬取,特别注意requests和pandas模块的导入,使用了requests模块+xpath来进行数据挖掘** 相对于crapy、selenium,requests模块+xpath更容易爬取到职业的相关信息,而selenium更适用于爬取网页,pandas模块的导入使最后的数据表格化,更易于求职者查询信息。 1. 将猎聘网新媒体运营的xpath放在对应的代码位置 1. 修改添加keywords 1. 利用pandas来将部分数据表格化,爬取成功后自动导出excel表格到桌面 1. 成功挖掘新媒体运营的数据后,检查表格数据是否准确,按挖掘顺序整理表格数据。 ### 心得总结及感谢 - 这门课程在已学习过的python的基础上实现web数据挖掘,基本掌握了统计数据分析方法及大数据分析的方法。 在实践中学到了如何使用requests和pandas模块、selenium自动化抓取公众号信息、scrapy框架等等。学习了这些知识让数据爬取自动化,方便我们获取数据。 - 最后感谢廖汉腾老师和许智超老师的敦敦教导,期末项目使用了老师在课程中提供的代码,使用了猎聘网站相关岗位数据,以及在这门课程中帮助过我的同学。