# Final_Webmining_Projects
**Repository Path**: mowenjun/Final_Webmining_Projects
## Basic Information
- **Project Name**: Final_Webmining_Projects
- **Description**: 数据挖掘期末项目
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-19
- **Last Updated**: 2020-12-19
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
:whale2: Final_Webmining_Projects :whale2:
Seeking True from Fact 网新人,有态度,不认输,不头秃
标题居中代码如下,因为md是支持html语言的
```
:whale2: DataStory_Interactive-Visualization :whale2:
Seeking True from Fact 网新人,有态度,不认输,不头秃
```
## 介绍“广告优化师前景及判断选择”项目
### 1. 数据加值宣言
- 数据显示,字节跳动信息流广告一直是其主要的营收来源,广告业务曾占总营收高达 80%。腾讯控股营收主要收入来源之一的网络广告在2019年Q4占总收入的19%,而社交广告收入增长37%。广告业务一直是互联网公司营收的主要增长点,而广告投放就是成为关键的触发点。尤其以直播电商井喷式爆发下,对于电商广告运营和信息流广告投放人才需求日益显见。
- 本项目基于requests_html + xpath对猎聘网站的信息流优化师岗位进行爬取,通过设置“学历、经验、薪水、地点”关键词精准挖掘并输出包含X页的Excel文档,辅助使用selenium对微信公众号的“电商运营”进行爬取,再使用猎聘网站代码进行scrapy框架部署,查询电商运营岗位名称、地区、行业的详细信息,旨在分析解决在疫情冲击下信息流广告优化师行业选择的可行性,为希望在互联网广告行业从业的人员作出参考。
### 2.MVP数据加值
- 采用数据类别:使用requests_html + xpath、selenium、 scrapy简易方式搭建爬虫框架,重点将猎聘的广告优化师岗位进行爬取,通过公号运营对当前行业进行补充,配以简易scrapy框架进行信息查询
- 产品核心价值:对广告投放领域有误解无解,通过爬取猎聘及公号前沿分析文章,修改关键词针对不同学历、经验、薪水、地点来分析广告优化师从业的优劣性,为从业者选择提供职业参考。
### 3.挖掘Query参数&关键词
- 猎聘(requests_html + xpath):edu 经验 薪水 时间 职称 公司地点 公司名称 链接 公司URL
- 公号(selenium):value title create_time
- Scrapinghub:city company district edu job_title position_info website_url
### 4.思路方法及具体执行
- 方法选择:因单纯从招聘网站上使用requests_html + xpath爬取的岗位信息并不能对广告优化师这个行业进行准确定位,也无法对广告行业的发展趋势做出合理判断,就附加上了使用selenium爬取公号和将招聘网站爬虫代码部署在Scrapinghub上,更加直观地展示广告优化师从业所需要的的技能和将来广告优化师发展的前景,综合以上来判断会使得结果具有真实性和无误性。先是导入requests_html模块,确定keyword,对单页面爬取进行模式构建,使用并挖掘Query参数,添加分析的关键词,爬取单页面成功后,再继续构建多页面模式。在多页面爬取模式结束后,将爬取的数据导出为Excel以供分析。
- 具体执行(单页数据+url解析+多页数据+系统设计思维+数据导出+数据整理)
猎聘:在导入pandas、requests_html的HTMLSession模块后,对“广告优化师”岗位进行框定,使用xpath解析html单一页面,确定爬取关键词并用字典形式输出,只对主要元素下进行.xpath取值。再使用xpath进行翻页处理a/@href,构建多页参数模板,输入href列表后构建出参数字典,再由urlparse解析后丢入数据框,分两步进行,先是单一页面爬取+解析,再多个页面+多个关键词爬取。使用df_all.to_excel输出可视化的Excel数据表,分别有“行业相近特征的短视频等参数”及“行业城市的布局地区参数”。使用pandas、requests_html的爬取类似网页比较容易上手
公号:使用的是selenium)自动化测试,因有验证码机制原理,边测试边爬取较佳。对爬取的公号进行定义,确定公号主体,导入pandas、lxml.html,根据公号登陆流程来进行逐步改写爬取流程,设置好跳转和响应时间,确定title、create_time、link参数,通过df_.to_excel导出Excel数据表
Scrapinghub部署:将写好的招聘网站代码部署在Scrapinghub上可以直观显示具体信息,方便查询检索,具体执行同猎聘就不再赘述
### 5.心得总结及感谢:
- 目前在有米科技做B端产品运营,很幸运能够在廖汉腾老师和许智超老师的教学下习得数据挖局的基本知识和专业技能,复习了pandas数据分析、requests爬虫知识,学习了selenium自动化爬取公号文章及使用scrapy框架部署代码,对我在数据运营方面帮助很大,在此表示感谢。
- 因自己在广告行业从事运营工作,了解到很多同学对于广告优化师有一定的误解,也借用此机会让广告优化师的职业能够被更多的人知道。
- 感谢同行刘炜豪、刘瑜鹏、石恒及对本项目有过建议的小伙伴,是大家的集大成才有项目的最终落稿。
- 感谢知乎博主Gan Pan的[[Scrapinghub] - 将爬虫部署在云端](https://zhuanlan.zhihu.com/p/28341736)及CSDN博主HuaCode的[Scrapy创建爬虫项目——搭建环境、创建项目、爬取内容、保存文件(.txt格式)](https://blog.csdn.net/HuaCode/article/details/79094541)的详细Scrapinghub部署教程
- 经项目总结:广告优化师的职位越来越受到社会的认可和应届生的追捧,特别是大厂的广告投放岗位的坑还比较多,适合去投递。并且人才的缺口比较大,而广告优化师是在最近几年的广告投放行业成长起来,无论是国内还是国外的业务,广告的收入始终是一块大蛋糕,而能够从中分得一杯羹就得看广告优化师能够消耗多少可以起量,这个行业还是在不断向上发展的。