# 51job招聘数据爬虫可视化

**Repository Path**: mhtccc/51job_visualization

## Basic Information

- **Project Name**: 51job招聘数据爬虫可视化
- **Description**: 爬取51job招聘数据，对数据进行清洗，flask搭建web服务，实现可视化。
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 8
- **Forks**: 1
- **Created**: 2024-03-16
- **Last Updated**: 2025-04-08

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 大屏预览
![输入图片说明](%E9%A2%84%E8%A7%88.png)


## 1.目录结构
/css:index.html的样式文件

/data:爬虫数据存储目录

/fonts:字体样式文件

/images:index.html的图片资源

/js:index.html的脚本文件

/page_data:index.html的数据文件

## 2.文件作用
get_data.py:爬虫文件，将爬取到的数据转为csv存入/data目录

preprocess.py:将爬取到的数据，进行去重以及其他处理，并生成page_data.json文件

data2db.py:将去重好后的数据，写入mysql数据库

main.py：搭建服务器，访问index.html页面

## 3.运行顺序
1）先运行get_data.py爬取数据,每爬取一条数据就直接导入数据库
（PS：该文件代码中的cookie需要自己设置，因为cookie是动态刷新的，一直用旧的会导致爬取不到数据。
  获取方式见该文件。）

2）运行preprocess.py生成需要的数据

3）运行main.py搭建服务器，浏览器输入http://127.0.0.1:5000


#### 如果我的代码对你有帮助，请给本项目一个start，谢谢！