# BigData

**Repository Path**: kraslzk/big-data

## Basic Information

- **Project Name**: BigData
- **Description**: bigData analyze homework
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-06-05
- **Last Updated**: 2024-06-08

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 项目说明

### 环境说明

- python： 3.8+

- scrapy： `pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple`

- fastapi、uvicorn： `pip install fastapi uvicorn -i https://pypi.tuna.tsinghua.edu.cn/simple`

- pyspark：  `pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple`


### [LJCrawl](LJCrawl) 爬虫项目说明

该模块用于爬取房源信息，后续无须再次爬取，直接使用csv文件中的数据即可。

### 爬虫项目运行提示

进入 [LJCrawl](LJCrawl%2FLJCrawl) 目录，运行：

```shell
scrapy crawl lj
```

### [src](src) 模块说明

该模块用spark分析处理数据，并集成web服务。

web应用基于fastapi，运行后端服务，访问[http://127.0.0.1:8000/docs](http://127.0.0.1:8000/docs)查看接口文档。

开发提示：

调用 [spark_analyse.py](src%2Fmain%2Fspark_analyse.py)  中的函数`spark_analyse()`进行数据分析，将返回结果渲染到前端页面即可。

### 运行提示

进入 [main](src%2Fmain) 目录，运行：

```shell
uvicorn app:app --reload --port 8000 
```