# BigData **Repository Path**: kraslzk/big-data ## Basic Information - **Project Name**: BigData - **Description**: bigData analyze homework - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-06-05 - **Last Updated**: 2024-06-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 项目说明 ### 环境说明 - python: 3.8+ - scrapy: `pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple` - fastapi、uvicorn: `pip install fastapi uvicorn -i https://pypi.tuna.tsinghua.edu.cn/simple` - pyspark: `pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple` ### [LJCrawl](LJCrawl) 爬虫项目说明 该模块用于爬取房源信息,后续无须再次爬取,直接使用csv文件中的数据即可。 ### 爬虫项目运行提示 进入 [LJCrawl](LJCrawl%2FLJCrawl) 目录,运行: ```shell scrapy crawl lj ``` ### [src](src) 模块说明 该模块用spark分析处理数据,并集成web服务。 web应用基于fastapi,运行后端服务,访问[http://127.0.0.1:8000/docs](http://127.0.0.1:8000/docs)查看接口文档。 开发提示: 调用 [spark_analyse.py](src%2Fmain%2Fspark_analyse.py) 中的函数`spark_analyse()`进行数据分析,将返回结果渲染到前端页面即可。 ### 运行提示 进入 [main](src%2Fmain) 目录,运行: ```shell uvicorn app:app --reload --port 8000 ```