# Python_DA_Final **Repository Path**: zhang_zhu/Python_DA_Final ## Basic Information - **Project Name**: Python_DA_Final - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2019-10-08 - **Last Updated**: 2021-07-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Python_data analysis_final ## Python数据分析期末项目展示 * 项目制作者:[**张渚**](https://gitee.com/zhang_zhu) * 时间:2021.06.20-2021.07.01 * [ **gitee项目文档链接** ](https://gitee.com/zhang_zhu/WXblog) * [ **数据分析ipynb文档链接** ](https://gitee.com/zhang_zhu/WXblog/blob/master/%E6%9C%9F%E6%9C%AB/%E6%B7%B1%E5%9C%B3%E6%88%BF%E4%BB%B7%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90.ipynb) *** # 一、项目名称: ## 分析各要素对深圳房价的影响 ## MVP加/价值主张宣言 * 目前我国用房需求数量大,特别是在经济发达地区,高房屋需求量与房屋单位面积高价导致许多居民人到中年依旧为买房担忧,此项目主要以深圳为例为深圳有买房需求的用户提供购买日期、购买地点等以减少非必要支出。 * 挖掘分析深圳的房价数据,通过对影响买房不同因素的交互完成房价各指标的分析,让目标人群更直观,并且可交互性的得到可视化图,帮助他们解决是否买房的困扰。 * 以深圳为例,分析日常生活中各要素对房价的影响,给存在买房需求的消费者提供参考与建议 * 分析“搜房网”所挖掘深圳房价数据,通过对不同区、房型等指标的分析,得出数据可视化图表,帮助消费者更直观的得到房价受各因素影响情况,从而帮助消费者解决在何处买房、如何选择高性价比房屋的困扰 # 二、问题表述: ## 问题情境的数据来源及类型 * 通过[和鲸社区](https://www.heywhale.com/home)用户[- K. -](https://www.heywhale.com/home/user/profile/5eb7fabf68c30e002d906de3)所挖掘的[搜房网](https://gz.sofang.com/)深圳二手房房价数据,通过数据给用户直观数据,用数据说话,增强可信度。 * 和鲸社区提供了多维度的数据,可以从单位面积房价、各区房价均值、不同卧室数、厅数、楼层对单位面积房价的影响等多维度多方面因素的数据进行分析深圳房价,是比较可观和全面的。 #### 数据分析项目的问题情境说明清楚合理,展示了为啥要做 * 目前民众对购房有了更加具体的需求,通过对房屋价格的具体数据可视化分析能够使得用户更加直观的进行查看,通过网站多类型、多位置房屋的分析,以最简单易懂的方式满足用户多方面购屋需求。 ##### 用户画像 * 需要购买深圳房源的用户 ##### 需求 * 拿到清查数据,希望能用数据可视化给需要购买深圳房源的用户观看并得到采纳。 * 任务:清理数据,得到数据可视化图,供目标人群观看。 * 优点:可以规整数据,直观的看出深圳房价整体以及深圳各区房价的变化 #### 数据分析项目的问题情境说明清楚合理,展示了是谁有需要解决的问题 * 房价持续上涨问题与房地产需求,有着直接的关系.我国人口数量不断增加,城市人口不断增多,使得住房需求更高,进而拉动着房地产市场的发展.造成房价上涨的原因较多,而深圳作为发达城市,影响房价的变动因素有很多,但没有一些最准确的数据,造成了是否买房的困扰。 * 给是否买房房有困扰的人群参考,帮助目标人群解决买房需求问题,包括想要买房,有买房倾向,准备买房的用户,可视化分析深圳房价数据,数据分析项目的问题情境说明清楚合理,展示了具有分析加价潜力的关键数据,是可以收集并分析。 #### 数据分析项目的问题情境说明清楚合理,展示了具有分析加价潜力的关键数据,是可以收集并分析. * 通过在和鲸社区寻找得出的数据,目标给用户直观的数据,用数据说话,增加可信度。单位面积房价、各区房价均值、不同卧室数、厅数、楼层对单位面积房价的影响等多维度多方面因素的数据进行分析疫情对深圳房价,是比较可观和全面的。 #### 数据分析项目的问题情境说明清楚合理,展示了关键数据来源对问题情境的相关性 * 不同卧室数、厅数、楼层直接关系到房价的高低,而单位面积房价、各区房价均值从多维度分析疫情对房价的客观影响 #### 数据分析项目的问题情境说明清楚合理,展示了关键数据类型特性对解决方案的可能影响论证 * 不同卧室数、厅数、楼层,可以直观地分析疫情对深圳房价的影响,从数据中推测买房的好时机,单位面积房价、各区房价均值等各因素,可以从正面以及侧面反映房价数据的变化。 # 三、数据分析思路及方法 #### 思路及方法 * CSS样式 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/css%E6%A0%B7%E5%BC%8F.png) * 首先是导入和鲸社区深圳房价数据并对多个数据进行合并,合并发现数据中存在冗余数据,需要对不需要数据进行清理 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E8%AF%BB%E5%8F%96%E6%95%B0%E6%8D%AE%E5%B9%B6%E5%90%88%E5%B9%B6.png) * 第二步是对合并数据进行检查,删除不需要的数据行 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E6%A3%80%E6%9F%A5%E5%B7%B2%E5%90%88%E5%B9%B6%E6%95%B0%E6%8D%AE.png) * 第三步是对数据中的分类变量进行查看,并使用分隔符对不同类型的数据进行分割,以便检查数据结构以及便于下一步对数据进行重命名,查看发现数据中存在拼音数据,不利于数据的查看以及后续制图的便利性 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E6%9F%A5%E7%9C%8B%E5%88%86%E7%B1%BB%E5%8F%98%E9%87%8F%E7%9A%84%E5%8F%96%E5%80%BC.png) * 第四步是对数据中拼音数据进行重新命名 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E6%95%B0%E6%8D%AE%E9%87%8D%E5%91%BD%E5%90%8D.png) * 第五步是将数据生成一个Excel表格,以便对数据列名进行查看,加快数据分析进程 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E7%94%9F%E6%88%90excel%E8%A1%A8%E6%A0%BC%E6%9F%A5%E7%9C%8B%E5%88%97%E5%90%8D%E5%90%AB%E4%B9%89.png) *** # 四、数据分析流程及结果 ### 流程 * 通过对深圳各区的房价进行整合,分析深圳总体房价频数,给出深圳房价大体单位面积价格频数分布,发现数据呈偏态分布,即深圳地区房价差异较大,有分析价值 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E5%8D%95%E4%BD%8D%E9%9D%A2%E7%A7%AF%E6%88%BF%E4%BB%B7%E5%88%86%E6%9E%90.png) * 对深圳总体房价数据进行均值等查询,从中得出深圳房价差距,总体房价平均值,为消费者买房提供基础房屋价格数据;以上可知,深圳房价的平均数为:6.118192;中位数为:5.2463;价格标准差:3.050218 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E6%9F%A5%E7%9C%8B%E6%95%B0%E6%8D%AE%E5%9B%9B%E5%80%BC.png) * 通过分类变量看各个取值的数量统计情况,可知: * dist列中 每个区的样本量均在500以上; * roomnum列中 最多的类型是3房,6~9房的占比很少; * halls列中 最普遍的是2个; * floor列中 middle的数量多一些,high和low基本持平; * subway列中 基本持平; * school列中 学区房更多一些 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E4%BB%A5%E5%88%86%E7%B1%BB%E5%8F%98%E9%87%8F%E5%BD%A2%E5%BC%8F%E7%9C%8B%E6%95%B0%E6%8D%AE.png) * 对各区房屋数量进行比较,得出罗湖区待售房屋数量最多,可供购房者选择数量最多,以下依次是坪山、南山、光明等区 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E5%AF%B9%E5%90%84%E5%8C%BA%E6%88%BF%E5%B1%8B%E6%95%B0%E9%87%8F%E8%BF%9B%E8%A1%8C%E6%AF%94%E8%BE%83.png) * 分析各区房屋均值,以此为不同购买预算消费者提供信息参考,并与房屋数量进行结合,进行价格优化选择 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E5%90%84%E5%8C%BA%E6%88%BF%E5%B1%8B%E5%9D%87%E5%80%BC.png) * 分析各区单位面积房价,得出房屋均价高低,随着x值的不同,中心水平是有变化的,故可单位面积房价与所在城区二者是有关系的 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E5%90%84%E5%8C%BA%E5%8D%95%E4%BD%8D%E9%9D%A2%E7%A7%AF%E6%88%BF%E4%BB%B7.png) * 分析不同卧室数、厅数、楼层对单位面积房价的影响,得出: * 不同卧室数的单位面积房价差异不大; * 不同厅数的单位面积房价有一定影响; * 不同楼层的单位面积房价差异不明显 **此数据可为消费者对房屋所居住人数、居住楼层等进行权衡,选取适合自身的房屋进行购买,其中,厅数对房屋价格影响最大,但对消费者影响较小。** ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E5%8D%A7%E5%AE%A4%E7%9A%84%E5%BD%B1%E5%93%8D.png) ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E5%8E%85%E6%95%B0%E7%9A%84%E5%BD%B1%E5%93%8D.png) ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E6%A5%BC%E5%B1%82%E7%9A%84%E5%BD%B1%E5%93%8D.png) * 分析是否临近地铁对单位面积房价的影响,由数据盒须图可知,越靠近地铁的房屋价格越高,若消费者对交通便利性要求较低,可选择相同位置下距离地铁较远的地区进行房屋购买。 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E5%9C%B0%E9%93%81%E7%9A%84%E5%BD%B1%E5%93%8D.png) * 分析是否是学区房对房价的影响,由数据盒须图可知,深圳地区房屋在距离学校距离方面影响较小,此数据为消费者是否家人有教育需求提供参考,若无此需求,消费者可选择距离校区较远地区;若有购房需求,消费者可选择临近校区房屋,此项对价格总体影响不大。 ![](https://gitee.com/zhang_zhu/Python_DA_Final/raw/master/%E6%9C%9F%E6%9C%AB/md_images/%E5%AD%A6%E5%8C%BA%E6%88%BF%E7%9A%84%E5%BD%B1%E5%93%8D.png) ### 结果 * 通过对深圳房价数据的各项分析,可得出深圳房价存在城区差情况,并通过分析得出各区房屋单位面积价格以及各区房屋数量,为消费者提供基础价格的了解以及各区房屋数量的了解,通过对不同房屋所在位置的分种类分析,得出不同的地理位置以及房屋构造对房屋价格所造成的影响以及影响程度,以数据为本为消费者的房屋购买提供有价值的建议。 ### 可行性分析 * **商业可行性:通过数据说话,为消费者提供更加准确的购房建议,提升使用房屋出售平台用户满意度,提升平台价值** * **技术可行性:利用第三方在线网站数据(数据具有真实性),通过pandas数据分析进行数据清洗出报表及数据可视化** * **用户可预性:该数据分析可帮助用户更加直观的得到需要的房屋数据,为房屋的购买提供真实有利的建议** *** # 五、学习心得总结及感谢 * 通过本次python数据分析课程的学习以及期末项目的实践,我认识到了数据的的重要性以及数据在未来发展的方向,同时我也学习了许多关于Python数据处理的知识,例如数据清洗、分进合击、数据可视化图表的构建、主题建模等知识。在此由衷感谢许智超老师的教学与指导;感谢和鲸社区为我提供数据;也感谢在期末项目制作过程中同学热心的帮助;感谢Python相关行业工作者所分享的数据知识以及错误修改方法;本学期的Python数据分析课程同时也提高了我的代码理念以及数据理性思维,我相信这对我未来的学习与工作都能起到积极的作用。 ## 感谢以下内容创作者所分享的内容: * [颜色搭配推荐网站字客网](https://www.fontke.com/) * [invalid syntax报错解决](https://www.cnblogs.com/lenfoo/p/11251517.html) * [和鲸社区所提供数据](https://www.heywhale.com/home/) * [NumPy绘图教程](https://www.runoob.com/numpy/numpy-tutorial.html) * [Python绘图总结(Matplotlib篇)之画布、颜色、及样式](https://blog.csdn.net/wuzlun/article/details/80059222) * [matplotlib可视化图表美化教程](http://www.bubuko.com/infodetail-3333299.html) * [matplotlib绘图教程](https://blog.csdn.net/weixin_44766179/article/details/90137496) * [seaborn教程](https://zhuanlan.zhihu.com/p/40303932) * [pandas数据重命名](https://blog.csdn.net/yangshaojun1992/article/details/106773844/) * [jupyter notebook主题的更改](https://blog.csdn.net/az9996/article/details/88621028) * [合并文件夹下的数据文件](https://www.cnblogs.com/shadrach/p/7687502.html) * [菜鸟sqlite教程](https://www.runoob.com/sqlite/sqlite-tutorial.html) * [导出数据生成Excel文件](https://zhuanlan.zhihu.com/p/80888926) *** * [ **gitee项目文档链接** ](https://gitee.com/zhang_zhu/WXblog) * [ **数据分析ipynb文档链接** ](https://gitee.com/zhang_zhu/WXblog/blob/master/%E6%9C%9F%E6%9C%AB/%E6%B7%B1%E5%9C%B3%E6%88%BF%E4%BB%B7%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90.ipynb)