# pandas **Repository Path**: chen7179/pandas ## Basic Information - **Project Name**: pandas - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-18 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 能源工业投资分析 ### 数据来源:[国家数据分省年度数据](http://data.stats.gov.cn/easyquery.htm?cn=E0103) - 1.目标用户:工程及工厂项目方 - 2.用户使用场景:需要了解到国家对不同地区能源工业投入,来了解到哪些原材料的数目,从而合理在原材料较多的省份开始项目 - 3.需求:需要大量的原材料 - 4.痛点:不同地区能源投资差异较大,原材料运输成本较高 - 5.增长点:了解到能源较多的省份,减少原材料运输成本 ### 价值主张宣言 - 取到哪些省份能源较多 - 通过整理,拆分,整合,列表,绘制直观的可视化地图和折现图,让用户可以直观快速的了解到信息,提高效率 - 且分析后的数据也有延申价值,比如了解到哪些省份的能源工业投资较少,国家可以多关注一些且投入资金,带动其他投资者的资金投入,从而促进某些地方的部分工业/工程发展 - 此数据分析结果为各地区工程/工厂项目提供数据可视化参考,减少原材料运输成本 ### 数据分析思路及方法 #### 1.读取所需数据 ``` df_raw = pd.read_csv ("fsnd_zb_data.tsv", encoding = "utf8", sep="\t",keep_default_na=False,na_values='na_rep',index_col=[0,1,2]) df_m = pd.read_csv ("fsnd_zb_meta.tsv", encoding = "utf8", sep="\t",keep_default_na=False,na_values='na_rep',index_col=0) df_r = pd.read_csv ("reg_treeId_level2.tsv", encoding = "utf8", sep="\t",keep_default_na=False,na_values='na_rep',index_col=3) display(df_raw) ``` ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/211510_5baca76e_2230764.png "p1.png") #### 2.数据清洗,增强可读性 ``` 指标字典 =df_m['cname'].to_dict() 指标字典 ``` ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/211811_96386990_2230764.png "p2.png") - 经过整理后 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/212519_965100c2_2230764.png "2.png") #### 3.寻找数据拆分的可能性 ``` dslice =df_zh[ df_zh.指标.str.contains("能源")] dslice ``` ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/212700_dbbf5487_2230764.png "3.png") #### 4.整合数据 ``` df_能源工业投资切片 = df_zh.set_index("指标").loc[指标分的可能性_取_all].reset_index() df_能源工业投资切片 ``` ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/213331_abba6660_2230764.png "4.png") #### 5.切片-“2017年各省能源投资数目” ``` df = df_能源工业投资切片.query('年==2017') df ``` ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/213728_260b8056_2230764.png "5.png") #### 6.数据可视化 ##### 地图 ``` import json with open("china_province.geojson",encoding= "utf-8") as f: provinces_map = json.load(f) import pandas as pd import plotly.express as px fig = px.choropleth_mapbox( data_frame=df, geojson=provinces_map, color='数据', locations="地区", featureidkey="properties.NL_NAME_1", mapbox_style="carto-darkmatter", color_continuous_scale='viridis', center={"lat": 37.110573, "lon": 106.493924}, zoom=3, ) fig.update_layout( mapbox_style="carto-darkmatter", mapbox_zoom=3, mapbox_center={"lat": 37.110573, "lon": 106.493924}, ) fig.show() ``` ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/213934_efe3059f_2230764.png "6.png") - 分析:从这张可视化地图可以很明显的看出山东省的能源投入时最多的,能源也是最多的,所以建议各大工程/工厂可以考虑到山东省建厂或开始生产项目 ##### 折线图 ``` import matplotlib as mpl mpl.rcParams['font.sans-serif'] = ['KaiTi'] mpl.rcParams['font.serif'] = ['KaiTi'] mpl.rcParams['axes.titlesize'] = 24 mpl.rcParams['xtick.labelsize'] = 18 mpl.rcParams['ytick.labelsize'] = 18 mpl.rcParams['legend.fontsize'] = 8 mpl.rcParams['legend.title_fontsize'] = 18 mpl.rcParams['legend.loc'] = 'upper right' df_能源工业投资切片.set_index(["地区","指标","年"])\ .unstack()\ .dropna(axis=1)\ .sort_values (by=('数据',2011),ascending=False)\ .droplevel(None, axis=1)\ .T\ .plot(figsize=(20,9),title='') ``` ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/214239_255f00a8_2230764.png "7.png") - 分析:从折线图可以看出山东省2017年的能源投资是最多的且有上涨的趋势,可以预测到未来几年山东省的工业产量也会位居各省的前列 ### 数据分析流程及成果 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/220024_9bd6814b_2230764.png "8.png") 1. 数据采集 2. 数据清洗 3. 寻找数据拆分的可能性 4. 整合数据 5. 数据表格化 6. 数据可视化及成果展示 ### 学习/实践心得总结及感谢 #### 心得 - 上完这门课和期末实践,初步了解了从数据科学的角度你分析数据,呈现数据,及做出一些分析和建议,也了解到了数据读取-整理-筛选-可视化呈现等流畅,为以后的职业规划也有经验积累,但是在数据整理方法还有待提高,在之后的学习中会提高这方面的能力。 #### 感谢 - 感谢许多开放的数据库,得以让我有材料去分析相关项目的实践和分析,也感谢许多博主分享的文章,感谢pandas的创造者! ##### 链接分享 - [使用 plotly 绘制 Choropleth 地图](https://cloud.tencent.com/developer/article/1600602) - [How to make a choropleth map with a slider using Plotly?](https://stackoverflow.com/questions/46777047/how-to-make-a-choropleth-map-with-a-slider-using-plotly) - [Built-in Continuous Color Scales in Python](https://plotly.com/python/builtin-colorscales/) - [Plotly world Choropleth Map offline in python?](https://stackoverflow.com/questions/52990452/plotly-world-choropleth-map-offline-in-python) - [数据科学边界:数据不能解决什么?](http://www.woshipm.com/data-analysis/1813289.html) - [从数据产品经理视角,聊聊科学的AB Test](http://www.woshipm.com/pd/3357576.html) - [科学五步走,搭建企业“数据观”](http://www.woshipm.com/data-analysis/863878.html) - [用pandas进行数据分析实战](http://www.woshipm.com/data-analysis/756741.html) - [人机耦合时代下的数据众包产业化](http://www.woshipm.com/data-analysis/1003111.html) - [从负基础起步,掌握数据分析技能](http://www.woshipm.com/data-analysis/2183129.html)