# pandas_data **Repository Path**: NFUNM172017487/pandas_data ## Basic Information - **Project Name**: pandas_data - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-12 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 项目名称 [ipynb文档](https://gitee.com/NFUNM172017487/pandas_data/blob/master/qimo/%E6%9C%9F%E6%9C%AB%E6%8A%A5%E5%91%8Aipynb.ipynb) 独角兽企业与地方发展及创业城市选择 ## 数据分析项目MVP加/价值主张宣言 * 探究独角兽企业与中国各省发展之间的关系,独角兽企业能否影响省GDP发展,以及省发展能否以及如何影响独角兽企业的诞生. # 问题表述 ## 数据分析项目为啥要做? 国家当前大力鼓励创新创业项目,但创业需要各方面的条件的支持,其中地方政策就是一个很重要的方面 ## 是谁有需要解决的问题? ### 用户画像 * 初始创业者,有一个好点子,想挑选一个发展前景好的地区创业,纠结不知道去哪个省份城市,不知道哪个省份城市 ### 需求 * 用户使用场景:在会议室里思考公司成立地点,希望能够利益最大化 * 任务:选择一个适合我的点子、政策上有倾斜的城市创业 * 痛点:所有城市政策不同,较难一个个对比观察,想要便捷的得出结论 * 增长:分析得出何城市适合什么类型的创业 # 解决方案表述 ### 数据分析项目如何做分析? * 先将独角兽企业的空间图表制作出来,观察哪些省份城市会有独角兽企业,各省份城市独角兽企业数量、市值 * 再通过分析各省各年的GDP变化,以此来判断是否是独角兽企业促进了省GDP发展,还是省GDP的发展促进了独角兽企业诞生,或者是两者相辅相成良性循环 ### 分析成果如何解决谁的问题? * 通过各地GDP及独角兽的变化,以此来解决创业者寻找创业地的问题 ## 数据分析思路及方法 ### 思路: * 先读取两个数据「中国分省年度GDP(分省年度数据.xls)」和「独角兽企业数据(20春_pandas_week02_hurun_unicorn.tsv)」 * 对两个数据进行数据清洗、搭桥和分进合击来作出限定中国省份的表格,而因为独角兽企业中只有城市,因此要搭桥到省份 * 制作分省年度数据的折线图观察其变化 * 折线图变化节点与独角兽企业成立时间是否有关 ### 方法: * 先提取出独角兽进行数据清洗和分进合集 ```python 中国=df.loc[df['国家'] == '中国'] 中国 ``` ```python # 搭桥 搭桥表 = pd.read_excel("中国地区名称搭桥表_城市变省.xlsx", index_col=0) 搭桥 = 搭桥表[["城市","省份"]].set_index('城市').to_dict()['省份'] 搭桥 ``` ```python # 单有省份 省 = 独角兽_搭桥后.groupby ( by = ['省份'] ) \ .agg({"独角兽":"count","估值":"sum"})\ .rename(columns={"独角兽":"数量"}) 省 ``` ```python # 年份 成立年 = 中国.groupby ( by = ['城市','成立年'] ) \ .agg({"独角兽":"count","估值":"sum"})\ .rename(columns={"独角兽":"数量"}) 成立年 ``` * 再提取出省GDP进行包装 ```python # 省份国家数据 分省=pd.read_excel ("分省年度数据.xls", encoding = "utf8", sep="\t",) 分省.head() ``` * 商业可行性 不同地方有不同的产业链与产业集群,因此不同地方的创业成本有很大区别,选到一个好地址可以为企业节约大量成本,因此企业也愿意购买选址服务 * 技术可行性 网络上有许多组织公开数据,以及政府公开数据,可供爬取 * 用户可欲性 如同商业可行性,该项目能帮助用户得到他们想得到的适合他们企业的地方驻扎创业 ## 数据分析流程及成果 ### 分析流程 * 先封装出便于写入可视化的模块 ```python 地区=分省['地区'].tolist() 地区 fs2019=list(tuple(zip(地区,分省[2019].tolist()))) fs2018=list(tuple(zip(地区,分省[2018].tolist()))) fs2017=list(tuple(zip(地区,分省[2017].tolist()))) fs2016=list(tuple(zip(地区,分省[2016].tolist()))) fs2015=list(tuple(zip(地区,分省[2015].tolist()))) fs2014=list(tuple(zip(地区,分省[2014].tolist()))) fs2013=list(tuple(zip(地区,分省[2013].tolist()))) fs2012=list(tuple(zip(地区,分省[2012].tolist()))) fs2011=list(tuple(zip(地区,分省[2011].tolist()))) fs2010=list(tuple(zip(地区,分省[2010].tolist()))) ``` * 使用pyecharts将封装数据做成地图 ```python def zgdjs()->Map: c=( Map() .add('数量',sfsl,'china') .set_series_opts(label_opts=opts.LabelOpts(is_show=False)) .set_global_opts( visualmap_opts=opts.VisualMapOpts(min_ =先省再城['数量'].min(),max_ =先省再城['数量'].max()), title_opts=opts.TitleOpts(title="中国独角兽"), ) ) return c ``` * 商业可行性 利用图表将数据通过故事表达出来,符合混合心智模型中以原型和视觉化形式呈现体验与资料从中构建故事。 * 技术可行性 pyecharts有许多功能能够帮助项目的制作,和数据的可视化,将故事通过视觉化图表展现出来 * 用户可欲性 用户更愿意通过可视化的方式来查看结果和故事,使用户能够更加便捷的了解结论 ### 成果 空间比较 (总200-250字,不含代码计字数,需要简要写给没上过本课的人,介绍此具体用户需求及用情境下的数据分析流程及成果,可以是这门课提到的分进合击出报表、时间、空间比较分析、交叉分析、或文本主题模型分析用于特定使用场境的具体流程及成果。分析流程可進一步论证Feasibility技术可行性,并分析成果補充说明Viability商业可行性、或/及Desirability用户可欲性。 建议复习本课程由《金融时报》提供的《可视化视觉词典》,利用” 可视化视觉”结合设计思维及数据思维,确切描述出数据分析流程及成果,明晰的展示数字人文或社会数据科学的分析流程合理性及分析流程的有效性。) (图表建议:此部分视项目需求,建议使用数据流程图DFD) # 学习/实践心得总结及感谢 在本项目实践中,我学习到了混合心智模型加入设计流程后,我的想法更倾向于数字人文方面以可视化的方式讲故事,通过数据的分析来为自己的直觉观点进行支撑,分析与直觉并行。 感谢廖汉腾与许智超老师提供的关键代码,以及部分数据,感谢[国家数据](http://data.stats.gov.cn/)http://data.stats.gov.cn公开的数据。 混合心智模型给我带来了好处,给了我提供了一个新思路,将分析和直觉结合起来,将分析来佐证直觉的想法,用直觉来引导分析的方向。