# R.sample **Repository Path**: hyg/R.sample ## Basic Information - **Project Name**: R.sample - **Description**: No description available - **Primary Language**: R - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2015-03-15 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ##学习R语言时写的范例 ###教材 1. R语言实战(R in Action) 1. 模块1:第1~6章 2. 模块2:第11、16章 3. 模块3:第7、10章 4. 模块4:第8、9、12、13、14、15章 2. 统计学教材(TBD) ###练习数据集 1. CHARLS 1. 下载地址: 2. 本地路径:CHARLS_PATH (请设置系统环境变量) 2. CGSS 1. 下载地址: 2. 本地路径:CGSS_PATH (请设置系统环境变量) 3. WDI 1. 下载地址:http://pan.baidu.com/s/1i31oycX 2. 本地路径:WDI_PATH (请设置系统环境变量) 4. RSAMPLE 1. git地址: 各自fork 2. 本地路径:RSAMPLE_PATH (请设置系统环境变量) ###提交要求 1. 各学习者fork本git库到自己名下。 2. 每项结果均包括.R文件(源代码)和.md文件(使用说明和分析结果),提交到: * 自己名下的git库根路径 * R语言开发社区:http://www.rlanguage.net/ * 人大经济论坛的“R语言论坛”:http://bbs.pinggu.org/forum-69-1.html 3. 提交时间:周日24:00前。 4. 文件命名:**i.j[.k].xxx** i- 表示输出结果批次。比如“输出结果4”对应的i=4 j- 表示同一批次第几项输出结果。 k- 同一项输出结果包括几个文件时,用k表示内部流水号或文档名称。 xxx- 文件后缀 例如:第一周第一项输出结果包括1.1.R和1.1.md 例如:第三周第一项输出结果包括3.1.1.R、3.1.2.R、3.1.3.R(三组双变量)和3.1.md、3.1.分析报告.md 5. 带有“学习总结”字样的输出结果,除了提交文档外进行一次10~15分钟的口头简报。时间在周日18~19点。 ###时间安排(共8周:周一0:00~周日24:00为一周) 1. 第一周: * 学习内容:教材1第1~6章,附录A、B、H * 输出结果1: 1. 计算CHARLS 2013年12个数据文件的缺失比率(NA数量/总数据量) 2. 根据发作后体检、生病后体检两种获知方式的人数,对CHARLS 2013年DA007中14种疾病排序。 3. 用你认为最直观的图形表示上面两个结果。 4. 请根据自己需要独立编写初始化文件(Rprofile.site)。阅读其他人的文件,选出一个作为统一要求。 2. 第二周: * 学习内容: 1. 教材1第11、16章、附录C、D 2. 统计学:分析两变量间关系的基本方法,包括相关性、 t检验、卡方检验和非参数方法。 3. 统计学:假设检验。 * 输出结果2: 1. 用你认为最直观的图形表示对CHARLS 2013年DA007中14种疾病的获知方式数据。 2. 选出CHARLS 2013年数据中受访者出生年份在 1963 年之后,并且自我评价健康状况良 好、没有残疾、慢性病和身体疼痛的人,把他们的DB部分(或全部)数据单独保存为CSV文件。(以下简称“2013残疾数据”) 3. 学习总结:《如何判断在给定置信度的前提下需要多少样本才能判断处理的效果》 3. 第三周: * 学习内容: 1. 教材1第7章、附录E 2. 统计学:针对一个数值型结果变量与一系列数值型预测变量间的关系进行建模的回归方法。 3. 统计学:非正态分布数据的回归分析 4. 统计学:拟合模型的方法、适用性评价和含义解释。 * 输出结果3: 1. 请选择至少三组双变量组合,对“2013残疾数据”做双变量关系分析。就它们的显著性和组间差异等内容写一篇《分析报告》。 2. 用你认为最直观的图形表示上面的结果。 4. 第四、五周: * 学习内容: 1. 教材1第8、9、10章 2. 统计学:方差及其变体 3. 统计学:广义线性模型 3. 统计学:类别型变量(Logistic回归) 4. 统计学:计数变量(泊松回归) 5. 统计学:重抽样和自助法 * 输出结果4: 1. 学习总结《如何评价分析的适用性》 2. 把前几周的输出结果中,可以重复使用的代码模块整理为函数。 3. 请跟踪2012、2013年的DA007中14种疾病变化[患病<->未患病],列出变化的受访者和变化方向。 4. 在以下方向中,选择至少两个完成回归分析: - 住院医疗服务利用的统计指标 - 住院医疗服务利用和门诊,体检健康服务利用的关系 - 住院医疗服务利用和保险的关系 - 住院医疗服务利用的城乡差距 - 住院医疗服务利用和慢性病的关系 - 住院医疗服务利用的子女情况的影响因素 5. 第六周 * 学习内容: 1. 教材1第12、13章 2. 统计学:多元数据分析 3. 统计学:简化数据:如何将大量的相关变量转换成较少的不相关变量(主成分分析),以及如何发现一系列变量中的潜在结构(因子分析)。 4. 统计学:应对数据值缺失的现代方法 * 输出结果5: 1. 完成输出4.4.列出的所有方向回归分析。 2. 从输出4.4.列出的方向中选择至少两个,对比2012、2013年的数据,进行描述性分析。 6. 第七、八周 * 学习内容:教材1第14、15章 * 输出结果6: 1. 用你认为最直观的图形表示输出5.1.、5.2.的结果。