# stata4ds

**Repository Path**: xiahanlin/stata4ds

## Basic Information

- **Project Name**: stata4ds
- **Description**: Stata for Data Science
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2021-08-18
- **Last Updated**: 2021-08-18

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# stata4ds

> ⚠️Underwriting!

这是我最近正在写的一本开源书，写作思路是这样的，先按照 [R for Data Science](https://r4ds.had.co.nz/) 的组织结构写，中间再插入自己想加入的东西，然后全部写完之后再梳理梳理，所以现在这本书是没什么逻辑的，不要见怪。

这本书是模仿 [R for Data Science](https://r4ds.had.co.nz/) 一书的结构进行编排的。这本书的编写旨在帮助你学习如何使用 Stata 进行数据整理和建模。虽然这本书的名字是 《Stata for Data Science》，但是这本书的重点是如何使用 Stata 进行数据整理、分析和简单建模，这是因为本书的作者实际对数据科学一无所知。

在这本书中，你可以学习如何将数据导入 Stata、如何对数据进行清洗和转形、如何使用统计图表对数据进行展示（我向来不敢使用`可视化`这个词，因为我也觉得我对可视化一无所知）。除此之外，还有如何使用整理好的数据进行建模。

我的统计软件学习顺序是 Stata 到 R的。我第一次接触 [Stata](https://www.stata.com/) 是在 2016年我上大二的时候，那个学期我去蹭了[张宁老师](https://ec.jnu.edu.cn/news/view/id/4156)的计量经济学。Stata 并非我学习的第一门编程语言（我的第一门编程语言应该是Java，不过我并没有继续学下去），但却是我第一门认真学习的编程语言，或者更具体地说，第一门统计编程语言。在随后的两年时间里，我先后学习了 Stata 在计量经济学中的使用、Stata 数据处理、Stata 网页数据爬取以及Stata 图表绘制。除此之外，还学习了一些 Mata 方面的东西，尽管在 Stata 方面花费了如此之大的功夫，我依然感觉自己对 Stata 的掌握不够系统。因此写这本开源书有四个目的：

1. 学习 [bookdown](https://bookdown.org/) 包的使用，这个包可以非常方便的用于书籍排版；
2. 整理过去两年的 Stata 笔记；
3. 复习 [R for Data Science](https://r4ds.had.co.nz/) 一书。
4. 帮助我的好朋友们学习 Stata。

我的 Stata学习大致到大三下学期就结束了，之后我又努力地学习了一段时间的 R 和 Python。在比较熟练的掌握了 R 数据分析技能之后，我便很少再使用 Stata 了，但是我依然觉得 Stata 是一门非常优秀且强大的编程语言。在 Stata 的诸多优点之中，我尤其喜欢 Stata 的帮助文档，非常详细。

我用 Stata 完成了我大学除了毕业论文之外的所有论文，这些使用经验告诉我，Stata 是一门可以信赖的统计软件。

## 本书内容

由于本书是按照 *R for Data Science* 一书的结构组织的，因此本书的结构与之类似：

第一部分：探索。主要是介绍 Stata 的基本操作，比如如何安装和更新 Stata、如何导入 Stata 的系统数据集并进行简要的整理分析和画图。

第二部分：深入。本部分将会更加深入地介绍使用 Stata 处理数据的一些技巧。包括日期、字符串、数值变量的处理、数据长宽转换等。

第三部分：编程。由于作者对 mata 的了解几乎没有，所以这一部分的编程当然是指 ado 的编程，通过学习 ado 编程，你可以创建自己的 Stata 命令。在这部分还会介绍 Stata 中的 local 和 global 变量以及循环的使用。

第四部分：模型。由于本书的重点不在于计量经济学，因此这一部分仅以最简单的 OLS 模型为例介绍。

第五部分：汇报。Stata15 引入了一些新东西，例如 **putdocx**, 这个命令可以让你直接使用 Stata 创建 Word 文档。这可能有些类似于 RMarkdown。除此之外，我还会介绍一些用于在 Stata 工作流程中使用 Markdown 的外部命令。

## 阅读本书之前的准备工作

首先你需要在你的 Windows 上或者 Mac 上安装 Stata15，由于作者的电脑是 Mac 系统，所以本书的内容尚未在 Windows 上测试。如果你运行出错，请联系作者。

另外，我再向你推荐一个非常好用的代码编辑器：[**Sublime Text 3**](http://www.sublimetext.com/)，Stata 的安装和 Sublime Text3 的配置教程网上有很多，作者的个人网站上也有一些：[Stata安装与Sublime Text3配置教程](https://www.czxa.top/posts/59313/)，因此这里不再赘述。

为了方便本书的阅读，作者正在编写一个 Stata 的命令包，你可以运行下面的命令安装：

```stata 
* 首先需要安装 github 命令，这个命令可以用来安装 GitHub 上的 Stata 命令。
net install github, from("https://haghish.github.io/github/")
* 然后使用 github 命令安装 stata4ds
github install czxa/stata4ds, replace
```

这个命令包会随着本书的更新而更新。因此在学习本书前，请确保先更新 stata4ds 命令包。

## 目标读者

本书的目标读者是闲着没事干的人。

## 排版约定

在本书中，你会发现一些不同的文本样式，用以区别不同种类的信息，这里举例说明一些样式，以及它们的含义：

代码的输入和输出格式如下：

```stata 
* 导入系统数据集
clear all
sysuse auto, clear
*> (1978 Automobile Data)
```

`*` 开头的行为注释。`*> `开头的行为运行结果。

**新术语** 和 **重要的词** 用黑体表示。

## 下载示例代码

本书的代码开源在 GitHub 上，你可以从这里下载：[stata4ds](https://github.com/czxa/stata4ds)。

## 许可证

本书是一本开源书籍，使用 [Creative Commons Attribution-NonCommercial-NoDerivs 3.0](http://creativecommons.org/licenses/by-nc-nd/3.0/us/) 许可证。这意味着：

![](/assets/license.png)

如果你想支持作者的工作，欢迎前往[作者的网站](https://www.czxa.top)对作者进行打赏。你的支持将会促使作者更加及时地更新这本书。

## 读者反馈

欢迎读者的反馈。你对本书有任何想法，喜欢或者不喜欢什么，请告知我。你可以在下面的评论区里评论，如果你阅读的是 PDF 版本，你可以前往 [Stata for Data Science](https://wwww.czxa.top/stata4ds) 创建 issues。