# api_end

**Repository Path**: chen7179/api_end

## Basic Information

- **Project Name**: api_end
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-17
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 以API驱动之智能产品App-没错app
* 迭代的增量改进：添加优化数据集部分和增加原型图
* [diff链接](https://gitee.com/chen7179/api_end/compare/6c6386e85c5fb96c04601e2d4026066656473cf5...799498c555794fd36a76eb0b9da4c84c37da3dcb)

## [这里有ppt演讲，提高你的互评体验](https://gitee.com/chen7179/api_end/blob/master/api.pptx)

## 无错办公项目介绍
> 没错app可以看作是一个办公app，主要是错别字识别与纠正。当学生/办公人员工作者在协作办公时，聊天或者输入文字难免会打字过快从而出现有些字打错，收看者有时候看到这些消息/文字内容不好理解意思，从而浪费一些不必要的时间成本。但是通过这个产品，用户只用正常输入，即使输入过快文字拼写错误，也会帮你自动识别和修正。其运用了依存句法分析api，识别用户输入的文字/语句是否构成一句无误的句子；若出现错误书写，会通过文本纠错api提醒用户且纠正错误。通过分析用户Query的依存句法结构信息，抽取其中的语义主干及相关语义成分，帮助智能产品实现对用户意图的精准理解。提供用户一个良好的办公环境，提升办公效率。
## 价值主张
- 通过错字纠正api收集到用户的错字，分析且纠正
- 优化办公环境和办公效率
- 进一步的提高了数据集的精度，提高机器的运算效率和准确性
- 另外数据集也有其延申的产业价值，比如通过收集用户经常写错的字，制作错字集，错句集等等

## 无错办公与需求列表
- 现代快节奏的生活，当代人不容易注重细节，忽略了发送的信息和文本中含有的错别字，偶尔会产生一些歧义。日常生活中还好，若是在协作办公室就会浪费不必要的时间。所以，“没错”app可以或多或少的提高用户的办公效率。
### 无错办公

#### 用户画像
![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/160055_a1a8107f_2230764.png "xx.png")
![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/160114_dfd001c6_2230764.png "xd.png")

-  **目标用户：** 学生，办公人员
-  **用户使用场景：** 
> 编辑内容时自动检查并提示错别字情况。从而降低因疏忽导致的错误表述，有效提升作者的文章写作质量，同时给用户更好的阅读体验。
-  **任务：** 
1. 错别字识别
2. 错别字纠正
- **痛点：** 有错别字，对方不能很好的理解意思
-  **增长点：** 识别精度高、效果稳定性强（通过互联网用户行为挖掘海量训练样本，提高了算法在复杂多变的应用场景下的效果稳定性）

### 需求列表

| 优先级 | 需求     | 智能加值 | API类型 |
|:-----:|:--------:|:------:|:-------:|
| 1   | 识别文字错误 | 是    | 依存句法分析 |
| 2   | 纠正错别字  | 是    | 错别字纠正 |

### 通过文字识别及纠正api解决问题
- 这是基于用户输入的文本内容，自动分析文本中的依存句法结构信息，实现对自然语言的精准理解，是被出句子/文本中存在错别字，从而换正确的文本替换。

| 商业可行性 | 可以和许多输入法产品合作，优化他们的App,且市场还未饱和，商业空间较大 |
|:-------:|:---------------------------:|
| 技术可行性 |使用的api技术难度较小， 不断提高精度即可，已广泛使用，精度高|
| 用户可欲性 |能够很好的提高用户编辑的文本内容正确率，有效的提高办公效率|


### 界面流程及关键智能交互
![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/233305_fc333874_2230764.png "232.png")

### 原型
- [产品原型链接](https://modao.cc/app/b09bbd3d251ba92ea58a9eb6a030f5aab48af7d4?simulator_type=device&sticky)
#### 登录
![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/185436_1bf8605c_2230764.png "cq.png")

#### 办公
![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/185510_0adc3df9_2230764.png "cq1.png")

#### 办公-错别字矫正
- 
![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/234000_96000520_2230764.png "789.png")
#### 聊天-错别字矫正
- 
![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/000242_eb08b6a4_2230764.png "lt.png")


### 数据流程及关键智能API使用
![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/214833_e082fa66_2230764.png "15.png")
- 首先，识别到用户输入的文本并且访问数据集，通过依存句法分析判断是否存在错别字，若没有，直接输出且发送文本；若出现文本有错字，陈列出错字所在，然后再纠正错别字，完善语句逻辑，不断优化/提升数据集的精度，纠正后再输出和发送。
### 数据之再加值
- 通过不断的识别用户的拼写错误和纠正，不断提高数据集精度，提高运算效率
- 通过收集用户经常书写错误的文字和句子，可以延申出新的产品，如：易错字词典，易错句子等。


### API 测试之代码

#### 依存句法分析-body请求示例:
```
{
	"text": "今天天气怎么样",
	"mode": 1
}
```
- 返回结果
```
{
    "log_id": 12345,
    "text":"今天天气怎么样",
    "items":[
        {
            "id":"1", //id
            "word":"今天", //word
            "postag":"t", //POS tag
            "head":"2", //id of current word's parent
            "deprel":"ATT"  //depend relations between current word and parent
        },
        {
            "id":"2",
            "word":"天气",
            "postag":"n",
            "head":"3",
            "deprel":"SBV",
        },
        {
            "id":"3",
            "word":"怎么样",
            "postag":"r",
            "head":"0",
            "deprel":"HED",
        }  
    ]
}
```

#### 文本纠错-Body请求示例:
```
{
    "text": "百度是一家人工只能公司"
}

```
- 返回结果
``` 
{
    "log_id": 6770395607901559829,
    "item": {
        "vec_fragment": [
            {
                "ori_frag": "只能",
                "begin_pos": 21,
                "correct_frag": "智能",
                "end_pos": 27
            }
        ],
        "score": 0.875169,
        "correct_query": "百度是一家人工智能公司"
    },
    "text": "百度是一家人工只能公司"
}
```
- 纠正后输出“百度是一家人工智能公司”，建立“只能”与“智能”关键词联系从而提高数据集精度


### 优化数据集
- [参考链接-在真实数据集上的随机森林模型参数调优](https://www.jianshu.com/p/dbf21ed8be88)
- 首先，通过收集到用户大量的“错字-纠正”数据集后，分一部分作为训练数据，另一部分作为测试数据，通过对随机森林的参数不断调优，找出在测试结果上，预测最为精确的随机森林模型。
- 后期通过max_features、 n_estimators、min_sample_leaf不断优化数据集，提高运算速度和正确性

### 心得
- 通过学习及期末的实践过程，我对api有了一定的了解，也明白了api的使用并不是简简单单的调用就行了。首先要明确自己的产品的价值所在，用户群体，用户旅程地图，数据流程，及api对产品有什么加值空间。所有的设计都应该考虑用户体验，从“以人为本”出发。从“没错”app中，其中明确了产品价值是“文本纠错”，从用户出发，考虑到用户经常忽略的细节，解决用户在聊天和办公时出现的错别字问题，提高办公效率。用到了依存句法分析、文本纠错api，为产品一部分的加值。另外，学习过程中发现个人对于api代码调用能力还有一定的欠缺，以后也会多看看api技术文档和使用说明，来提高自己这方面的能力。
### 感谢
- 首先，感谢这门课带给我对api、人工智能方面的知识扩充，另外也感谢百度开放平台给予的api调用的使用说明和技术文档，还有“人人都是产品经理”中一些大佬对于api、人工智能、数据，用户研究等方面的阐述，感谢我可以有一次可以实践“api+人工智能”的机会......

#### 链接分享
- [数据科学边界：数据不能解决什么？](http://www.woshipm.com/data-analysis/1813289.html)
- [从数据产品经理视角，聊聊科学的AB Test](http://www.woshipm.com/pd/3357576.html)
- [科学五步走，搭建企业“数据观”](http://www.woshipm.com/data-analysis/863878.html)
- [API接口入门（一）：读懂API接口文档](http://www.woshipm.com/pd/3000478.html)
- [OTA实战分解（1）：快速阅读API及场景应用](http://www.woshipm.com/pd/3053182.html)
- [如何设计API产品的认证部分？](http://www.woshipm.com/pd/3683012.html)
- [人工智能还是人工智障？](http://www.woshipm.com/ai/3064887.html)
- [人工智能产业生态图：人工智能产业发展现状及趋势](http://www.woshipm.com/ai/993918.html)
- [百度文本纠错api](https://ai.baidu.com/tech/nlp_apply/text_corrector)
- [百度依存句法分析](https://ai.baidu.com/tech/nlp_basic/dependency_parsing)