# api_end **Repository Path**: chen7179/api_end ## Basic Information - **Project Name**: api_end - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-17 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 以API驱动之智能产品App-没错app * 迭代的增量改进:添加优化数据集部分和增加原型图 * [diff链接](https://gitee.com/chen7179/api_end/compare/6c6386e85c5fb96c04601e2d4026066656473cf5...799498c555794fd36a76eb0b9da4c84c37da3dcb) ## [这里有ppt演讲,提高你的互评体验](https://gitee.com/chen7179/api_end/blob/master/api.pptx) ## 无错办公项目介绍 > 没错app可以看作是一个办公app,主要是错别字识别与纠正。当学生/办公人员工作者在协作办公时,聊天或者输入文字难免会打字过快从而出现有些字打错,收看者有时候看到这些消息/文字内容不好理解意思,从而浪费一些不必要的时间成本。但是通过这个产品,用户只用正常输入,即使输入过快文字拼写错误,也会帮你自动识别和修正。其运用了依存句法分析api,识别用户输入的文字/语句是否构成一句无误的句子;若出现错误书写,会通过文本纠错api提醒用户且纠正错误。通过分析用户Query的依存句法结构信息,抽取其中的语义主干及相关语义成分,帮助智能产品实现对用户意图的精准理解。提供用户一个良好的办公环境,提升办公效率。 ## 价值主张 - 通过错字纠正api收集到用户的错字,分析且纠正 - 优化办公环境和办公效率 - 进一步的提高了数据集的精度,提高机器的运算效率和准确性 - 另外数据集也有其延申的产业价值,比如通过收集用户经常写错的字,制作错字集,错句集等等 ## 无错办公与需求列表 - 现代快节奏的生活,当代人不容易注重细节,忽略了发送的信息和文本中含有的错别字,偶尔会产生一些歧义。日常生活中还好,若是在协作办公室就会浪费不必要的时间。所以,“没错”app可以或多或少的提高用户的办公效率。 ### 无错办公 #### 用户画像 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/160055_a1a8107f_2230764.png "xx.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/160114_dfd001c6_2230764.png "xd.png") - **目标用户:** 学生,办公人员 - **用户使用场景:** > 编辑内容时自动检查并提示错别字情况。从而降低因疏忽导致的错误表述,有效提升作者的文章写作质量,同时给用户更好的阅读体验。 - **任务:** 1. 错别字识别 2. 错别字纠正 - **痛点:** 有错别字,对方不能很好的理解意思 - **增长点:** 识别精度高、效果稳定性强(通过互联网用户行为挖掘海量训练样本,提高了算法在复杂多变的应用场景下的效果稳定性) ### 需求列表 | 优先级 | 需求 | 智能加值 | API类型 | |:-----:|:--------:|:------:|:-------:| | 1 | 识别文字错误 | 是 | 依存句法分析 | | 2 | 纠正错别字 | 是 | 错别字纠正 | ### 通过文字识别及纠正api解决问题 - 这是基于用户输入的文本内容,自动分析文本中的依存句法结构信息,实现对自然语言的精准理解,是被出句子/文本中存在错别字,从而换正确的文本替换。 | 商业可行性 | 可以和许多输入法产品合作,优化他们的App,且市场还未饱和,商业空间较大 | |:-------:|:---------------------------:| | 技术可行性 |使用的api技术难度较小, 不断提高精度即可,已广泛使用,精度高| | 用户可欲性 |能够很好的提高用户编辑的文本内容正确率,有效的提高办公效率| ### 界面流程及关键智能交互 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/233305_fc333874_2230764.png "232.png") ### 原型 - [产品原型链接](https://modao.cc/app/b09bbd3d251ba92ea58a9eb6a030f5aab48af7d4?simulator_type=device&sticky) #### 登录 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/185436_1bf8605c_2230764.png "cq.png") #### 办公 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/185510_0adc3df9_2230764.png "cq1.png") #### 办公-错别字矫正 - ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/234000_96000520_2230764.png "789.png") #### 聊天-错别字矫正 - ![输入图片说明](https://images.gitee.com/uploads/images/2020/0719/000242_eb08b6a4_2230764.png "lt.png") ### 数据流程及关键智能API使用 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/214833_e082fa66_2230764.png "15.png") - 首先,识别到用户输入的文本并且访问数据集,通过依存句法分析判断是否存在错别字,若没有,直接输出且发送文本;若出现文本有错字,陈列出错字所在,然后再纠正错别字,完善语句逻辑,不断优化/提升数据集的精度,纠正后再输出和发送。 ### 数据之再加值 - 通过不断的识别用户的拼写错误和纠正,不断提高数据集精度,提高运算效率 - 通过收集用户经常书写错误的文字和句子,可以延申出新的产品,如:易错字词典,易错句子等。 ### API 测试之代码 #### 依存句法分析-body请求示例: ``` { "text": "今天天气怎么样", "mode": 1 } ``` - 返回结果 ``` { "log_id": 12345, "text":"今天天气怎么样", "items":[ { "id":"1", //id "word":"今天", //word "postag":"t", //POS tag "head":"2", //id of current word's parent "deprel":"ATT" //depend relations between current word and parent }, { "id":"2", "word":"天气", "postag":"n", "head":"3", "deprel":"SBV", }, { "id":"3", "word":"怎么样", "postag":"r", "head":"0", "deprel":"HED", } ] } ``` #### 文本纠错-Body请求示例: ``` { "text": "百度是一家人工只能公司" } ``` - 返回结果 ``` { "log_id": 6770395607901559829, "item": { "vec_fragment": [ { "ori_frag": "只能", "begin_pos": 21, "correct_frag": "智能", "end_pos": 27 } ], "score": 0.875169, "correct_query": "百度是一家人工智能公司" }, "text": "百度是一家人工只能公司" } ``` - 纠正后输出“百度是一家人工智能公司”,建立“只能”与“智能”关键词联系从而提高数据集精度 ### 优化数据集 - [参考链接-在真实数据集上的随机森林模型参数调优](https://www.jianshu.com/p/dbf21ed8be88) - 首先,通过收集到用户大量的“错字-纠正”数据集后,分一部分作为训练数据,另一部分作为测试数据,通过对随机森林的参数不断调优,找出在测试结果上,预测最为精确的随机森林模型。 - 后期通过max_features、 n_estimators、min_sample_leaf不断优化数据集,提高运算速度和正确性 ### 心得 - 通过学习及期末的实践过程,我对api有了一定的了解,也明白了api的使用并不是简简单单的调用就行了。首先要明确自己的产品的价值所在,用户群体,用户旅程地图,数据流程,及api对产品有什么加值空间。所有的设计都应该考虑用户体验,从“以人为本”出发。从“没错”app中,其中明确了产品价值是“文本纠错”,从用户出发,考虑到用户经常忽略的细节,解决用户在聊天和办公时出现的错别字问题,提高办公效率。用到了依存句法分析、文本纠错api,为产品一部分的加值。另外,学习过程中发现个人对于api代码调用能力还有一定的欠缺,以后也会多看看api技术文档和使用说明,来提高自己这方面的能力。 ### 感谢 - 首先,感谢这门课带给我对api、人工智能方面的知识扩充,另外也感谢百度开放平台给予的api调用的使用说明和技术文档,还有“人人都是产品经理”中一些大佬对于api、人工智能、数据,用户研究等方面的阐述,感谢我可以有一次可以实践“api+人工智能”的机会...... #### 链接分享 - [数据科学边界:数据不能解决什么?](http://www.woshipm.com/data-analysis/1813289.html) - [从数据产品经理视角,聊聊科学的AB Test](http://www.woshipm.com/pd/3357576.html) - [科学五步走,搭建企业“数据观”](http://www.woshipm.com/data-analysis/863878.html) - [API接口入门(一):读懂API接口文档](http://www.woshipm.com/pd/3000478.html) - [OTA实战分解(1):快速阅读API及场景应用](http://www.woshipm.com/pd/3053182.html) - [如何设计API产品的认证部分?](http://www.woshipm.com/pd/3683012.html) - [人工智能还是人工智障?](http://www.woshipm.com/ai/3064887.html) - [人工智能产业生态图:人工智能产业发展现状及趋势](http://www.woshipm.com/ai/993918.html) - [百度文本纠错api](https://ai.baidu.com/tech/nlp_apply/text_corrector) - [百度依存句法分析](https://ai.baidu.com/tech/nlp_basic/dependency_parsing)