# API_final **Repository Path**: wuxinlin/API_final ## Basic Information - **Project Name**: API_final - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-08 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 产品介绍 # [20x20投影片](https://gitee.com/wuxinlin/API_final/blob/master/%E8%BF%AD%E4%BB%A32.mp4) # [PPT](https://gitee.com/wuxinlin/API_final/blob/master/api%E8%BF%AD%E4%BB%A32.pptx) | 文档名称 | 《恰饭》——产品需求文档 | |---|---| | 产品名称 | 恰饭 | | 产品描述 | 一款为顾客在做饭过程中提供语音搜索和语音教程的产品 | |产品版本 | 1.0 | |文件现状| 进行中 | | 产品作者 | 吴欣琳 | 1. 使用[语音输入API](https://ai.baidu.com/tech/speech/asr)在用户双手沾污不方便输入时提供搜索功能 2. 使用[语音合成API](https://ai.baidu.com/tech/speech/tts?track=cp:ainsem|pf:pc|pp:chanpin-yuyin|pu:yuyin-yuyinhecheng-pinpai|ci:|kw:10003541)对用户搜索的内容提供语音播报 # 项目名称:恰饭app ### 价值宣言: “恰饭”是帮助用户在做饭过程中解决无法边看教程边做饭的一款产品 ### 问题&解决方法&人工智能概率性考量: 本软件是基于语音合成和语音识别的工具,适用于完全不会做饭的小白和学习新菜式的用户,通过语音识别可以在无法解放双手或者手上沾有水或油脂时不方便使用手机的时候,通过语音识别搜索直接找到想要的搜索的内容,同时搜索内容可以通过语音合成进行内容播报。虽然当下的语音合成和语音播报功能还未发展的很完美,不能做到百分百的识别准确和合成准确,但是基于技术在逐日完善和市场没有同类型产品竞争,本app还是具有一定市场前景的。 ### 使用场景: 用户做饭途中,需要查看app内教程内容的时,在无法解放双手或者手上沾有水或油脂时不方便使用手机的时候,唤醒app并通过语音识别搜索直接找到想要的搜索的内容,同时搜索内容可以通过语音播报。 ### 用户画像: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0723/172321_84162456_2228747.png "屏幕截图.png") 1. 小红,20岁,在校学生。因为疫情期间不能回校学习,在家有空闲时间闲来无事便开始研究做饭。但是小红因为之前一直在学校住宿,没有什么做饭的经验,是个做饭小白。即使在做饭之前已经看过教程准备好食材,但是在做饭过程中也会常常因忘记步骤或者无法确定用量需要边做饭边打开app查看。 2. 李阿姨,45岁,家庭主妇。因为疫情期间家人在家吃饭时间变多,开始尝试学习新菜式以满足家人需求,但是会因为无法掌握精确用量需要打开app查看。 ### 问题表述 疫情期间大多数人因为不能复工复学又不能出门,在家便开始研究做饭。但是做饭的时候会因为无法掌握精确用量或者忘记步骤需要查看教程,而双手却因为做饭的时候沾污不方便操控手机。现在市面上提供做饭教程的app仅提供文字和视频教学,但是没有考虑到用户在做饭同时需要使用app会遇到的问题。以此为背景我们的产品可以填补目前市场上的空白。 ### 需求列表 | 优先级 |使用场景 | 智能加值? |智能加值? API 类型 | 重要级 | |---|---|---|---|---| | 1 | 小红用语音唤醒打开恰饭app | 是 | 语音唤醒 | 较为重要 | | 2 | 小红用语音识别在恰饭app内进行内容搜索 | 是 | 语音识别 | 重要 | | 3 |搜索内容进行语音播报 |是 | 语音合成 | 重要 | ### ESG问题分析 E(Environment):恰饭app可以让用户在做饭过程中减少失误的概率,以降低食材的浪费做到环境友好。 S(Social):恰饭app使用用户的语音权限可能会导致用户出于隐私安全而对app产生怀疑。 G(Corporate Governance) ### 解决方案原型表述 **- Viability 商业可行性**:随着越来越多年轻人开始抛弃外卖,开始养生,疫情期间也越来越多人开始研究做饭、烘培。现在的菜谱app也比以往任何时候都要多,这一点很明显。但是,知名的菜谱app数量却没有增加,不过也正因如此,菜谱类App的前景益发让人激动。 **- Feasibility 技术可行性**:百度语音唤醒功能可以为用户提供在锁屏的时候唤醒app的功能;百度短语音识别提供语音搜索功能;百度语音合成实现搜索功能语音播报。为用户实现在无法腾出双手的时候在app内搜索。 **- Desirability 用户可欲性**:随着越来越多人开始研究做饭、烘培。但是许多人由于刚接触做饭,对于做饭的流程不熟悉,对于菜谱的依赖程度高。但是做饭过程中腾不出双手也无法空出太多时间查看文字,语音操控设备和语音播报可以提供解决这一问题的方案。 #### 交互界面流程图 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/002933_9c4aadd7_2228747.png "屏幕截图.png") * [产品原型链接](https://gitee.com/wuxinlin/API_final/blob/master/%E6%81%B0%E9%A5%AD.rp) #### 产品功能架构图 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/132212_08f65759_2228747.png "产品架构.png") ### 界面流程及关键智能交互 ### 用户旅程地图 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/120242_5bf47f23_2228747.png "用户旅程.png") - 用户可欲性:市面上暂时没有其他使用语音输入、语音合成的同类型产品,用户会因为这些功能而选择使用该app。但是由于日常生活中,人们说话较随意,语言习惯较明显,如带有明显地方口音、经常重复、停顿,或插入,完全不受语法控制等,而这些语音对于经过标准式“朗读语音”存储的设备来讲,是很难识别的,可能导致的语音识别api无法识别、语音合成过于僵硬或不符合语音使用习惯可能会导致用户可欲性下降。 - 技术可行性:百度语音识别API和百度语音合成API提供的技术支持可以帮助恰饭app完成语音搜索和语音播报功能。 - 商业可行性:市面上同类型产品没有考虑到用户做饭时不方便使用手机这一使用场景,以此为背景,恰饭app加入语音API可以弥补市场空白。 1.进入首页 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/142503_d76c6ee1_2228747.png "屏幕截图.png") 2.打开语音搜索功能权限 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0716/232909_f09ffe1e_2228747.png "屏幕截图.png") 3.通过语音输入搜索想要搜索的内容 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0716/232849_7012a5e1_2228747.png "屏幕截图.png") 4.搜索到的内容进行语音播报 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0716/233047_00675066_2228747.png "屏幕截图.png") ### 数据流程及关键智能API使用 #### 数据流程图 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0727/215545_016300ba_2228747.png "page_1.png") - 用户可欲性:操作简单,仅需打开语音搜索权限便可获得语音搜索功能。语音输入功能也较为简单,不需要用户进行过多的学习,对于各年龄段的用户都十分友好。但是因当下语音识别功能还未达到十分完善的水平,用户可能会对于此功能产生怀疑。 - 技术可行性:百度AI开放平台提供技术支持 - 商业可行性:市场上菜谱类app品类繁多,但是功能大同小异,同类产品在数量增多的同时,出名的产品数量没有增多,而且此次尝试在菜谱类app中加入语音api市场暂时没有同类型产品提供这种功能。以此为背景恰饭可以弥补市场这方面的空白。 **附同类型产品对比以说明商业可行性** | | 恰饭 | 下厨房 | |---|---|---| | 搜索功能 | 使用语音识别功能通过输入语音进行搜索 | 在搜索框输入文字 | | 搜索结果 | 采用语音合成API通过语音合成播报 | 返回图片和文字 | ### 关键API数据流程 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/145844_4ae2563b_2228747.jpeg "数据流程.jpg") 本产品使用了两个个API分别是百度语音识别搜索API和百度语音合成API。主要的功能为通过用户使用使用语音唤醒功能在不方便操作手机的时候,通过用户已经打开的的语音搜索功能,对手机语音输入想要搜索的内容,语音识别搜索API会在app内进行搜索符合用户输入关键词的相关内容并返回在屏幕上。若用户输入关键词较为准确且只有一条唯一的结果,则可直接返回搜索结果,搜索到的结果也将通过过已经打开的的语音播报功能,通过调用语音合成API进行语音播报。若用户输入关键词较为模糊,则可通过API所识别到的结果(不唯一)返回的关键词再次进行较为准确的搜索或重新语音输入关键词。 * [代码文件](https://gitee.com/wuxinlin/API_final/blob/master/%E6%81%B0%E9%A5%ADapp.ipynb) API 产品使用关键AI和API的输出入展示 1. 数据来源 [百度短语音合成标准版](https://ai.baidu.com/tech/speech/asr) [科大讯飞](https://www.iflyrec.com/) [腾讯云](https://cloud.tencent.com/product/asr) [阿里云](https://ai.aliyun.com/nls?spm=5176.10695662.1157759.1.5c51144aS5GYmg) 2. 使用分析对比 目前来看科大讯飞的产品比较完善,但是相比收费也是最高的,其次阿里相对比较完善,不过要线上使用相比价格还是比较高的,百度完全免费,不过只支持60秒以内识别,其次腾讯只支持两种模式识别。相比之下我在智能通话中会使用科大和阿里的在线识别,其次在语音质检过程中我会使用百度的识别,因为一般录音文件少于60秒(语音告知),如果超过部分可以提供剪裁。 [结论参考](https://blog.csdn.net/lerous/article/details/105563363?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~first_rank_v2~rank_v25-3-105563363.nonecase) 3. 产品优势分析 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/152409_fde890eb_2228747.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/152446_20b45af1_2228747.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/152539_f966374d_2228747.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/152647_87591934_2228747.png "屏幕截图.png") 3. 语音API使用价格 **1. 百度短语音识别标准版** ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/152912_27dab7e9_2228747.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/152932_b405a0a8_2228747.png "屏幕截图.png") **2. 百度在线语音合成** ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/153017_0350ba27_2228747.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/153039_449b93d1_2228747.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/153052_838e1ea8_2228747.png "屏幕截图.png") **3. 阿里云智能语音交互** ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/153410_1086db91_2228747.png "屏幕截图.png") **3. 腾讯云智能语音交互** ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/155957_6bf18b90_2228747.png "屏幕截图.png") ### 人工智能概率性 | | 优势 | 人工智能概率性 | |---|---|---| | 语音识别 | 摆脱生僻字和拼音障碍,使用语音即时输入。略带口音的普通话、粤语四川话方言、英文,均可有效识别,并可根据句意自动纠错、自动断句添加标点,让输入更快捷,沟通交流更顺畅。————各地用户都可以使用 | 语音输入出现的问题可能是环境杂音导致搜索结果出错或无法识别 | | 语音合成 | 支持多种语言多种音色,支持中文、英文混读,有男声、女声、童声可供选择,更支持语速、音调、音量设置,让应用具有更甜美和更磁性的声音 ———— 帮助用户解放双眼和双手,在做饭同时可以进行教程学习| 语音合成的概率性问题是可能合成过程中文字转换不到位,出现播报时文字读错的问题 | ##### 解决方案 1. 逐步提升语音智能识别技术的可靠性 2. 逐步革新系统建模方式、提升各种搜索计算法效率与发展硬件资源 * [语音合成领域存在的未解决的问题](https://zhuanlan.zhihu.com/p/34252451) * [语音识别技术应用仍存在的技术瓶颈](https://blog.csdn.net/zhinengxuexi/article/details/89355659) ## 学习/实践心得总结及感谢 在本次实践中,不仅用到了本节课学到的api知识还运用了本学期学到的PM知识,从用户的角度出发,考虑用户的痛点,从用户使用场景考虑如何使用api产生产品加值。以用户画象明晰的用户及其需求出发,并以此考虑多方利益相关者,体现以人为本的基本要求。 本次实践调用了百度api的语音识别、语音合成。在这次实践中获益匪浅,用语音api去解决用户在做饭的时候不方便操作手机的痛点:双手沾污的时候不方便打字,通过语音输入进行搜索,甚至对搜索结果进行语音播报省略用户查看手机的过程所可能会导致的做饭事故。 感谢[百度AI](https://ai.baidu.com/)的技术支持让我有机会进行实践学习,感谢下厨房app界面为我设计界面提供的参考。 ## 关于迭代二 本次迭代主要添加了API 产品使用关键AI和API的输出入展示和补充数据流程图,对于部分内容以及格式进行修改。迭代一中的语音唤醒功能因大多数手机自带的如IOS的siri就可以替代app中的唤醒功能所以此次迭代删除了这部分的内容,以降低商业成本。 [对比试图链接](https://gitee.com/wuxinlin/API_final/compare/766876e05a9b6f12cf70f67173c81a8d54d943d7...287b8048509ab4bd4a96ffdf156614c9780c004b) ## 关于迭代三 本次迭代针对迭代二同学对我提出的意见进行修改。修改一:增加与市面上现有产品的对比以增强商业可行性的说服力;修改二:修改学习心得及感谢,对提供帮助的平台及产品表示感谢;修改三:细化数据流程图,提升数据流程图的专业水平;修改四:增加ESG问题分析。 [对比试图链接](https://gitee.com/wuxinlin/API_final/compare/fdcb668293f5e5730f3c0f2e7e0a78369e60af47...a11f2bd8840eb8c025eae5e9923abf2918be4e50)