# websdk-python-demo **Repository Path**: i-flytek-op/websdk-python-demo ## Basic Information - **Project Name**: websdk-python-demo - **Description**: 讯飞开放平台能力websdk - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-08-29 - **Last Updated**: 2025-09-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 一、PYTHON-SDK-DEMO信息获取与运行 ## 1、能力使用的 APPID、APISecret、APIKey获取 请点击[控制台](https://console.xfyun.cn/services)进行获取并填写到 .env 文件! ## 4、DEMO运行说明 获取到信息后填写到项目路径 .env 文件中,找到能力对应的主类运行即可。能力与主类对应说明如下: | AI能力名称 | 对应主类名称 | | ------------------------------------------------------------ |------------------------------------------------------------------------| | 语音听写 | [iat_test.py](xfyunsdkdemo/speech/iat_test.py) | | 实时语音转写 | [rtasr_test.py](xfyunsdkdemo/speech/rtasr_test.py) | | 音频文件语音转写 | [lfasr_test.py](xfyunsdkdemo/speech/lfasr_test.py) | | 语音合成 | [tts_test.py](xfyunsdkdemo/speech/tts_test.py) | | 语音评测 | [ise_test.py](xfyunsdkdemo/speech/ise_test.py) | | 小牛翻译及自研机器翻译 | [translate_test.py](xfyunsdkdemo/nlp/translate_test.py) | | 文本纠错 | [text_check_test.py](xfyunsdkdemo/nlp/text_check_test.py) | | 智能PPT(新) | [ai_ppt_test.py](xfyunsdkdemo/spark/ai_ppt_test.py) | | 静默活体检测 | [anti_spoof_test.py](xfyunsdkdemo/face/anti_spoof_test.py) | | 银行卡识别 | [bank_card_test.py](xfyunsdkdemo/ocr/bank_card_test.py) | | 名片识别 | [business_card_test.py](xfyunsdkdemo/ocr/business_card_test.py) | | 人脸比对 | [face_compare_test.py](xfyunsdkdemo/face/face_compare_test.py) | | 人脸检测和属性分析 | [face_detect_test.py](xfyunsdkdemo/face/face_detect_test.py) | | 配合式活体检测 | [face_status_test.py](xfyunsdkdemo/face/face_status_test.py) | | 人脸比对sensetime | [face_verify_test.py](xfyunsdkdemo/face/face_verify_test.py) | | 指尖文字识别 | [finger_ocr_test.py](xfyunsdkdemo/ocr/finger_ocr_test.py) | | 印刷文字识别和手写文字识别 | [general_words_test.py](xfyunsdkdemo/ocr/general_words_test.py) | | 性别年龄识别 | [igr_test.py](xfyunsdkdemo/speech/igr_test.py) | | 场景识别和物体识别和场所识别 | [rec_ocr_test.py](xfyunsdkdemo/ocr/rec_ocr_test.py) | | 图片类识别(营业执照,出租车发票,火车票,增值税发票 ,身份证,印刷文字) | [image_word_test.py](xfyunsdkdemo/ocr/image_word_test.py) | | 身份证识别 营业执照识别 增值税发票识别 印刷文字识别(多语种) | [intsig_ocr_test.py](xfyunsdkdemo/ocr/intsig_ocr_test.py) | | 歌曲识别 | [qbh_test.py](xfyunsdkdemo/speech/qbh_test.py) | | 静默活体检测sensetime | [silent_detect_test.py](xfyunsdkdemo/face/silent_detect_test.py) | | 人脸检测和属性分析 | [tup_api_test.py](xfyunsdkdemo/face/tup_api_test.py) | | 人脸水印照比对 | [watermark_verify_test.py](xfyunsdkdemo/face/watermark_verify_test.py) | | 超拟人合成 | [oral_test.py](xfyunsdkdemo/spark/oral_test.py) | | 简历生成 | [resume_generate_test.py](xfyunsdkdemo/spark/resume_generate_test.py) | | 多语种大模型语音听写、方言大模型语音听写、中文大模型语音听写 | [spark_iat_test.py](xfyunsdkdemo/spark/spark_iat_test.py) | | 一句话复刻 | [voice_clone_test.py](xfyunsdkdemo/spark/voice_clone_test.py) | | 一句话训练 | [train_test.py](xfyunsdkdemo/spark/train_test.py) | | 音频合规 | [audio_moderation_test.py](xfyunsdkdemo/nlp/audio_moderation_test.py) | | 图片合规 | [image_moderation_test.py](xfyunsdkdemo/nlp/image_moderation_test.py) | | 同声传译 | [sim_interp_test.py](xfyunsdkdemo/nlp/sim_interp_test.py) | | 文本合规 | [text_moderation_test.py](xfyunsdkdemo/nlp/text_moderation_test.py) | | 文本校对 | [text_proof_test.py](xfyunsdkdemo/nlp/text_proof_test.py) | | 文本改写 | [text_rewrite_test.py](xfyunsdkdemo/nlp/text_rewrite_test.py) | | 视频合规 | [video_moderation_test.py](xfyunsdkdemo/nlp/video_moderation_test.py) | | 词库操作 | [wordlib_test.py](xfyunsdkdemo/nlp/wordlib_test.py) | | 星火智能体 | [agent_test.py](xfyunsdkdemo/spark/agent_test.py) | | 超拟人交互 | [oral_chat_test.py](xfyunsdkdemo/spark/oral_chat_test.py) | | 通用大模型识别 | [llm_ocr_test.py](xfyunsdkdemo/ocr/llm_ocr_test.py) | # 二、讯飞开放平台常用AI能力介绍与常用参数说明 ## 1、语音听写(流式版) ### (1)功能说明 语音听写流式接口,用于1分钟内的即时语音转文字技术,支持实时返回识别结果,达到一边上传音频一边获得识别文本的效果。 ### (2)常用参数 以下仅为常用参数说明,详情请点击[语音听写文档](https://www.xfyun.cn/doc/asr/voicedictation/API.html#接口说明) 查看。 | 参数名 | 类型 | 必传 | 描述 | 示例 | | ------- | ------ | ---- | ------------------------------------------------------------ | ------ | | vad_eos | int | 否 | 用于设置端点检测的静默时间,单位是毫秒。 即静默多长时间后引擎认为音频结束。 默认2000(小语种除外,小语种不设置该参数默认为未开启VAD)。 | 3000 | | dwa | string | 否 | (仅中文普通话支持)动态修正 wpgs:开启流式结果返回功能 *注:该扩展功能若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处免费开通;若未授权状态下设置该参数并不会报错,但不会生效。* | "wpgs" | ## 2、实时语音转写 ### (1)功能说明 实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,开发者可实现将连续的音频流内容,实时识别返回对应的文字流内容。 支持的音频格式: 采样率为16K,采样深度为16bit的pcm_s16le音频 ### (2)常用参数 以下仅为常用参数说明,详情请点击[实时语音转写文档](https://www.xfyun.cn/doc/asr/rtasr/API.html)查看。 | 参数名 | 类型 | 必传 | 描述 | 示例 | | ------------------------------------------------------------ | ------ | ---- | -------------------------------- | ------------------------------------------------------------ | | lang | string | 否 | 实时语音转写语种,不传默认为中文 | | | 语种类型:中文、中英混合识别:cn;英文:en;小语种及方言可到控制台-实时语音转写-方言/语种处添加,添加后会显示该方言/语种参数值。传参示例如:" | | | | | | lang=en" | | | | | | targetLang | string | 否 | 目标翻译语种 | 例如:targetLang="en" 如果使用中文实时翻译为英文传参示例如下: " | | &lang=cn&transType=normal&transStrategy=2&targetLang=en" 注意:需控制台开通翻译功能 | | | | | ## 3、音频文件语音转写 ### (1)功能说明 语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。 转写的是已录制音频(非实时),音频文件上传成功后进入等待队列,待转写成功后用户即可获取结果,返回结果时间受音频时长以及排队任务量的影响。 如遇转写耗时比平时延长,大概率表示当前时间段出现转写高峰,请耐心等待即可,我们承诺有效任务耗时最大不超过5小时 。 另外,为使转写服务更加通畅,请尽量转写5分钟以上的音频文件。 ### (2)常用参数 以下仅为常用参数说明,详情请点击[音频文件语音转写文档](https://www.xfyun.cn/doc/asr/ifasr_new/API.html)查看。 | 参数名 | 类型 | 必传 | 描述 | 示例 | | ------------------------------------------------------------ | ------------------------------------- | ---- | ----------------------------------------------------- | ------------------------ | | speaker_number | string | 否 | 发音人个数,可选值:0-10,0表示盲分 *注* | | | :发音人分离目前还是测试效果达不到商用标准,如测试无法满足您的需求,请慎用该功能。 | 默认:2(适用通话时两个人对话的场景) | | | | | has_seperate | string | 否 | 转写结果中是否包含发音人分离信息 | false或true,默认为false | | role_type | string | 否 | 支持两种参数 1: 通用角色分离 2: | | | 电话信道角色分离(适用于speaker_number为2的说话场景)该字段只有在开通了角色分离功能的前提下才会生效,正确传入该参数后角色分离效果会有所提升。 | | | | | | 如果该字段不传,默认采用 1 类型 | | | | | | language | string | 否 | 语种 cn:中英文&中文(默认) en:英文(英文不支持热词) | cn | ## 4、语音合成(流式版) ### (1)功能说明 语音合成流式接口将文字信息转化为声音信息,同时提供了众多极具特色的发音人(音库)供您选择,可以在 这里 在线体验发音人效果。 ### (2)常用参数 以下仅为常用参数说明,详情请点击[语音合成文档](https://www.xfyun.cn/doc/tts/online_tts/API.html)查看。 | 参数名 | 类型 | 必传 | 描述 | 示例 | | ------ | ------ | ---- | ------------------------------------------------------------ | --------- | | vcn | string | 是 | 发音人,可选值:请到控制台添加试用或购买发音人,添加后即显示发音人参数值 | "xiaoyan" | | rdn | string | 否 | 合成音频数字发音方式 0:自动判断(默认值) 1:完全数值 2:完全字符串 3:字符串优先 | "0" | ## 5、语音评测(流式版) ### (1)功能说明 通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的能力接口。涉及的核心技术主要可分为两个部分:中文普通话发音水平自动评测技术、英文发音水平自动评测技术。 ### (2)常用参数 以下仅为常用参数说明,详情请点击[语音评测文档](https://www.xfyun.cn/doc/Ise/IseAPI.html)查看。 | 参数名 | 类型 | 必传 | 描述 | 示例 | | ------------- | ------ | ---- | ------------------------------------------------------------ | ----------------------- | | ent | string | 是 | 中文:cn_vip 英文:en_vip | "cn_vip" | | category | string | 是 | 中文题型: read_syllable(单字朗读,汉语专有) read_word(词语朗读) read_sentence(句子朗读) read_chapter(篇章朗读) 英文题型: read_word(词语朗读) read_sentence(句子朗读) read_chapter(篇章朗读) simple_expression(英文情景反应) read_choice(英文选择题) topic(英文自由题) retell(英文复述题) picture_talk(英文看图说话) oral_translation(英文口头翻译) | "read_sentence" | | text | string | 是 | 待评测文本 utf8 编码,需要加utf8bom 头 | '\uFEFF'+text | | tte | string | 是 | 待评测文本编码 utf-8 gbk | "utf-8" | | extra_ability | string | 否 | 拓展能力(生效条件ise_unite="1", rst="entirety")多维度分信息显示(准确度分、流畅度分、完整度打分)extra_ability值为multi_dimension(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension"))单词基频信息显示(基频开始值、结束值)extra_ability值为pitch ,仅适用于单词和句子题型音素错误信息显示(声韵、调型是否正确)extra_ability值为syll_phone_err_msg(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension")) | "multi_dimension" | | aue | string | 否 | 音频格式 raw: 未压缩的pcm格式音频或wav(如果用wav格式音频,建议去掉头部) lame: mp3格式音频 speex-wb;7: 讯飞定制speex格式音频(默认值) | "raw" | | auf | string | 否 | 音频采样率 默认 audio/L16;rate=16000 | "audio L16;rate=16000" | | group | string | 否 | 针对群体不同,相同试卷音频评分结果不同 (仅中文字、词、句、篇章题型支持),此参数会影响准确度得分 adult(成人群体,不设置群体参数时默认为成人) youth(中学群体 pupil(小学群体,中文句、篇题型设置此参数值会有accuracy_score得分的返回)) | "adult" | | grade | string | 否 | 设置评测的学段参数 (仅中文题型:中小学的句子、篇章题型支持) junior(1,2年级) middle(3,4年级) senior(5,6年级) | "middle" | | rst | string | 否 | 评测返回结果与分制控制(评测返回结果与分制控制也会受到ise_unite与plev参数的影响) 完整:entirety(默认值) 中文百分制推荐传参(rst="entirety"且ise_unite="1"且配合extra_ability参数使用) 英文百分制推荐传参(rst="entirety"且ise_unite="1"且配合extra_ability参数使用) 精简:plain(评测返回结果将只有总分),如: | "entirety" | | ise_unite | string | 否 | 返回结果控制 0:不控制(默认值) 1:控制(extra_ability参数将影响全维度等信息的返回) | "0" | | plev | string | 否 | 在rst="entirety"(默认值)且ise_unite="0"(默认值)的情况下plev的取值不同对返回结果有影响。 plev:0(给出全部信息,汉语包含rec_node_type、perr_msg、fluency_score、phone_score信息的返回;英文包含accuracy_score、serr_msg、 syll_accent、fluency_score、standard_score、pitch信息的返回) | "0" |