# Judge-Release **Repository Path**: chaked/Judge-Release ## Basic Information - **Project Name**: Judge-Release - **Description**: Judge - 关键词批量提取AI工具 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-10 - **Last Updated**: 2026-02-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Judge实证分析工具 Judge 是一款基于AI大语言模型的批量文档信息提取工具。最初为法律文书实证分析而开发,但理论上可用于任何 .txt 或 .docx 文档的关键信息提取。右侧 **发行版** 提供macOS和Windows版本下载。 注意:该软件需要用户去大语言模型官网获取有效的API密钥,并填入本软件的相应位置。本软件并不在本地实际解析文档,解析功能由用户所使用的大语言模型工具实现。软件的使用教程亦可在软件内`选项` - `使用教程` 中查看。 ## 1. 模型配置 在开始使用前,需要先配置AI模型: 1. 点击界面顶部的 `新增/管理模型` 按钮 2. 在弹出的配置对话框中点击 `➕ 添加配置` 3. 填写配置信息: **服务类型** :选择AI服务提供商,目前支持: - **DeepSeek** :支持V3和R1模型,推荐使用V3模型(deepseek-chat),R1模型的思考时间较长 - **ChatGLM** (智谱清言):初学者可使用 `glm-4-flash` 免费模型 - **SiliconFlow** :提供多种模型选择 **API密钥** :输入从服务商官网获取的密钥 - 可点击对话框中的 `去官网` 按钮快速跳转注册账号并获取API密钥 **模型名称** :从下拉菜单选择具体模型 4. 配置完成后,点击 `测试连接` 验证是否正常 5. 测试通过后,点击 `保存` ## 2. 关键词模式 **适用场景** :从文档中快速提取特定关键词对应的信息 **操作步骤** : 1. 点击 `🔑 关键词模式` 按钮(默认已选中) 2. 填入关键词数量,点击 `生成输入框` 3. 在生成的输入框中输入关键词,例如:案号、被告人、罪名、案发时间、刑期等 4. 选择输入文件夹: - 点击 `浏览...` 按钮 - 选择包含待处理文档的文件夹 - 软件会自动递归搜索文件夹内所有 .txt 和 .docx 文件 5. 选择输出文件: - 输出路径会自动设置为输入文件夹下的 output.csv - 也可点击 `另存为...` 手动指定位置 - 如文件已存在,会自动重命名(output_2.csv、output_3.csv...) 6. 点击 `🚀 开始处理` 7. 处理过程中: - 底部进度条显示整体进度 - 状态文本显示当前处理的文件 - 可点击 `⏸ 暂停` 暂停,`⏹ 停止` 终止 8. 处理完成后,点击 `📁 打开输出文件夹` 查看结果 **注意事项** : - ⚠️ 不支持 .doc 格式,请转换为 .docx - AI会分析全文后提取关键词对应的信息 - 建议先用2-3个文件测试效果 ## 3. JSON模式 **适用场景** :使用AI自动生成专业提示词,进行复杂结构化信息提取 **操作步骤** : 1. 点击 `📋 JSON模式` 按钮切换模式 2. **左侧:描述提取需求** 在左侧文本框用自然语言描述你想提取什么信息,例如: ``` 我想要提取提取裁判文书中的案号、被告人姓名、被告人年龄、案发时间、案发地点、罪名、判决结果 ``` 或更详细的描述: ``` 我需要从刑事判决书中提取以下信息: 1. 案号(完整格式) 2. 被告人的基本信息(姓名、性别、年龄、职业) 3. 案件事实(案发时间、地点、经过) 4. 罪名和量刑结果 ``` 3. 点击 `🤖 生成提示词` 按钮 - AI会分析你的需求,在右侧生成专业的提示词prompt - 生成过程中会显示实时进度 - 生成的提示词会出现在右侧文本框 4. **右侧:查看和编辑提示词** - 检查生成的提示词是否符合需求 - 可以手动编辑优化(修改格式、增加说明等) - 点击 `📜 历史记录` 可查看和重用之前的提示词,生成的提示词运行过一次机会被自动记录,未被运行过则不会被记录 5. 选择输入文件夹和输出文件(同关键词模式) 6. 点击 `🚀 开始处理` 7. 结果将保存为CSV文件,每个JSON字段对应一列 **JSON模式优势** : - ✨ AI自动生成专业提取指令,无需编写复杂提示词 - 📊 支持结构化数据提取(JSON格式输出) - 💾 提示词自动保存到历史,方便复用 - 🔧 灵活性高,可随时调整和优化 ## 4. 常见问题 **Q:API密钥如何获取?** A:访问对应服务商官网注册账号后,在个人中心或开发者平台获取。 **Q:支持哪些文件格式?** A: - ✅ 支持:.txt、.docx - ❌ 不支持:.doc(旧版Word格式,请用Word另存为.docx) - ❌ 不支持:.pdf(需要先转换为.txt或.docx) **Q:输出的CSV文件在哪里?** A: - 默认保存在输入文件夹下,文件名为 output.csv - 如果已存在同名文件,会自动重命名为 output_2.csv、output_3.csv 等 - 点击 `📁 打开输出文件夹` 可快速定位 - 用Excel或WPS可以直接打开查看 **Q:如何提高提取准确率?** A: 1. **选择更强大的模型** :如 deepseek-chat、glm-4-plus 等旗舰模型 2. **优化提示词** (JSON模式):在生成的提示词基础上,增加更详细的说明和示例 3. **确保文档质量** :文字清晰、格式规范的文档提取效果更好 4. **使用标准术语** (关键词模式):使用文档中常见的标准表述 5. **先小批量测试** :用2-3个文档测试效果,确认后再大批量处理 **Q:处理过程中可以暂停或停止吗?** A: - ✅ 可以!点击 `⏸ 暂停` 按钮暂停处理,点击 `▶️ 继续` 恢复 - ✅ 点击 `⏹ 停止` 完全终止(已处理的文件结果会保存到CSV) - ⚠️ 当前正在处理的文件可能会被跳过 **Q:遇到错误如何处理?** A: 1. **查看错误信息** :底部状态栏会显示详细的错误提示 2. **检查API密钥** : - 在模型配置中点击 `测试连接` - 确认密钥是否正确、是否过期 3. **检查网络连接** :确保可以访问对应的API服务 4. **检查文档格式** : - 确认是 .txt 或 .docx 格式 - 尝试用记事本或Word打开,检查内容是否正常 5. **查看CSV输出** :即使部分文件出错,已处理的结果仍会保存,错误信息会记录在ERROR列 ## 5. 使用技巧 ### 🎯 批量处理策略 - **先测试后批量** :用2-3个典型文档测试,确认效果后再处理全部 - **分批处理** :大量文件(100+)建议分批处理,避免一次性处理失败 - **断点续传** :如果中途停止,可删除CSV中未处理完的行,重新处理剩余文件 ### 💡 提示词优化 **JSON模式** : - 生成的提示词可以手动编辑优化 - 添加具体示例能显著提高准确率 - 点击 `📜 历史记录` 重用之前效果好的提示词 **关键词模式** : - 关键词输入会自动保存,下次打开软件自动恢复 - 使用文档中的标准术语,避免口语化表述 ### ⚙️ 多模型配置 - 添加多个服务商的配置,互为备份 - 简单任务用便宜的模型,复杂任务用强大的模型 - 配置列表按最后使用时间排序,常用配置会自动靠前 ### 📊 结果分析 - 用Excel或WPS打开CSV文件 - 利用Excel的筛选、排序、透视表等功能分析数据 - 定期备份重要的提取结果 - 如果某个字段提取效果不好,可单独优化关键词或提示词后重新处理 ### ⚡ 性能优化 - **流式输出** :软件默认使用流式API,处理更快、更省内存 - **并发控制** :当前版本逐个处理文件,确保稳定性 - **网络稳定性** :使用稳定的网络环境,避免频繁断线