# SensClassAI **Repository Path**: yunsheit/sens-class-ai ## Basic Information - **Project Name**: SensClassAI - **Description**: 对敏感数据进行 AI 驱动的分级分类,并强调测试体系、评估指标和多模态(如 OCR、文本等)支持 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-12 - **Last Updated**: 2025-11-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 敏感信息检测与评估工具 本项目提供了一系列工具用于检测和评估文本中的敏感信息,特别适用于电信领域的数据处理。 ## 主要功能 - **敏感信息检测**:使用Qwen大模型对文本进行分析,识别其中可能包含的敏感信息。 - **数据生成**:能够生成用于测试的样本数据,支持不同规模的数据集。 - **性能评估**:提供多种评估指标,包括混淆矩阵、风险分布等,对检测结果进行全面评估。 - **报告生成**:自动生成评估报告,包含详细的性能指标和图表。 ## 使用方法 1. **生成样本数据**:运行`telecom_sensitivity_eval.py`中的`generate_sample_data`函数,可以生成指定数量的样本数据。 2. **敏感信息检测**:通过`telecom_sensitivity_eval.py`中的`call_qwen`函数调用Qwen模型,对文本进行敏感信息检测。 3. **结果评估**:使用`telecom_advanced_eval.py`或`telecom_sensitivity_eval.py`中的评估函数,对检测结果进行评估。 4. **报告生成**:调用`telecom_advanced_eval.py`中的`generate_pdf_report`函数,生成评估报告。 ## 文件说明 - `telecom_sensitivity_eval.py`:包含敏感信息检测和评估的基本函数。 - `telecom_advanced_eval.py`:提供更高级的评估功能,如生成PDF报告。 - `telecom_advanced_eval_full.py`:可能是`telecom_advanced_eval.py`的一个完整版本,包含所有评估功能。 - `extract_msyh.py`:可能用于字体处理,但具体用途未明确。 - `gen_telecom_data.py`:用于生成电信领域的测试数据。 ## 注意事项 - 项目依赖Qwen大模型进行敏感信息检测,需要确保已经正确安装并配置了相关环境。 - 生成的评估报告和图表保存在`output`目录下。 - 项目中包含了一些字体文件,可能是用于报告生成时的中文显示。 ## 贡献指南 如果您有兴趣贡献代码或提出改进建议,请确保遵循项目的编码规范,并通过Pull Request提交您的更改。 ## 许可证 本项目的许可证信息未在提供的代码库中明确指出。请查阅项目根目录下的LICENSE文件以获取详细的许可证信息。