# SensClassAI

**Repository Path**: yunsheit/sens-class-ai

## Basic Information

- **Project Name**: SensClassAI
- **Description**: 对敏感数据进行 AI 驱动的分级分类，并强调测试体系、评估指标和多模态（如 OCR、文本等）支持
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-11-12
- **Last Updated**: 2025-11-12

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 敏感信息检测与评估工具

本项目提供了一系列工具用于检测和评估文本中的敏感信息，特别适用于电信领域的数据处理。

## 主要功能

- **敏感信息检测**：使用Qwen大模型对文本进行分析，识别其中可能包含的敏感信息。
- **数据生成**：能够生成用于测试的样本数据，支持不同规模的数据集。
- **性能评估**：提供多种评估指标，包括混淆矩阵、风险分布等，对检测结果进行全面评估。
- **报告生成**：自动生成评估报告，包含详细的性能指标和图表。

## 使用方法

1. **生成样本数据**：运行`telecom_sensitivity_eval.py`中的`generate_sample_data`函数，可以生成指定数量的样本数据。
2. **敏感信息检测**：通过`telecom_sensitivity_eval.py`中的`call_qwen`函数调用Qwen模型，对文本进行敏感信息检测。
3. **结果评估**：使用`telecom_advanced_eval.py`或`telecom_sensitivity_eval.py`中的评估函数，对检测结果进行评估。
4. **报告生成**：调用`telecom_advanced_eval.py`中的`generate_pdf_report`函数，生成评估报告。

## 文件说明

- `telecom_sensitivity_eval.py`：包含敏感信息检测和评估的基本函数。
- `telecom_advanced_eval.py`：提供更高级的评估功能，如生成PDF报告。
- `telecom_advanced_eval_full.py`：可能是`telecom_advanced_eval.py`的一个完整版本，包含所有评估功能。
- `extract_msyh.py`：可能用于字体处理，但具体用途未明确。
- `gen_telecom_data.py`：用于生成电信领域的测试数据。

## 注意事项

- 项目依赖Qwen大模型进行敏感信息检测，需要确保已经正确安装并配置了相关环境。
- 生成的评估报告和图表保存在`output`目录下。
- 项目中包含了一些字体文件，可能是用于报告生成时的中文显示。

## 贡献指南

如果您有兴趣贡献代码或提出改进建议，请确保遵循项目的编码规范，并通过Pull Request提交您的更改。

## 许可证

本项目的许可证信息未在提供的代码库中明确指出。请查阅项目根目录下的LICENSE文件以获取详细的许可证信息。