# AI-Learning **Repository Path**: Z-C-Lee/AI-Learning ## Basic Information - **Project Name**: AI-Learning - **Description**: 分享各种ai技术 - **Primary Language**: Unknown - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-08 - **Last Updated**: 2025-12-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI-Learning #### 介绍 PDF-RAG: 一个完整的PDF-RAG项目,基于langchain和chroma,可以快速实现一个基于PDF的问答系统。 FINE-TUNING: 基于paddlepaddle框架的快递单实体识别模型,数据集不能共享需要自行提供数据到data目录 TF-IDF-CLASSIFY: 一个以TF-IDF作为词向量的垃圾邮件过滤器 #### 软件架构 软件架构说明 #### 安装教程 ~~~ 安装langchain pip install langchain==0.3.27 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install langchain-openai==0.3.33 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install langchain_community==0.3.29 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ 缺少库的情况下,可以到下面找安装指令 pip install rank_bm25 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install beautifulsoup4 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install langchain_chroma --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install faiss-cpu --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install langchain-huggingface --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install --user sentence_transformers --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install --user chromadb --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install pypdf --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install volcengine-python-sdk==4.0.1 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install streamlit==1.18.1 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install streamlit-extras --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install PyPDF2==3.0.1 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install paddle==2.0.1 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ pip install paddlenlp --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ ~~~ #### 数据库设计 kb_info | 字段名称 | 字段类型 | 字段描述 | |-------------|-------------|--------------------| | kb_id | varchar(32) | 知识库ID | | kb_name | varchar(32) | 知识库名称 | | kb_type | tinyint | 知识库类型: 1-标准 2-运动健康 | | user_id | varchar(32) | 用户ID | | create_time | long | 创建时间 | | update_time | long | 更新时间 | doc_info | 字段名称 | 字段类型 | 字段描述 | |-------------|-------------|-------------------------| | doc_id | varchar(32) | 知识ID | | doc_name | varchar(32) | 文档名称 | | kb_id | varchar(32) | 知识库ID | | doc_type | tinyint | 文档类型: 1-pdf 2-doc 3-txt | | user_id | varchar(32) | 用户ID | | create_time | long | 创建时间 | | update_time | long | 更新时间 | ~~~sql -- 创建知识库信息表 kb_info CREATE TABLE kb_info ( kb_id VARCHAR(32) PRIMARY KEY COMMENT '知识库ID', kb_name VARCHAR(32) NOT NULL COMMENT '知识库名称', kb_type TINYINT NOT NULL COMMENT '知识库类型: 1-标准 2-运动健康', user_id VARCHAR(32) NOT NULL COMMENT '用户ID', create_time BIGINT NOT NULL COMMENT '创建时间', update_time BIGINT NOT NULL COMMENT '更新时间' ) COMMENT '知识库信息表'; -- 创建文档信息表 doc_info CREATE TABLE doc_info ( doc_id VARCHAR(32) PRIMARY KEY COMMENT '知识ID', doc_name VARCHAR(32) NOT NULL COMMENT '文档名称', kb_id VARCHAR(32) NOT NULL COMMENT '知识库ID', doc_type TINYINT NOT NULL COMMENT '文档类型: 1-pdf 2-doc 3-txt', user_id VARCHAR(32) NOT NULL COMMENT '用户ID', create_time BIGINT NOT NULL COMMENT '创建时间', update_time BIGINT NOT NULL COMMENT '更新时间', FOREIGN KEY (kb_id) REFERENCES kb_info(kb_id) ) COMMENT '文档信息表'; ~~~ chroma metadata 设计 ~~~json { "id": "分片id", "doc_id": "文档id", "kb_id": "知识库id", "kb_type": "知识库类型" } ~~~ #### 使用说明 1. PDF-RAG项目启动语句:python -m streamlit run 该执行文件的绝对路径 2. xxxx 3. xxxx #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)