# graph-v1.0 **Repository Path**: itluma2008/graph-v1.0 ## Basic Information - **Project Name**: graph-v1.0 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-26 - **Last Updated**: 2026-03-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 第一天:拼写纠错 1.采用业界已经训练好的模型 2.基于预训练模型【Bert】进行微调 3.大模型进行纠错:基于LangChain中的Agent来实现纠错过程 第二天:实体抽取 1.补充:将项目推送远程仓库:gitlab\gitee\github 1.1 注册账户:https://gitee.com/ 1.2 创建远程仓库:https://gitee.com/itluma2008/graph-v1.0.git 1.3 本地项目初始化仓库,初始化成功后在当前项目目录中会存在一个隐藏文件.git 1.4 忽略大文件:因为gitee免费用户是存在大小限制的,在项目的根目录下创建一个.gitignore文件 设置忽略内容如下: /checkpoint /data /logs /pretrained .env 1.5 进行项目提交到本地仓库 1.6 添加远程仓库地址,并设置远程仓库地址和名称graph-v1.0 1.7 提交远程远程仓库 2.UIE模型进行实体抽取 2.1 UIE的使用 2.2 模型微调 1. 数据标注:doccano平台 2. 数据转换 3. 模型微调 4. 模型评估 3. Neo4J图数据库 3.1 安装 3.2 基本使用:Cypher语句 节点:Node (node1:Person:Actor:Director{name:"王宝强", gender:"男"}) (node2:Movie{title:"唐探 1900", release:"2025-10-2"}) 关系:Relationship (node1)-[r:ACTED_IN{role:"阿鬼"}]->(node2) 路径:Path CREATE (n1:Person:Actor:Singer{name:"刘德华", gender:"男"}) -[r:ACTED_IN{role:"刘建明"}]-> (n2:Movie{title:"无间道", release:"2002-10-2"}) 第三天:知识图谱构建-上 核心:将业务数据库中的数据导入图谱中 1、在Python中使用neo4j with GraphDatabase.driver("neo4j://ip:7687", auth=(user,password)) as dirver: result,summary,keys = dirver.execute_query(cypher语句) 解析result数据 2、将电商的业务数据导入neo4j 2.1 分析图模型 sku|spu 具体内容参考课件 2.2 实现过程 a、读取mysql中的数据 - 查询sku相关信息 select ski.id sku_id, ski.sku_name, spi.spu_name, bc3.name category3_name, bc2.name category2_name, bc1.name category1_name, bt.tm_name trademark_name from sku_info ski left join spu_info spi on ski.spu_id = spi.id left join base_category3 bc3 on spi.category3_id = bc3.id left join base_category2 bc2 on bc3.category2_id = bc2.id left join base_category1 bc1 on bc2.category1_id = bc1.id left join base_trademark bt on spi.tm_id = bt.id - 查询sku的属性信息 select sku_id, attr_name, value_name attr_value from sku_attr_value union all select sku_id, sale_attr_name, sale_attr_value_name from sku_sale_attr_value b、写入neo4j - 写入sku:MERGE=MATCH+CREATE MERGE (sku:SKU{sku_id:$sku_id,sku_name:$sku_name}) MERGE (spu:SPU{spu_name:$spu_name}) MERGE (cate3:Category3{category3_name:$category3_name}) MERGE (cate2:Category2{category2_name:$category2_name}) MERGE (cate1:Category1{category1_name:$category1_name}) MERGE (tm:Trademark{trademark_name:$trademark_name}) MERGE (sku)-[:BELONG]->(spu) MERGE (spu)-[:BELONG]->(cate3) MERGE (cate3)-[:BELONG]->(cate2) MERGE (cate2)-[:BELONG]->(cate1) MERGE (spu)-[:BELONG]->(tm) - 写入sku属性信息 MATCH (sku:SKU {sku_id:$sku_id}) MERGE (attr:Attr {attr_name:$attr_name, attr_value:$attr_value}) MERGE (sku)-[:Have]->(attr) 第四天:知识图谱构建-下 1、图片详情和商品描述信息 1.1 读取图片image_url 1.2 使用OCR模型进行图片文字识别 1.3 对图片识别的结果进行纠错 1.4 对mysql业务库中的sku_info表中的商品描述进行读取 1.5 对图片识别的内容和商品描述内容进行合并 1.6 根据商品的分类序列进行实体抽取 1.7 将抽取的实体写入图数据库 2、用户行为日志数据 2.1 从业务数据库中读取日志数据 2.2 写入图数据库 3、意图识别 用户提出问题后,首先需要理解用户的问题分类,下一步就可以根据该问题的类别进行相应处理了。 如何进行问题分类? 1.使用业内通用的模型:了解阿里云PAI平台中意图识别模型 2.提供了基于EBRT模型预训练过程 第五天:构建知识图谱的应用 1、FastAPI构建后端应用 采用fastapi模块完成后端接口的开发 fastApi = FastAPI() @fastApi.get("定义资源地址") def 接口(): xxxx http://服务器地址/定义资源地址 2、完成聊天核心业务 2.1 意图识别 2.2 拼写纠错 2.3 实体抽取 spu[spu_name = "小米12S Ultra"] 2.4 实体对齐 spu_name = "小米12s ultra"(同义词)->实体对齐-> spu_name = "小米12S Ultra"(标准词) 2.5 构建查询语句 2.6 拼接回复 第六天:实体对齐