# graph-v1.0

**Repository Path**: itluma2008/graph-v1.0

## Basic Information

- **Project Name**: graph-v1.0
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-02-26
- **Last Updated**: 2026-03-03

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

第一天：拼写纠错
    1.采用业界已经训练好的模型
    2.基于预训练模型【Bert】进行微调
    3.大模型进行纠错：基于LangChain中的Agent来实现纠错过程

第二天：实体抽取
    1.补充：将项目推送远程仓库：gitlab\gitee\github
        1.1 注册账户：https://gitee.com/
        1.2 创建远程仓库：https://gitee.com/itluma2008/graph-v1.0.git
        1.3 本地项目初始化仓库，初始化成功后在当前项目目录中会存在一个隐藏文件.git
        1.4 忽略大文件：因为gitee免费用户是存在大小限制的,在项目的根目录下创建一个.gitignore文件
            设置忽略内容如下：
                /checkpoint
                /data
                /logs
                /pretrained
                .env
        1.5 进行项目提交到本地仓库
        1.6 添加远程仓库地址,并设置远程仓库地址和名称graph-v1.0
        1.7 提交远程远程仓库
    2.UIE模型进行实体抽取
        2.1 UIE的使用
        2.2 模型微调
            1. 数据标注：doccano平台
            2. 数据转换
            3. 模型微调
            4. 模型评估
    
    3. Neo4J图数据库
        3.1 安装
        3.2 基本使用：Cypher语句
            节点：Node
                (node1:Person:Actor:Director{name:"王宝强", gender:"男"})
                (node2:Movie{title:"唐探 1900", release:"2025-10-2"})
            关系：Relationship
                (node1)-[r:ACTED_IN{role："阿鬼"}]->(node2)
            路径：Path
                CREATE (n1:Person:Actor:Singer{name:"刘德华", gender:"男"})
                    -[r:ACTED_IN{role："刘建明"}]->
                (n2:Movie{title:"无间道", release:"2002-10-2"})

第三天：知识图谱构建-上
    核心：将业务数据库中的数据导入图谱中
    1、在Python中使用neo4j
        with GraphDatabase.driver("neo4j://ip:7687", auth=(user,password)) as dirver:
            result,summary,keys =  dirver.execute_query(cypher语句)
            解析result数据

    2、将电商的业务数据导入neo4j
        2.1 分析图模型
                sku|spu

            具体内容参考课件


        2.2 实现过程
            a、读取mysql中的数据
              - 查询sku相关信息
                select ski.id sku_id,
                    ski.sku_name,
                    spi.spu_name,
                    bc3.name   category3_name,
                    bc2.name   category2_name,
                    bc1.name   category1_name,
                    bt.tm_name trademark_name
                from sku_info ski
                        left join spu_info spi on ski.spu_id = spi.id
                        left join base_category3 bc3 on spi.category3_id = bc3.id
                        left join base_category2 bc2 on bc3.category2_id = bc2.id
                        left join base_category1 bc1 on bc2.category1_id = bc1.id
                        left join base_trademark bt on spi.tm_id = bt.id
              - 查询sku的属性信息
                select sku_id,
                    attr_name,
                    value_name attr_value
                from sku_attr_value
                union all
                select sku_id,
                    sale_attr_name,
                    sale_attr_value_name
                from sku_sale_attr_value
            b、写入neo4j
              - 写入sku：MERGE=MATCH+CREATE
                MERGE (sku:SKU{sku_id:$sku_id,sku_name:$sku_name})
                MERGE (spu:SPU{spu_name:$spu_name})
                MERGE (cate3:Category3{category3_name:$category3_name})
                MERGE (cate2:Category2{category2_name:$category2_name})
                MERGE (cate1:Category1{category1_name:$category1_name})
                MERGE (tm:Trademark{trademark_name:$trademark_name})
                MERGE (sku)-[:BELONG]->(spu)
                MERGE (spu)-[:BELONG]->(cate3)
                MERGE (cate3)-[:BELONG]->(cate2)
                MERGE (cate2)-[:BELONG]->(cate1)
                MERGE (spu)-[:BELONG]->(tm)

              - 写入sku属性信息
                MATCH (sku:SKU {sku_id:$sku_id})
                MERGE (attr:Attr {attr_name:$attr_name, attr_value:$attr_value})
                MERGE (sku)-[:Have]->(attr)

第四天：知识图谱构建-下
    1、图片详情和商品描述信息
       1.1 读取图片image_url
       1.2 使用OCR模型进行图片文字识别
       1.3 对图片识别的结果进行纠错
       1.4 对mysql业务库中的sku_info表中的商品描述进行读取
       1.5 对图片识别的内容和商品描述内容进行合并
       1.6 根据商品的分类序列进行实体抽取
       1.7 将抽取的实体写入图数据库

    2、用户行为日志数据
        2.1 从业务数据库中读取日志数据
        2.2 写入图数据库

    3、意图识别
       用户提出问题后，首先需要理解用户的问题分类，下一步就可以根据该问题的类别进行相应处理了。
        如何进行问题分类？
        1.使用业内通用的模型：了解阿里云PAI平台中意图识别模型
        2.提供了基于EBRT模型预训练过程

第五天：构建知识图谱的应用
    1、FastAPI构建后端应用
        采用fastapi模块完成后端接口的开发

        fastApi = FastAPI()

        @fastApi.get("定义资源地址")
        def 接口():
            xxxx

        http://服务器地址/定义资源地址

    2、完成聊天核心业务
        2.1 意图识别
        2.2 拼写纠错
        2.3 实体抽取 spu[spu_name = "小米12S Ultra"]
        2.4 实体对齐  spu_name = "小米12s ultra"(同义词)->实体对齐->  spu_name = "小米12S Ultra"（标准词）
        2.5 构建查询语句
        2.6 拼接回复

第六天：实体对齐