# 词典关系自动对照

**Repository Path**: rpa1/DataComparison

## Basic Information

- **Project Name**: 词典关系自动对照
- **Description**: 词典对照工具，利用Simhash相似度算法、stanford parser语义分析，使用机器学习技术可以记忆历史数据对照关系，实现词典库之间的自动、手动对照，不断完善数据模型。首先可以使用自动对照，如果自动匹配不精确，可以人工手动调整；
- **Primary Language**: C#
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2021-03-01
- **Last Updated**: 2021-03-01

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

﻿# 词典关系自动对照-语义分析

#### 介绍
本工具只提供交流学习使用，可以免费使用，其中应用到的第三方控件库属于学习及可行性Deom验证使用，如果商业用途此控件请联系控件厂商购买版权。对使用过程中出现的任何问题不承担任何责任，本工具禁止商业用途，特此声明。本小程序最新本已经有多家公司用于实际生产应用中，当然是免费授权使用的，小工具而已，哈哈。

stanford parser是stanford nlp小组提供的一系列工具之一，能够用来完成语法分析任务。支持英文、中文、德文、法文、阿拉伯文等多种语言。在最新版本中相似度分析中应用了stanford parser语义分析，本人最近在研究汉语语法，发现挺有意思，学了十几年的英文语法，想不到现在需要开始研究自己的母语语法。对NLP有兴趣的可以联系交流。

<h4>stanford parser语义分析C#代码片段演示:</h4>
           var jarRoot = @"..\..\models\lexparser\";<br/>
            lp = LexicalizedParser.loadModel(jarRoot + @"chinesePCFG.ser.gz");<br/>
            string yunWord= "主干识别可以提高检索系统的智能";<br/>
            List<string> keyWords= PanGuLuceneHelper.instance.Token(yunWord).Split('|').ToList();<br/>
            var rawWords = SentenceUtils.toCoreLabelList(keyWords.ToArray());<br/>
            var tree = lp.apply(rawWords);<br/>
            tree.pennPrint();<br/>
            ChineseTreebankLanguagePack tlp = new ChineseTreebankLanguagePack();<br/>
            GrammaticalStructureFactory gsf = tlp.grammaticalStructureFactory();<br/>
            ChineseGrammaticalStructure gs = new ChineseGrammaticalStructure(tree);<br/>
            var tdl = gs.typedDependenciesCollapsed().toArray();

<h4>语义分析截图：</h4>
获取句子主谓宾，以及部分宾语补足语。<br/>
<img src="https://images.gitee.com/uploads/images/2019/0220/092546_93abc840_1056599.png"/>

可以实现词典库之间的自动、手动对照。可以自动通过语义算法计算两个词组的相似度进行自动匹配，如果自动匹配不精确，可以人工手动调整；除了相似度匹配外，还提供了历史词典库对照关系参考，所以伴随历史数据的积累，工具具有自我学习能力，提供自动匹配的精度。

配置手册

1、db文件夹放在C盘跟目录下，是数据库存储文件，数据库为Sqlite文件型数据库。

2、如果没有安装.NET Framework 4.6.1或以上版本，请下在安装.NET Framework 4.6.1或更高版本，安装方式请参考微软官方网站。

3、本工具为绿色免安装版，直接双击DataComparison.exe即可使用。

4、模板文件夹下是导入数据使用的模板格式，标准模板导入标准词典库数据，第三方模板导入第三方词典库使用。

使用手册

<h4>自动匹配：</h4>
<img src="https://images.gitee.com/uploads/images/2019/0220/084917_34042016_1056599.png" />
<br/>
<h4>手动匹配：</h4>
<img src="https://images.gitee.com/uploads/images/2019/0220/084932_1890fbc0_1056599.png" />

1、首先导入标准词典库。

2、后期可以不断导入第三方词典库，导入后显示“未对照”状态。可以利用自动对照功能，实现语义层的词典项对应关系的自动关联，如果匹配不对，可以手动再次对照词典项之间的关系。

3、对照完成，可以使用“暂存”功能，暂存词典项对照关系数据。状态变为“已对照”。

4、审核已对照数据无误后，可以实现词典项入库操作，变为“已入库”状态。

5、对照完成已入库的数据，只可以进行“禁用”与"启用"操作。

6、“导出”功能可以导出数据。

7、可以通过所属分类对第三方词典项实现分类。

8、标准词典修改维护功能待开发。

详细使用手册后期维护。各位如果对此小工具有需求、建议欢迎留言。

QQ：2065766212