# ccnc
**Repository Path**: 9happy/ccnc
## Basic Information
- **Project Name**: ccnc
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: GPL-3.0
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-12-13
- **Last Updated**: 2025-12-13
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
[English Version of ReadMe](https://github.com/jaaack-wang/ccnc/blob/main/README.md)
## 基本数据 (Basic statistics)
| 姓名数 (names) | 姓的数量 (last names ) | 名的数量 (first names)| 男性数量 (M)| 女性数量 (F) | 未知性别 (Unknown)|
| :---: | :---: | :---: | :---: | :---: | :---: |
| 3658109 | 808 | 710594 | 2054134 | 1509650 | 94325 |
样图:
## 拼音版 (Pinyin Version)
由于源文件比较大,这里提供用于为语料库注音的[源码](https://github.com/jaaack-wang/ccnc/blob/main/Scripts/convert_to_pinyin.py)。运行源码前,你必须首先将[Ch-Last-Names-Dict](https://github.com/jaaack-wang/ccnc/tree/main/Ch-Last-Names-Dict)中的两个json文件下载下来,并与源码放置于同一个文件夹下。或者,你也可以点击[这里](https://drive.google.com/file/d/1Y7INZUv98JFuI09MleZcpiaxqiqTdlUN/view?usp=sharing)下载本语料库的三个版本(纯中文版,两个拼音版,一个有声调,另外一个没有声调)。
拼音版的姓,用我自己制作的中文姓氏注音字典标注的;而名的拼音则直接用[pypinyin](https://github.com/mozillazg/python-pinyin)。分开注音的主要原因是,pypinyin对一些罕见姓氏的注音并不很准确。当然,由于某些姓氏可能有多种读音,完全正确的注音是不可能。
做拼音版的主要想法是,拼音版可以用来做英文文献中中文人名(不包括港澳台,这些地方的中文名转英文的规则不一样。)的实体识别。拼音版的全名中,姓和名都用空格隔开。
## 来源 (Sources)
语料库来自以下两个渠道:
- [姓名大全](http://www.resgain.net/xmdq.html), 贡献了2513097条语例。[抓取代码/Script](https://github.com/jaaack-wang/ccnc/blob/main/Scripts/namescraping.py)
- [中文人名语料库](https://github.com/wainshine/Chinese-Names-Corpus), 贡献了1145012条语例。
另外需要注意的是:
- 中文人名语料库的姓名原本不分,这里做了区分。
- 两个来源大约有三十万的重叠语例,都被删减掉了。
- 两个人如果姓名一样,但是性别不一样,在这里也当作两个不同的语例来处理。
- 本语料库的未知性别语例均来自于第二个来源,即中文人名语料库。
## 中文姓氏注音字典 (Romanized Chinese Last Names Dictionary)
中文姓氏拼音字典收集了1606条中文姓氏及其拼音。其中1534条姓氏及其注音抓取自[名霸百家姓](http://bjx.mingba.cn),剩下的72条则见于本语料库的具体语例,并由我自己手动注音,包括:滕, 刁, 牧, 欧阳, 徐离, 傲, 宾, 博, 采, 恩, 凡, 格, 冠, 好, 昊, 浩, 荷, 恒, 鸿, 湖, 化, 基, 继, 见, 杰, 静, 菊, 俊, 卡, 科, 奎, 立, 丽, 刘付, 绿, 麦, 曼, 美, 梦, 名, 默, 沐, 娜, 乃, 尼, 日, 如, 润, 若, 上, 升, 桃, 天, 拓, 旺, 未, 溪, 夏候, 湘, 晓, 雄, 雅, 岩, 彦, 艳, 依, 远, 悦, 忠, 珠。
中文姓氏博大精深。通过构建这个姓氏注音字典,我第一次了解到有的人姓:第,第一,第三,第四,第五,第六,第七,第八...稍微以某字 + “姓“查了下百度,罕见的姓确实能罕见得超乎想象。
## 训练集/测试集/预测集 (train/dev/test set)
这里提供一段简单的[代码](https://github.com/jaaack-wang/ccnc/blob/main/Scripts/train_dev_test_split.ipynb)将ccnc语料库切分成训练集,测试集和预测集。默认的切分比例为6:2:2,[这个](https://drive.google.com/file/d/1z06MpC1Q0kKjVjCyUtmb2crpSsJ_Tjl4/view)是针对全汉字版的已经切分好的压缩文件。切分两个拼音版的语料库可以如法炮制。