# 短文本分类 **Repository Path**: PunchOvO/STC ## Basic Information - **Project Name**: 短文本分类 - **Description**: 短文本分类持续探险中 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: punch - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-12-17 - **Last Updated**: 2023-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README pycharm终端 activate tfidf虚拟环境 conda create -n bert python=3.7 anaconda prompt下pip conda list -e conda install python=3.7 pip list pip install tensorflow==1.14.0 pip install gensim, jieba, matplotlib pip install scikit-learn pip install protobuf==3.19.0 1.数据读取: 专利数据 + 企业数据 2.预处理: 分词,去停用词,标注 3.特征提取: tfidf -> 专利特征向量 + 企业特征向量 4.相似度计算: 余弦相似度 5.设置阈值: >阈值: 推荐、 <阈值: 不推荐,加入位置权重 专利名 对应的 标签序号: 激光器 0 光电 1 激光加工 2 激光电视、激光显示 3 激光通信 4 医用激光 5 激光二极管 6 光电转化器 7 光电转台 8 激光打印、3D打印 9 激光切割 10 激光测距 11 激光传感 12 激光雷达 13 激光雕刻 14 激光焊接 15 光电探测器 16 增材制造 17 激光全息 18 激光光源 19 光电倍增管 20 激光扫描 21 分解: tfidf_dict: 专利摘要分词结果 提取tfidf tfidf_w2v_cos_xy: 专利名和对应专利标签 划分实验数据集