# 数据挖掘期末项目CNKI **Repository Path**: coldmeaning/data-mining-final-project-cnki ## Basic Information - **Project Name**: 数据挖掘期末项目CNKI - **Description**: No description available - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-06-26 - **Last Updated**: 2021-07-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 数据挖掘期末项目CNKI #### 介绍: - 本项目所用的识图API为讯飞的识图API,有90天的免费调用权限。[API文档](https://www.xfyun.cn/doc/words/textRecg/API.html#%E6%8E%A5%E5%8F%A3%E8%AF%B7%E6%B1%82%E5%8F%82%E6%95%B0) - 所下载的PDF文件存储在路径:E:\\学习\\作业\\Python数据挖掘\\files #### 目标: - 爬取CNKI SU="教育" AND KY="科学"的文章。 - 并用VOSviewer进行可视化分析。 #### 遇到的问题和解决的方法: - **验证码识别不准的问题。** *解决方法:通过for循环刷新验证码再通过API识别验证码。(通常能够解决,实在解决不了跳过该文章。)* - **该PDF未被购买不能下载的问题** *解决方法:跳过该文章,报下载失败的提示信息并且记录下来。* - **用户量迸发问题** *解决方法:跳过该文章,报下载失败的提示信息并且记录下来。* #### 尚未解决的问题: - 遇到的问题中的最佳解决方法都是应该**重新打开该文章连接,再进行2次尝试下载,实在下载不了再报下载失败的提示信息并且记录下来,**而不是直接跳过并报信息记录。 #### VOSviewer可视化分析 - 附图象 ![VOSviewer](https://gitee.com/coldmeaning/data-mining-final-project-cnki/raw/master/VOSviewer%E5%88%86%E6%9E%90.png)