# Web_mining_cnki_final **Repository Path**: dont_have_time/web_mining_cnki_final ## Basic Information - **Project Name**: Web_mining_cnki_final - **Description**: 数据挖掘期末项目 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-07-02 - **Last Updated**: 2025-05-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Web_mining_cnki_final 这里是我本学期数据挖掘课程的期末项目作品 ## 项目要求 1、提交ipynb档或者可执行.py项目文件 2、有较好的文档描述和数据描述(包含数据目标和数据结果描述) 3、主要目标:可对CNKI PDF文件进行依次下载,解决中间处理问题(并做描述) 4、次要目标:数据分析(关键词替换)——数据可视化(VOSviewer--keywords_co-occurrence) 5、将作业上传至gitee/github,作为数据挖掘项目作品 ## 一、文档描述 ### 1.1 运作流程 - **ipynb档** [web_mining_cnki_final](https://gitee.com/dont_have_time/web_mining_cnki_final/blob/master/web_cnki_final.ipynb)(文档内附有注释) - 1、完成运用selenium在知网上以‘新媒体’、‘心理’及‘心理学’3个关键词进行C刊领域的专业检索的基本步骤后,首先运用[Python正则表达re模块的findall()](https://www.cnblogs.com/yyds/p/6953348.html)抓取了页面重要信息如文章的标题、作者、详细页链接及pdf下载链接,并储存到excel方便后续使用; - 2、接着为解决下载文章过程中可能会遇到的验证码问题,调用、测试了[‘图鉴’图片识别API](http://www.ttshitu.com/docs/python.html#pageTitle)的精准度,由于直接获取验证码网页链接的话图片会变动,所以运用[driver.save_screenshot()](https://www.jianshu.com/p/a538e5cd4a35)的功能把含有验证码的整个页面截图保存,并根据自身电脑屏幕尺寸[对准验证码位置](https://blog.csdn.net/qq_42293590/article/details/96482141)再次截图保存,好方便api对验证码的识别; - 3、完成以上步骤之后,直接循环遍历刚刚保存到excel里的pdf下载链接,运用[python try/except语句](https://blog.csdn.net/m0_37822685/article/details/80259402)加入封装好的api图像识别函数; - 4、同时运用[os模块](https://www.runoob.com/python3/python3-os-file-methods.html)--len[(os.listdir())](https://www.runoob.com/python/os-listdir.html)的方法来设置一个判断逻辑,若运行下载链接后再次len得出的结果跟之前一样,就代表下载失败,于是print第X篇文章下载失败,否则print下载成功; - 5、完成pdf文件下载后,通过翻页分两次批量导出refworks文件,为后面的VOSviewer数据可视化做准备。 ## 二、数据描述 ### 2.1 数据目标 使用python+selenium技术手段,基于兴趣在中国知网CNKI上选择‘新媒体’、‘心理’及‘心理学’3个关键词进行C刊领域的专业检索,并实现页面重要信息的抓取、PDF文件依次下载、refworks文件导出、解决中间逻辑问题、进行关键词替换的数据可视化等。 ### 2.2 数据结果 - **页面重要信息的抓取** [cnki_webmining.xlsx](https://gitee.com/dont_have_time/web_mining_cnki_final/blob/master/cnki_webmining.xlsx) - **PDF文件依次下载** [pdf.zip](https://gitee.com/dont_have_time/web_mining_cnki_final/blob/master/pdf.zip) - **refworks文件导出** [refworks文件](https://gitee.com/dont_have_time/web_mining_cnki_final/tree/master/refworks) ### 2.3 数据分析 - **数据分析(关键词替换)——数据可视化** ![](VOSviewer.png/关键词替换_数据可视化.png) 对refworks文件进行了keywords_co-occurrence的数据可视化,突出展示了主要关键词‘心理学’与其他关键词的关联,同时展示了其他关键词之间的关联 ![](VOSviewer.png/关键词替换_数据可视化1.png) 进行了一些中英重复关键词的替换,使数据关系图更简洁明了 ## 个人感想 整个过程请教了很多同学,不止是这次项目,之前的课后作业都是,真的非常超级很感谢各位同学的帮助。花了时间尽力去理解和完成,虽然不够厉害完善也还是希望可以给到需要的同学一些参考,但请不要再整个ipynb连注释都一字不改直接搬走了,我真的很...伤...心.............