# 数据挖掘互评作业 **Repository Path**: drcatastrophic/data-mining ## Basic Information - **Project Name**: 数据挖掘互评作业 - **Description**: 2024春数据挖掘互评作业 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-03-26 - **Last Updated**: 2024-03-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README - 关于代码 task3_1.py和task3_2.py用于处理数据,在将数据集放入data文件夹后即可执行。utils是用来处理和分析数据的接口,若仅尝试运行就不要动它。 数据集MovieLens 10M Dataset的根目录ml-10M100K放在data目录下 数据集Movies Dataset from Pirated Sites的文件movies_dataset.csv放在data目录下 - 选用的两个数据集 ### 1 MovieLens 10M Dataset(使用task_3_1.py处理) 该数据集由10681部电影,以及71567个观众为这些电影打出的10000054条评分和95580个标签构成。用户随机选取,而为了保证数据有效性,每个用户至少为20部电影打分。与以往的MovieLens数据集不同,该数据集不包含用户的统计信息。数据包含在movies、ratings、tags三个dat文件中,此外文件夹中还提供了用于评分预测的5折交叉验证的子集生成代码。 三个dat格式的数据文件由UTF-8格式编码,这一点与以往的同类数据集不同。此外,用户ID完全随机,并且是按数据集表单分开选取的,也就是说一些用户可能在仅仅在评分、标签中的一个集合出现,而不是在所有表单中都出现。 表单ratings的所有条目都是某个用户对某个电影的打分评价。格式如下(其中时间戳使用的是从1970年开始的标准时间戳): UserID::MovieID::Rating::Timestamp 表单tags的表示用户对电影的打出的标签,格式与ratings类似,如下: UserID::MovieID::Tag::Timestamp 而表单movie包含了电影的大量信息,每一行表示一个电影,包含了电影的ID、标题和类别。其中,电影类别由包括action、adventure等在内的18个条目组成。格式如下: MovieID::Title::Genres ### 2 Movies Dataset from Pirated Sites(使用task_3_2.py处理) Movies Dataset from Pirated Sites数据集是从一个有一个拥有大约每月2百万用户基数的盗版网站上收集到的关于20000余部电影的资料。这些电影来自各个公司,如好莱坞、宝莱坞等等。数据文件本身由一个csv文件构成,属于结构化数据,其中包含了如电影ID、电影名称以及各种其它相关信息。具体的表单条目如下: #, IMDb-rating, appropriate_for, director, downloads, id, industry, language, posted_date, release_date, run_time, storyline, title, views, writer BIT 1120203554 李元盛 2024/3/26