# 数据挖掘互评作业

**Repository Path**: drcatastrophic/data-mining

## Basic Information

- **Project Name**: 数据挖掘互评作业
- **Description**: 2024春数据挖掘互评作业
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-03-26
- **Last Updated**: 2024-03-26

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

- 关于代码

task3_1.py和task3_2.py用于处理数据，在将数据集放入data文件夹后即可执行。utils是用来处理和分析数据的接口，若仅尝试运行就不要动它。

数据集MovieLens 10M Dataset的根目录ml-10M100K放在data目录下

数据集Movies Dataset from Pirated Sites的文件movies_dataset.csv放在data目录下
- 选用的两个数据集

### 1 MovieLens 10M Dataset（使用task_3_1.py处理）

该数据集由10681部电影，以及71567个观众为这些电影打出的10000054条评分和95580个标签构成。用户随机选取，而为了保证数据有效性，每个用户至少为20部电影打分。与以往的MovieLens数据集不同，该数据集不包含用户的统计信息。数据包含在movies、ratings、tags三个dat文件中，此外文件夹中还提供了用于评分预测的5折交叉验证的子集生成代码。

三个dat格式的数据文件由UTF-8格式编码，这一点与以往的同类数据集不同。此外，用户ID完全随机，并且是按数据集表单分开选取的，也就是说一些用户可能在仅仅在评分、标签中的一个集合出现，而不是在所有表单中都出现。

表单ratings的所有条目都是某个用户对某个电影的打分评价。格式如下（其中时间戳使用的是从1970年开始的标准时间戳）：
 
UserID::MovieID::Rating::Timestamp

表单tags的表示用户对电影的打出的标签，格式与ratings类似，如下：

UserID::MovieID::Tag::Timestamp

而表单movie包含了电影的大量信息，每一行表示一个电影，包含了电影的ID、标题和类别。其中，电影类别由包括action、adventure等在内的18个条目组成。格式如下：
 
MovieID::Title::Genres

### 2 Movies Dataset from Pirated Sites（使用task_3_2.py处理）

Movies Dataset from Pirated Sites数据集是从一个有一个拥有大约每月2百万用户基数的盗版网站上收集到的关于20000余部电影的资料。这些电影来自各个公司，如好莱坞、宝莱坞等等。数据文件本身由一个csv文件构成，属于结构化数据，其中包含了如电影ID、电影名称以及各种其它相关信息。具体的表单条目如下：

#,
IMDb-rating,
appropriate_for,
director,
downloads,
id,
industry,
language,
posted_date,
release_date,
run_time,
storyline,
title,
views,
writer

BIT 1120203554 李元盛

2024/3/26