# KaggleBench

**Repository Path**: yimon/KaggleBench

## Basic Information

- **Project Name**: KaggleBench
- **Description**: KaggleBench是一个用于评价可视化推荐效果的公开benchmark。其数据来源是数据分析网站Kaggle上的数据集及其对应的数据可视化结果。
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 9
- **Created**: 2021-11-25
- **Last Updated**: 2021-11-25

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# KaggleBench

#### 介绍
KaggleBench是一个用于评价可视化推荐效果的公开benchmark。其数据来源是数据分析网站Kaggle上的数据集及其对应的数据可视化结果。我们利用收集的数据集及其对应的来自不同用户的可视化结果，以及不同用户对每个可视化结果的投票，构造了一系列有序的可视化，作为每个数据集的期望结果。Benchmark总共包含18个数据集，每个数据集对应一个有序的可视化结果。

同时，我们也将收集的原始的来自不同用户的可视化结果记录并公开
vengeji/vizrec_bench: benchmark dataset for visualization recommendation (github.com)


数据集文件公开在https://pan.baidu.com/s/1oVNWzblP_3E3H_SyTFZ5Tg  提取码：n4iq 

#### 目录结构
 
对每个数据集，它包含以下部分内容：


1.原始数据文件，airplane_crashes_drop_unused_cols.csv，但由于文件大小限制，我们将其保存到了别处https://stuscueducn-my.sharepoint.com/:f:/g/personal/vengeji_stu_scu_edu_cn/ErvLbAEpd7BOl99haBYrsXMBLMgBKxEQ_6wIJt-M8ZdKFw?e=Kejp6x。

2.  从Kaggle上收集的数据分析记录，位于目录/notebooks下

3.  收集的数据分析记录中提取的可视化结果，位于目录/raw_json下

4.  合并后的有序的可视化结果，保存于airplane_crashes.json中

5.  数据表的列名以及对应的列类型（对应于pandas的数据类型）
![目录结构](https://images.gitee.com/uploads/images/2021/0617/211722_0fd772d2_9100839.png "fig1.png")


#### benchmark_manager 
benchmark_manager中包含对benchmark的处理代码。主要有对数据文件的清洗，可视化的过滤与合并，以及一系列评估指标。manage.py可直接执行并查看在benchmark上的评估结果。


#### 执行方式

1.  进入benchmark_manager目录，执行命令python manage.py

2.  待所有benchmark中18个数据集处理完成后即可看到结果(处理需要依赖VizGrank的代码)

![输入图片说明](https://images.gitee.com/uploads/images/2021/0617/213437_a669e5ce_9100839.png "fig4.png")