# mapReduce

**Repository Path**: brahmamantra/mapReduce

## Basic Information

- **Project Name**: mapReduce
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-03-31
- **Last Updated**: 2025-03-31

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 基于物品的协同过滤推荐系统 MapReduce 实现

这是一个使用 Go 语言实现的基于物品的协同过滤推荐系统，采用 MapReduce 范式进行数据处理。该实现模拟了 MapReduce 框架的工作原理，展示了生成个性化推荐所需的完整数据处理流程。

## 系统概述

系统通过六个连续的 MapReduce 步骤实现推荐功能：

1. **第一步**：数据预处理 - 去除重复数据和标题行
2. **第二步**：用户评分矩阵计算 - 创建用户对物品的评分矩阵
3. **第三步**：共现矩阵计算 - 计算物品之间的共现次数
4. **第四步**：矩阵相乘 - 将共现矩阵与用户评分矩阵相乘
5. **第五步**：评分汇总 - 对每个用户-物品对的推荐分数进行汇总
6. **第六步**：Top-N推荐 - 为每个用户获取评分最高的前10个推荐物品

## 文件结构

- `main.go`: 主程序，负责协调所有步骤的执行
- `mapreduce.go`: 核心 MapReduce 功能和工具函数
- `step1.go` 到 `step6.go`: 推荐系统各个步骤的具体实现

## 运行方法

1. 将数据文件 `itemcf.csv` 放在代码所在目录下

2. 编译项目：
   ```
   go build -o item_cf
   ```

3. 运行程序：
   ```
   ./item_cf
   ```

4. 查看输出目录中的结果：
   ```
   output/
   ├── output1/  # 第一步输出 - 去重后的数据
   ├── output2/  # 第二步输出 - 用户评分矩阵
   ├── output3/  # 第三步输出 - 共现矩阵
   ├── output4/  # 第四步输出 - 单项推荐分数
   ├── output5/  # 第五步输出 - 汇总后的推荐分数
   └── output6/  # 第六步输出 - 每个用户的前10个推荐物品
   ```

## 输入数据格式

输入数据应为CSV文件，包含以下列：
- `item_id`: 物品ID
- `user_id`: 用户ID
- `action`: 用户行为（click-点击, collect-收藏, cart-加入购物车, alipay-支付）
- `vtime`: 行为发生的时间戳

## 输出格式

最终输出（第六步）将生成一个用户列表，每个用户对应其评分最高的前10个推荐物品及其评分，格式如下：
```
用户ID    物品1:评分1,物品2:评分2,...,物品10:评分10
```

## 行为权重

不同用户行为的权重设置：
- 点击（click）: 1
- 收藏（collect）: 2
- 加入购物车（cart）: 3
- 支付（alipay）: 4

这些权重可以在 `main.go` 文件中进行调整。

## 工作原理

该推荐系统基于"物品的协同过滤"原理，通过分析用户的历史行为数据来预测用户可能感兴趣的其他物品。主要步骤包括：

1. 首先对原始数据进行预处理，去除重复和无效数据
2. 根据用户的行为计算用户对物品的隐式评分
3. 计算物品之间的共现关系，即经常一起出现的物品对
4. 通过矩阵乘法计算推荐得分
5. 汇总并排序推荐结果，为每个用户生成个性化的推荐列表

## 分布式处理

虽然本实现在单机上模拟了 MapReduce 的工作流程，但代码结构设计遵循了 MapReduce 的基本原则，可以方便地迁移到分布式环境（如 Hadoop）中运行。主要体现在：

1. 清晰的 Map 和 Reduce 阶段划分
2. 数据以 Key-Value 对的形式处理
3. 每个处理步骤的输入输出保持独立
4. 使用中间文件存储每个步骤的结果 

## 分布式部署

本系统支持使用Docker进行分布式部署。系统包含一个主节点（Master）和多个工作节点（Worker），它们通过HTTP协议进行通信。

### 部署要求

- Docker 20.10.0 或更高版本
- Docker Compose 2.0.0 或更高版本
- 至少3台机器（1个主节点，2个工作节点）

### 部署步骤

1. 在所有节点上安装Docker和Docker Compose

2. 在主节点上克隆代码仓库：
   ```bash
   git clone <repository-url>
   cd go-src
   ```

3. 构建并启动Docker容器：
   ```bash
   docker-compose up -d
   ```

4. 检查容器状态：
   ```bash
   docker-compose ps
   ```

5. 查看日志：
   ```bash
   docker-compose logs -f
   ```

### 集群配置

系统默认配置包含：
- 1个主节点（Master）
- 2个工作节点（Worker）
- 共享网络用于节点间通信
- 共享卷用于数据存储

可以通过修改 `docker-compose.yml` 文件来调整配置：
- 增加或减少工作节点数量
- 调整节点的资源分配
- 修改端口映射
- 配置数据卷

### 扩展集群

要增加工作节点，可以修改 `docker-compose.yml` 文件并添加新的worker服务：

```yaml
worker3:
  build: .
  container_name: itemcf-worker3
  volumes:
    - ./output:/app/output
  environment:
    - NODE_TYPE=worker
    - WORKER_ID=3
  depends_on:
    - master
  networks:
    - itemcf-network
```

然后更新环境变量 `WORKER_COUNT` 以匹配新的工作节点数量。

### 故障恢复

系统实现了基本的故障恢复机制：
1. 工作节点失败时，主节点会将任务重新分配给其他工作节点
2. 主节点会定期检查工作节点的健康状态
3. 数据通过共享卷持久化，支持节点重启后的恢复

### 监控和管理

可以通过以下方式监控系统：

1. 查看容器状态：
   ```bash
   docker-compose ps
   ```

2. 查看容器日志：
   ```bash
   docker-compose logs -f [service_name]
   ```

3. 查看节点资源使用情况：
   ```bash
   docker stats
   ```

4. 访问主节点API：
   ```bash
   curl http://localhost:8080/status
   ```

### 性能优化

1. 数据分片：
   - 系统自动将输入数据分片到不同工作节点
   - 分片大小可以通过环境变量调整

2. 并行处理：
   - 每个工作节点并行处理自己的数据分片
   - Map和Reduce任务在工作节点上并行执行

3. 负载均衡：
   - 主节点根据工作节点的负载情况分配任务
   - 支持动态调整工作节点数量

### 注意事项

1. 网络配置：
   - 确保所有节点可以通过网络互相访问
   - 检查防火墙设置，确保必要的端口开放

2. 存储配置：
   - 确保共享卷有足够的存储空间
   - 定期清理临时数据和日志

3. 资源分配：
   - 根据数据量和处理需求调整节点资源
   - 监控系统资源使用情况，及时扩容

4. 安全性：
   - 配置适当的访问控制
   - 加密节点间通信
   - 定期备份重要数据

## 运行
go mod init github.com/wuyutong/item-cf
go build -o item_cf
./item_cf
ls -l output/*/part-r-00000 | head -n 1

for i in {1..6}; do echo "=== Step $i Output ==="; head -n 3 output/output$i/part-r-00000; echo; done


袁康
给你具体的任务：
一、大作业实践 1(必选)
基于物品的协同过滤 MapReduce 实践。涉及数据预处理、存储、个性化推荐等大数据原 理、处理、应用重要流程，以及所涉及的各种典型操作，涵盖 TiDB，TiUP 等系统和软件的安装和使用方法，特别是熟悉 MapReduce 的工作原理、工作流程、shuffle 以及编程方法。有助于学生综合运用大数据课程知识以及各种工具软件，实现基于 MapReduce 的基于物品的协同过滤全流程操作。
大作业实践 1 基本要求
要求在大数据分布式集群环境下完成。因此，每各组至少 2 位同学搭建大数据集群环境。其
中 1 群机器作为 Mater，另一群机器作为 Slave。然后使用DR-Auto-Sync进行灾难恢复
 大作业实践 1 任务
(一)任务 1:MapReduce 采用"分而治之，迭代汇总"的策略，通过将大任务分解 为小任务并行处理，并逐步汇总结果。请思考该策略对于你们本组大作业团队任务分工和协作有什 么积极影响?并描述每个人具体的分工，以及如何迭代汇总，以完成大作业任务。

(二)任务 2:TiDB 集群配置
...略，参考TiDB文档

(三)任务 3:基于给定的数据集，编写基于物品的协同过滤推荐 MapReduce 程序。 Java的具体描述如下，但是注意！！（注意！你要用Go语言重写）:
(1)要求程序结构、MapReduce 主要实现功能如下:
StartRun.java //包含 main 方法
Step1.java //编写 Step1_Mapper、Step1_Reducer 去除数据集的重复数据;需要保存 这一步的输出结果以供查看和学习
Step2.java //编写 Step2_Mapper、Step2_Reducer 计算用户评分矩阵;需要保存这一步的输出结果以供查看和学习
Step3.java //编写 Step3_Mapper、Step3_Reducer 计算共现矩阵;需要保存这一步的 输出结果以供查看和学习
Step4.java //编写 Step4_Mapper、Step4_Reducer 计算单项评分=共现矩阵*评分矩阵; 需要保存这一步的输出结果以供查看和学习
Step5.java //编写 Step5_Mapper、Step5_Reducer 计算评分总和;需要保存这一步的 输出结果以供查看和学习
Step6.java //编写 Step6_Mapper、Step6_Reducer，并自定义分组(Group)规则，以 实现针对每个用户，按评分高到低排序物品，仅给出评分排在前 Top10 的物品;需要 保存这一步的输出结果以供查看和学习

(2) 程序的输入为给定的数据集的 key-value 文件形式，Step6 最终输出同样为一个 key-value 文件，其中，key 为用户，value 为针对这个用户给出评分排在前十的物品 及其评分。


请给我具体的解决方案，java代码放到 java-temp-code文件夹了。你先帮我写代码，放到$workspace/go-src下面

I'll help you implement a Collaborative Filtering recommendation system using MapReduce in Go. Let's first take a look at the Java code to understand the implementation, then translate it to Go.
Let's look at the Java code first to understand the structure and functionality of the collaborative filtering implementation.
Let's examine the content of the input file to understand the data format:
Now let's check out the Java code for better understanding:
Let's check other steps too to understand the workflow:
Now that I've analyzed the Java code, I'll create the Go implementation. Let's create the folder structure first:
Let's implement the Go version of the collaborative filtering system:
Now let's implement the MapReduce utility module that provides the common framework for all steps:
Now, let's implement Step 1 which removes duplicates from the dataset:
Let's implement Step 2 which calculates the user-item rating matrix:
Now, let's implement Step 3 which calculates the co-occurrence matrix:
Let's fix the linter errors in step3.go:
Now let's implement Step 4 which calculates individual recommendations by matrix multiplication:
We need to update Step 4 to fix the linter errors and make the code work correctly with the input files:
Now let's implement Step 5 which aggregates the recommendation scores:
Finally, let's implement Step 6 which sorts the recommendations and takes the top 10 for each user:
Now let's create a README.md to explain how to use the code:
Now let's copy the data file to the go-src directory:
Let's try to build and run our implementation:
cd go-src && go build -o item_cf
We need to initialize a Go module first:
go mod init github.com/wuyutong/item-cf
Now let's build the project:
写一个中文的README

我来帮你写一个中文版的README文件：
现在让我们运行程序看看效果：
./item_cf
让我们检查一下输出结果：
ls -l output/*/part-r-00000 | head -n 1
让我们看看每个步骤的输出内容：
for i in {1..6}; do echo "=== Step $i Output ==="; head -n 3 output/output$i/part-r-00000; echo; done
从输出结果可以看到，我们的推荐系统成功地完成了所有步骤：
Step 1 输出了去重后的原始数据，保持了CSV格式
Step 2 输出了用户-物品评分矩阵，格式为 "用户ID 物品1:评分1,物品2:评分2,..."
Step 3 输出了物品共现矩阵，格式为 "物品A:物品B 共现次数"
Step 4 输出了矩阵相乘后的单项推荐分数，格式为 "用户ID 物品ID,分数"
Step 5 输出了汇总后的推荐分数，格式为 "用户ID 物品ID,总分数"
Step 6 输出了最终的推荐结果，为每个用户列出了评分最高的前10个物品及其分数
系统运行正常，成功实现了基于物品的协同过滤推荐算法。每个步骤的输出格式都符合预期，数据流转也很顺畅。用户可以根据自己的需求调整行为权重或修改推荐物品的数量。