# 实习

**Repository Path**: shiyan_8/internship

## Basic Information

- **Project Name**: 实习
- **Description**: 实习代码存放
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-07-16
- **Last Updated**: 2025-07-17

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 实习

## 介绍
进行实习代码存放

## 实习方案

### 1、实习主要工作内容

##### 数据收集与预处理：获取电商平台用户行为、商品信息等数据，基于 Hive 进行数据清洗（处理缺失值、异常值）、格式转换（如货币字段清洗）及分层设计。

##### 特征工程构建：基于 Spark 提取用户特征（人口统计学特征如年龄分箱、性别索引；行为特征如订单频率、偏好商品类别）、商品特征（类别索引、购买量、加购率）及地域特征（城市、区域索引），通过StringIndexer等工具进行特征编码与归一化。

##### 推荐模型开发：构建矩阵分解模型与神经协同过滤模型，融入用户和商品特征，使用 TensorFlow on Spark 实现分布式训练，通过网格搜索优化交互权重（点赞、分享、加购、浏览时长权重）及超参数（嵌入维度、学习率、网络层数）。

##### 模型评估与优化：采用 RMSE、Precision@10、NDCG@10 等指标评估模型性能，结合 Kibana 与 Plotly 实现模型效果可视化（如销售额分布、推荐结果对比）。

##### 系统部署与测试：将推荐结果存储于 Hive 表ecommerce_product_recommendations_tf，验证系统在不同场景下的稳定性与准确性，输出最终推荐报告。

### 2、任务分配

##### 方呈丰：承担着项目统筹的重要职责，全面把控项目的整体进度，确保各个环节有序推进。在此基础上，设计简易推荐系统，该系统基于用户的购买记录来匹配相似商品。为了保证推荐的合理性，深入分析用户购买数据之间的关联，测试推荐逻辑是否符合用户的实际需求和购买习惯，及时发现并解决推荐过程中出现的逻辑漏洞。

##### 王岚旭：聚焦于优化业务总览模块的可视化图表，其中包括销售额趋势图和地区分布饼图，对图表的样式、数据展示方式等进行调整，使图表更加直观、清晰地呈现业务数据。同时，严格确保图表所展示的数据与原始订单数据完全一致，通过细致的核对和校验，避免因数据偏差导致的决策失误。

##### 王宇同：负责完善产品分析模块，重点是品类销量柱状图的优化。他要实现该模块的时间筛选功能，让用户能够根据不同的时间维度查看品类销量情况。此外，对于图表显示异常的问题，深入排查原因，涉及数据处理、图表渲染等多个方面，通过修复这些问题，保证图表能够准确、稳定地展示产品品类的销量信息。

##### 陈冠晓：开发订单列表的搜索与筛选功能，具体包括按客户 ID 和商品名称进行查询，设计合理的搜索算法和筛选逻辑，确保用户能够快速、准确地找到所需的订单信息。在功能开发完成后，对查询结果的准确性进行全面测试，通过大量的测试用例验证功能的可靠性，保障用户在使用过程中的查询体验。

##### 廖书钰：承担着全模块的测试工作，涵盖数据准确性和功能可用性两个关键方面，设计详细的测试方案，对每个模块的各项功能进行逐一测试，检查数据是否准确无误，功能是否能够正常使用。测试完成后，输出详细的测试报告，清晰地记录测试过程中发现的问题，并积极协助开发人员对这些问题进行修复，确保整个系统的质量和稳定性。

### 3、拟采用的研究思路（方法、技术路线、可行性论证等）

#### 3.1研究方法

##### 数据驱动方法：基于真实电商数据集，通过统计分析与机器学习算法挖掘用户 - 商品交互模式。
##### 混合推荐策略：融合协同过滤（矩阵分解）与内容特征（用户 / 商品属性），构建神经协同过滤模型提升推荐精度。
##### 分布式计算框架：利用 Spark 处理大规模数据，TensorFlow on Spark 实现模型分布式训练，确保系统可扩展性。

#### 3.2技术路线

##### 数据层：HDFS 存储原始数据→Hive 进行数据清洗与分层→Spark SQL 提取特征。
##### 特征层：用户 / 商品特征工程→特征编码（StringIndexer）与归一化→构建特征向量。
##### 模型层：设计矩阵分解与神经协同过滤模型→网格搜索优化权重与超参数→分布式训练。
##### 评估层：离线评估（RMSE、Precision@10）→可视化展示（Kibana/Plotly）→结果存储与部署。

#### 3.3可行性论证

##### 数据可行性：已获取电商数据集（含用户、商品、行为数据），格式完整且规模适中，适合模型训练。
##### 技术可行性：Spark、Hive、TensorFlow 等工具成熟，团队已掌握相关技术（如spark.sql操作、模型构建代码），硬件环境支持分布式计算。
##### 目标可行性：通过分阶段实现数据处理、模型开发与评估，可在实习周期内完成推荐系统构建，解决电商场景中 “用户 - 商品匹配” 的复杂工程问题。