# 实习 **Repository Path**: shiyan_8/internship ## Basic Information - **Project Name**: 实习 - **Description**: 实习代码存放 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-16 - **Last Updated**: 2025-07-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 实习 ## 介绍 进行实习代码存放 ## 实习方案 ### 1、实习主要工作内容 ##### 数据收集与预处理:获取电商平台用户行为、商品信息等数据,基于 Hive 进行数据清洗(处理缺失值、异常值)、格式转换(如货币字段清洗)及分层设计。 ##### 特征工程构建:基于 Spark 提取用户特征(人口统计学特征如年龄分箱、性别索引;行为特征如订单频率、偏好商品类别)、商品特征(类别索引、购买量、加购率)及地域特征(城市、区域索引),通过StringIndexer等工具进行特征编码与归一化。 ##### 推荐模型开发:构建矩阵分解模型与神经协同过滤模型,融入用户和商品特征,使用 TensorFlow on Spark 实现分布式训练,通过网格搜索优化交互权重(点赞、分享、加购、浏览时长权重)及超参数(嵌入维度、学习率、网络层数)。 ##### 模型评估与优化:采用 RMSE、Precision@10、NDCG@10 等指标评估模型性能,结合 Kibana 与 Plotly 实现模型效果可视化(如销售额分布、推荐结果对比)。 ##### 系统部署与测试:将推荐结果存储于 Hive 表ecommerce_product_recommendations_tf,验证系统在不同场景下的稳定性与准确性,输出最终推荐报告。 ### 2、任务分配 ##### 方呈丰:承担着项目统筹的重要职责,全面把控项目的整体进度,确保各个环节有序推进。在此基础上,设计简易推荐系统,该系统基于用户的购买记录来匹配相似商品。为了保证推荐的合理性,深入分析用户购买数据之间的关联,测试推荐逻辑是否符合用户的实际需求和购买习惯,及时发现并解决推荐过程中出现的逻辑漏洞。 ##### 王岚旭:聚焦于优化业务总览模块的可视化图表,其中包括销售额趋势图和地区分布饼图,对图表的样式、数据展示方式等进行调整,使图表更加直观、清晰地呈现业务数据。同时,严格确保图表所展示的数据与原始订单数据完全一致,通过细致的核对和校验,避免因数据偏差导致的决策失误。 ##### 王宇同:负责完善产品分析模块,重点是品类销量柱状图的优化。他要实现该模块的时间筛选功能,让用户能够根据不同的时间维度查看品类销量情况。此外,对于图表显示异常的问题,深入排查原因,涉及数据处理、图表渲染等多个方面,通过修复这些问题,保证图表能够准确、稳定地展示产品品类的销量信息。 ##### 陈冠晓:开发订单列表的搜索与筛选功能,具体包括按客户 ID 和商品名称进行查询,设计合理的搜索算法和筛选逻辑,确保用户能够快速、准确地找到所需的订单信息。在功能开发完成后,对查询结果的准确性进行全面测试,通过大量的测试用例验证功能的可靠性,保障用户在使用过程中的查询体验。 ##### 廖书钰:承担着全模块的测试工作,涵盖数据准确性和功能可用性两个关键方面,设计详细的测试方案,对每个模块的各项功能进行逐一测试,检查数据是否准确无误,功能是否能够正常使用。测试完成后,输出详细的测试报告,清晰地记录测试过程中发现的问题,并积极协助开发人员对这些问题进行修复,确保整个系统的质量和稳定性。 ### 3、拟采用的研究思路(方法、技术路线、可行性论证等) #### 3.1研究方法 ##### 数据驱动方法:基于真实电商数据集,通过统计分析与机器学习算法挖掘用户 - 商品交互模式。 ##### 混合推荐策略:融合协同过滤(矩阵分解)与内容特征(用户 / 商品属性),构建神经协同过滤模型提升推荐精度。 ##### 分布式计算框架:利用 Spark 处理大规模数据,TensorFlow on Spark 实现模型分布式训练,确保系统可扩展性。 #### 3.2技术路线 ##### 数据层:HDFS 存储原始数据→Hive 进行数据清洗与分层→Spark SQL 提取特征。 ##### 特征层:用户 / 商品特征工程→特征编码(StringIndexer)与归一化→构建特征向量。 ##### 模型层:设计矩阵分解与神经协同过滤模型→网格搜索优化权重与超参数→分布式训练。 ##### 评估层:离线评估(RMSE、Precision@10)→可视化展示(Kibana/Plotly)→结果存储与部署。 #### 3.3可行性论证 ##### 数据可行性:已获取电商数据集(含用户、商品、行为数据),格式完整且规模适中,适合模型训练。 ##### 技术可行性:Spark、Hive、TensorFlow 等工具成熟,团队已掌握相关技术(如spark.sql操作、模型构建代码),硬件环境支持分布式计算。 ##### 目标可行性:通过分阶段实现数据处理、模型开发与评估,可在实习周期内完成推荐系统构建,解决电商场景中 “用户 - 商品匹配” 的复杂工程问题。