# XECOLLECT-SCRIPT **Repository Path**: zhiops/xecollect-script ## Basic Information - **Project Name**: XECOLLECT-SCRIPT - **Description**: 本项目是工作高频场景实用脚本合集,整合了多平台数据采集、本地文件属性修改、数据清洗等核心功能,均经过实际业务验证,可直接复用或简单适配后使用,旨在帮助提升日志工作效率,减少重复劳动,聚焦核心业务处理。 - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-02 - **Last Updated**: 2026-02-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 日志工作脚本合集 Git库项目介绍 ## 项目概述 本项目是日志工作高频场景实用脚本合集,整合了多平台数据采集、本地文件属性修改、数据清洗等核心功能,均经过实际业务验证,可直接复用或简单适配后使用,旨在帮助提升日志工作效率,减少重复劳动,聚焦核心业务处理。 ## 文件结构及作用说明 项目文件按功能模块化划分,路径规范清晰,便于检索与使用,具体文件地址及对应作用如下: ### 一、数据采集类脚本 - **文件地址**:/data-collection/plastic-product-collector.py - **作用**:塑化商品信息采集,精准抓取目标平台塑化类商品全量数据(含名称、规格、材质、厂家、报价、库存等),支持自定义采集范围与频率,自动过滤无效数据,为塑化商品台账建立、供应链梳理提供数据支撑。 - **文件地址**:/data-collection/jd-industry-category-collector.py - **作用**:京东工业品分类采集,自动遍历京东工业品全品类层级,抓取分类名称、ID、层级关系、所属大类等信息,整理生成规范分类清单,辅助界定商品采集范围、优化自身分类体系。 - **文件地址**:/data-collection/jd-industry-product-collector.py - **作用**:京东工业品商品采集,基于分类采集结果,批量抓取指定分类下工业品详情(含规格参数、执行标准、供应商资质、销量、评价等),支持增量采集,为工业品采购比价、竞品分析提供数据来源。 - **文件地址**:/data-collection/taobao-product-collector.py - **作用**:淘宝商品信息获取,根据关键词、店铺或分类,批量抓取淘宝平台目标商品信息(含售价、促销、销量、店铺资质、评价等),优化抓取稳定性,支持数据导出,适配多平台商品数据对比需求。 - **文件地址**:/data-collection/information-collector.py - **作用**:行业资讯采集,适配多资讯平台,支持自定义关键词与采集范围,抓取资讯标题、发布时间、正文、来源等信息,可过滤重复内容、筛选指定时段资讯并提取核心摘要,助力掌握行业动态。 ### 二、本地文件处理类脚本 - **文件地址**:/file-operation/local-file-attribute-modifier.py - **作用**:本地文件属性批量修改,适配多格式文件,支持自定义规则修改文件名、创建/修改时间、文件备注等,实现文件标准化管理,提升日志文件检索与归档效率。 ### 三、数据清洗类脚本 - **文件地址**:/data-processing/data-cleaner.py - **作用**:采集数据批量清洗,支持重复数据去重、缺失值处理、无效值过滤、数据格式标准化及格式转换,解决采集数据冗余、错误等问题,输出规范可靠的数据,支撑后续日志统计与分析工作。 ## 项目说明 1. 本项目所有脚本无需复杂代码修改,可根据实际工作需求调整配置参数后直接使用; 2. 脚本均适配日志工作高频场景,兼顾实用性与稳定性,后续将根据使用反馈持续优化适配性; 3. 建议根据具体使用场景,合理配置采集频率、数据筛选规则,避免无效数据冗余。 > (注:文档部分内容可能由 AI 生成)