# clean-tool **Repository Path**: tbdp/clean-tool ## Basic Information - **Project Name**: clean-tool - **Description**: 四年历史数据清理 - **Primary Language**: Java - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2016-10-15 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #clean-tool 历史四年数据清洗实现具体方案 1.遍历当前目录的zip文件列表 对于每个文件 补全文件的缺失信息 包括时间 状态 streamid 2.把补全的文件放到一个特定的目录下面,文件名称和之前的一致 3.把所有的文件调用 hdfs api 写入到分布式文件存储里面 使用多线程并发读取文件并做转换 目前采用java 客户端实现,如果慢后续改成spark程序