# auto-office **Repository Path**: ucd/auto-office ## Basic Information - **Project Name**: auto-office - **Description**: python办公自动化 - **Primary Language**: Unknown - **License**: AGPL-3.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2025-02-22 - **Last Updated**: 2025-11-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 视频教程关注小红书: 职场 AI 工具助手 ## 概述 这是一个自动化办公工具集合,包含了文件处理、Excel数据处理、PDF文档处理等多种实用工具。每个工具都经过精心设计,旨在提高日常办公效率。 ## 安装说明 1. 克隆项目到本地: ```bash git clone https://github.com/your-username/auto-office.git cd auto-office ``` 2. 创建并激活虚拟环境(推荐): ```bash python -m venv venv source venv/bin/activate # Linux/Mac .\venv\Scripts\activate # Windows ``` 3. 安装依赖: ```bash pip install -r requirements.txt ``` ## 依赖要求 - Python 3.7+ - 主要依赖库: - Pillow:图像处理 - pytesseract:OCR文字识别 - pandas:数据处理 - openpyxl:Excel文件处理 - PyPDF2:PDF文件处理 - pdfplumber:PDF数据提取 - python-docx:Word文档处理 ## 文件处理工具 - `file_stats.py`: 文件统计,负责统计文件信息并输出结果。 - `file_organizer.py`: 文件分类工具,根据文件类型将文件移动到相应的文件夹中。 - `batch_rename.py`: 批量重命名文件,可添加前缀或后缀。 - `file_duplicate.py`: 查找删除重复文件,根据文件内容进行比较。 - `search_files.py`: 搜索指定目录下的文件,支持模糊搜索和正则表达式匹配。 ## 图片处理工具 - `image_to_text.py`: 图片文字提取工具,支持从图片中识别中英文文字。 - `image_to_text_ai.py`: 基于AI的图片文字识别工具,通过调用AI接口实现更准确的文字提取。 ## Excel 工具 - `excel/data_cleaner.py`: Excel数据清洗工具,支持销售数据的格式化和清洗,可处理带单位(万、千、百)的数值。 - `excel/data_summary.py`: Excel数据汇总工具,可按产品和地区汇总销售数据,并自动生成数据可视化图表。 ## PDF 工具 - `pdf/pdf_to_text.py`: PDF文本提取工具,支持从PDF中提取文本内容,包括图片中的文字(OCR)。 - `pdf/pdf_to_image.py`: PDF转图片工具,将PDF文件转换为高质量图片。 - `pdf/pdf_to_image_ImageMagick.py`: 基于ImageMagick的PDF转图片工具,提供更多图片格式选项。 - `pdf/pypdf2.py`: PDF处理工具,支持提取文本和图片,可选AI或传统OCR识别。 - `pdf/pdfplumber_extractor.py`: PDF发票数据提取工具,可提取发票信息并导出为Excel。 - `pdf/office_to_pdf.py`: Office文档转PDF工具,支持Word、Excel、PowerPoint格式转换。 ## 使用示例 ### 文件处理 ```python # 批量重命名文件 python batch_rename.py --dir "./files" --prefix "新文件-" --suffix "_已处理" # 文件分类整理 python file_organizer.py --source "./downloads" --dest "./organized" ``` ### Excel数据处理 ```python # 数据清洗 python excel/data_cleaner.py --input "原始数据.xlsx" --output "清洗后数据.xlsx" # 数据汇总分析 python excel/data_summary.py --input "销售数据.xlsx" --output "汇总报告.xlsx" ``` ### PDF处理 ```python # PDF转图片 python pdf/pdf_to_image.py --input "文档.pdf" --output "./images" # Office转PDF python pdf/office_to_pdf.py --input "报告.docx" --output "报告.pdf" ``` ## 贡献指南 1. Fork 项目 2. 创建功能分支 (`git checkout -b feature/AmazingFeature`) 3. 提交更改 (`git commit -m 'Add some AmazingFeature'`) 4. 推送到分支 (`git push origin feature/AmazingFeature`) 5. 提交 Pull Request ## 开源协议 本项目采用 MIT 协议开源,详见 [LICENSE](LICENSE) 文件。