# auto-flow-note

**Repository Path**: Umbrellaness/auto-flow-note

## Basic Information

- **Project Name**: auto-flow-note
- **Description**: 一款无感记录学习过程，并形成一份笔记的AI agent
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-03-06
- **Last Updated**: 2026-03-08

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 🌊 AutoFlowNote
## 一款智能无感化笔记生成工具
### **Your Screen, Your Story, Automatically Told.**

> **无感捕捉 · 智能理解 · 自动成稿**  
> 告别手动截图和繁琐整理。AutoFlowNote 像水流一样伴随你的操作，利用多模态 AI 自动将屏幕活动转化为结构清晰、重点突出的智能笔记与审计报告。

[![License](https://img.shields.io/badge/license-Apache%202.0-blue.svg)](LICENSE)
[![Python](https://img.shields.io/badge/python-3.8+-green.svg)](https://www.python.org/)
[![AI](https://img.shields.io/badge/AI-Qwen3.5--flash-purple.svg)](https://qwenlm.github.io/)

---

## 💡 为什么需要 AutoFlowNote？

在数字化工作流中，我们常常面临这样的困境：
- 🛑 **打断心流**：为了记录步骤，不得不频繁暂停、截图、重命名。
- 🌫️ **信息过载**：录屏视频太长，关键信息淹没在几十分钟的等待和加载中。
- 📝 **整理痛苦**：面对几百张截图，手动编写文档是一场噩梦。

**AutoFlowNote** 是您的**影子抄写员**。它在后台静默运行，自动捕捉关键帧，利用强大的 **Qwen3.5-flash** 多模态大模型理解屏幕内容，自动过滤噪音，并生成一份**带评分、带摘要、层级分明**的 Markdown 报告。

---

## ✨ 核心亮点

- 🧠 **AI 深度理解**：不只是保存图片，AI 会分析每一帧，自动生成**标题**、**详细描述**和**相关性评分 (1-5)**。
- 🌊 **无感流式体验**：Zero-interaction design。无需点击，无需配置，安装即运行，完全不打断您的工作心流。
- 📊 **智能分级渲染**：
    - **高分 (4-5 星)**：关键操作步骤，**直接展开**，高亮显示。
    - **中分 (2-3 星)**：过渡状态，**自动折叠**，保持页面整洁。
    - **低分 (1 星)**：加载/黑屏/重复画面，**深度归档**，仅作为时间线参考。
- 📄 **一键导出**：生成标准 Markdown 文件，完美兼容 **Obsidian**, **Typora**, **Notion**, **GitHub**。
- 🎯 **智能焦点追踪**：自动识别并裁剪当前活动窗口，彻底忽略背景杂乱信息。独创动态变化感知算法，在浏览长网页时，自动锁定滚动内容区域，剔除静止的侧边栏和导航条，让 AI 专注于真正变化的信息。

---

## 📸 效果展示
### 生成的 Markdown 报告
![Markdown 报告 1](assets/outputs_show_1.png)

![Markdown 报告 2](assets/outputs_show_2.png)

![Markdown 报告 3](assets/outputs_show_3.png)

---

## 🚀 快速开始

### 1. 环境要求

- Python 3.8+
- Windows 10/11（需要支持屏幕截图）
- 阿里云百炼 API Key（或本地 Ollama 服务）

### 2. 安装步骤

#### 2.1 克隆项目

```bash
git clone https://github.com/your-repo/auto-flow-note.git
cd auto-flow-note
```

#### 2.2 创建虚拟环境（推荐）

```bash
# 创建虚拟环境
python -m venv venv

# 激活虚拟环境
# Windows:
venv\Scripts\activate
# Linux/Mac:
source venv/bin/activate
```

#### 2.3 安装依赖

```bash
pip install -r requirements.txt
```

#### 2.4 配置 API

复制配置示例文件并修改：

```bash
copy config.yaml.example config.yaml
```

编辑 `config.yaml`，填入你的阿里云 API Key：

```yaml
# 阿里云配置
aliyun:
  api_key: "sk-你的API-Key"
  default_model: "qwen3.5-flash"
```

**注意**：也可以使用本地 Ollama 模型，修改配置：

```yaml
# Ollama 本地模型配置
ollama:
  base_url: "http://localhost:11434"
  model: "qwen3-vl:2b"

# 分析器类型: "qwen" (阿里云) 或 "ollama" (本地)
analyzer:
  type: "ollama"
```

### 3. 运行程序

```bash
python main.py
```

程序会：
1. 倒计时 3 秒（给你时间切换到目标窗口）
2. 开始自动录制屏幕
3. 检测画面变化并保存关键帧
4. 使用 AI 分析每帧内容
5. 生成带图片的 Markdown 报告

### 4. 查看结果

运行结束后，在 `outputs/session_YYYYMMDD_HHMMSS/` 目录下查看：

```
session_20260308_221647/
├── raw/           # 原始截图
├── annotated/     # 标注图片（含变化区域框选）
├── debug/         # 调试图片（变化检测中间结果）
├── md_images/    # Markdown 报告使用的图片
├── logs/         # 运行日志和 AI 分析记录
├── README.md     # 生成的图文报告
└── topic.txt     # 录制主题
```

---

## ⚙️ 配置说明

| 配置项 | 说明 | 默认值 |
|--------|------|--------|
| `capture.interval` | 截屏间隔(秒) | 0.5 |
| `capture.duration` | 录制总时长(秒) | 60 |
| `detector.similarity_threshold` | 哈希相似度阈值 (0-20，越小越严格) | 6 |
| `detector.min_change_area` | 最小变化面积(像素) | 500 |
| `analyzer.type` | 分析器类型：`qwen` 或 `ollama` | qwen |
| `analyzer.min_relevance` | 最小相关度阈值 (1-5) | 3 |

---

## 📁 项目结构

```
auto-flow-note/
├── main.py                 # 主程序入口
├── config.yaml             # 配置文件
├── requirements.txt         # Python 依赖
├── src/
│   ├── analyzer/           # AI 分析模块
│   │   ├── base.py         # 分析器抽象基类
│   │   ├── vision_recorder.py  # 阿里云 Qwen 分析器
│   │   └── ollama_vision.py    # Ollama 本地分析器
│   ├── capture/            # 屏幕捕获模块
│   │   ├── screen_capturer.py  # 屏幕截图
│   │   └── change_detector.py  # 变化检测
│   └── utils/              # 工具模块
│       ├── config_loader.py    # 配置加载
│       └── logger.py           # 日志工具
├── tools/                  # 辅助工具脚本
└── outputs/                # 输出目录（自动生成）
```

---

## 🛠️ 高级用法

### 使用命令行参数

```bash
python main.py --config custom_config.yaml --duration 30 --debug
```

参数说明：
- `--config`: 指定配置文件路径
- `--duration`: 覆盖配置文件中的录制时长
- `--debug`: 开启调试模式，保存中间过程图片

### 切换 AI 模型

在 `config.yaml` 中修改：

```yaml
# 阿里云模型
analyzer:
  type: "qwen"
  # 可选：qwen3.5-flash, qwen3.5-flash-2026-02-23, qwen-vl-plus 等

# 或本地 Ollama 模型
analyzer:
  type: "ollama"
  # 需要先下载模型：ollama pull qwen3-vl:2b
```

---

## 🔮 后续计划

AutoFlowNote 正在持续进化中，以下是我们即将实现的功能，同时欢迎大家提issue，一起打造一个智能、无感、无干扰的AI工作流工具：

### 1️⃣ 前端对话窗口与配置页面
- 🎨 **可视化操作界面**：告别命令行和 YAML 配置，提供直观的 GUI 配置面板
- 💬 **实时对话交互**：在前端窗口中与 AI 实时对话，调整分析参数、查看进度
- 📊 **状态监控仪表板**：实时显示录制状态、AI 分析进度、资源占用情况

### 2️⃣ 智能文档分析与 RAG 问答
- 📚 **深度文档理解**：基于生成的笔记文档，构建检索增强生成（RAG）系统
- ❓ **交互式问答**：针对已记录的工作流程，以问答形式获取详细信息
  - *"我在哪个步骤配置了 API Key？"*
  - *"第三步使用的什么命令？"*
  - *"整个流程花了多长时间？"*
- 🔍 **语义检索**：无需手动翻阅文档，AI 自动定位相关内容并生成精准回答
- 📖 **上下文关联**：结合前后步骤的上下文，提供更完整的解答

### 3️⃣ 智能子文档提取与精炼总结
- 🎯 **关键信息萃取**：从大量截图中自动识别最具代表性的关键帧
- 📝 **自动生成摘要**：为每个操作步骤生成一句话精炼总结
- 📑 **分层文档结构**：
  - **高层概览**：仅展示核心步骤（5 星关键帧），快速了解整体流程
  - **详细版本**：包含所有重要细节，适合回顾学习
  - **完整归档**：保留全部时间线，用于审计追溯
- 🔄 **多粒度输出**：根据需求自动生成不同详细程度的文档版本
  - *快速汇报版*：只保留最关键的操作节点
  - *标准教程版*：包含必要的步骤说明和注意事项
  - *完整审计版*：详尽记录所有操作细节和时间戳

---

## 📝 许可

Apache License 2.0 - see [LICENSE](LICENSE) for details.

---

## 🙏 致谢

- [Qwen](https://qwenlm.github.io/) - 阿里云千问多模态大模型
- [Ollama](https://ollama.ai/) - 本地大模型运行框架
- [OpenCV](https://opencv.org/) - 计算机视觉库