# AI **Repository Path**: itic/ai ## Basic Information - **Project Name**: AI - **Description**: 我一定会成为人类历史上最伟大的AI工程师。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-25 - **Last Updated**: 2026-03-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI > AI:人工智能(Artificial Intelligence),是一个学科领域的统称,目标就是使机器能够像人类一样思考、学 习、推理和解决问题 ## AI 大模型 > AI大模型:也称为大语言模型(Large Language Models,LLM),是AI技术的一个分支。其实就是一个用代码模拟人脑神经网络的程序(参数量极其庞大,通常达到数十亿至数千亿级别),通过大量的数据训练后,使其具备理解人类语言、思考、推理并输出人类语言的能力。 ### AI 大模型部署 1. 本地部署 ```markdown > Ollama是一个在本地运行、管理大语言模型的工具。官网:https://ollama.com/ ``` 2. 官方开放API 3. 云服务平台 ### 提示词工程 1. 给大模型设定角色和能力 2. 明确核心请求与任务,按步骤拆解复杂任务 3. 提出要求,明确要求输出格式等 ## AI Agent 全景指南 ### 1. 什么是 AI Agent? **AI Agent(人工智能智能体)** 是一种能够**感知环境**、**自主决策**并**执行行动**以实现特定目标的智能系统。 与传统的大语言模型(LLM)仅作为“问答机器”不同,AI Agent 具备**自主性(Autonomy)**。它不仅能理解用户的指令,还能将复杂目标拆解为子任务,主动调用外部工具(如搜索、代码执行、API),并在执行过程中根据反馈进行自我修正,最终独立完成闭环任务。 > **核心公式**: > **AI Agent = 大语言模型 (大脑) + 规划能力 + 记忆能力 + 工具使用能力** --- ### 2. Agent 概念、原理与构建 #### 核心概念 * **自主性 (Autonomy)**:无需人类步步指导,能独立决定下一步行动。 * **反应性 (Reactivity)**:能感知环境变化(如用户新输入、API返回结果)并实时响应。 * **主动性 (Pro-activeness)**:不仅被动响应,还能为了达成目标主动发起行动。 * **社会性 (Social Ability)**:多 Agent 之间可以协作、沟通甚至博弈。 #### 工作原理 AI Agent 的工作流通常是一个 **“感知 - 思考 - 行动” (Perceive-Think-Act)** 的循环: 1. **感知 (Perception)**:接收用户指令或环境数据。 2. **思考 (Reasoning/Planning)**:LLM 分析当前状态,结合记忆,规划下一步策略。 3. **行动 (Action)**:调用工具执行具体操作(如搜索网页、运行代码)。 4. **观察 (Observation)**:获取行动结果,反馈给 LLM。 5. **循环 (Loop)**:根据结果调整策略,直到任务完成或达到最大步数。 #### 构建流程 1. **定义目标**:明确 Agent 要解决的具体问题域。 2. **选择基座模型**:根据任务复杂度选择合适参数的 LLM。 3. **设计提示词 (Prompt Engineering)**:设定角色、约束和思考框架(如 ReAct)。 4. **集成工具 (Tool Integration)**:通过 Function Calling 或 API 连接外部能力。 5. **配置记忆 (Memory Setup)**:搭建向量数据库或上下文管理机制。 6. **评估与迭代**:测试任务完成率,优化规划逻辑和错误处理机制。 --- ### 3. AI Agent 三大核心技术 要让大模型从“聊天”进化为“做事”,主要依赖以下三大技术支柱: #### 1. 任务规划与分解 (Planning & Decomposition) * **作用**:将模糊或复杂的宏观目标(如“开发一个贪吃蛇游戏”)拆解为可执行的微观步骤序列。 * **关键技术**: * **思维链 (Chain of Thought, CoT)**:引导模型一步步推理。 * **树状思维 (Tree of Thoughts, ToT)**:探索多种可能的推理路径并选择最优解。 * **反射 (Reflection)**:对已生成的计划进行自我批判和优化。 #### 2. 工具学习与调用 (Tool Learning & Usage) * **作用**:赋予 Agent“手和脚”,使其能突破模型内部知识的限制,获取实时信息或执行物理/数字操作。 * **关键技术**: * **Function Calling / Tool Use**:模型识别意图并生成符合 API 规范的参数(JSON格式)。 * **RAG (检索增强生成)**:连接外部知识库,解决幻觉问题。 * **Code Interpreter**:让模型编写并执行代码来解决数学、数据分析或可视化问题。 #### 3. 记忆机制 (Memory Mechanism) * **作用**:让 Agent 拥有“短期记忆”和“长期记忆”,保持对话连贯性并从历史经验中学习。 * **关键技术**: * **短期记忆**:基于 Context Window 的对话历史缓存(滑动窗口)。 * **长期记忆**:基于向量数据库 (Vector DB) 的语义检索,存储历史交互、用户偏好和领域知识(类似人类的海马体)。 * **记忆管理**:包括记忆的写入、检索、更新和遗忘机制。 --- ### 4. AI Agent 四大核心组件 一个标准的 AI Agent 架构通常由以下四个核心组件构成: #### 🧠 1. 规划 (Planning) * **定义**:Agent 的“决策中枢”,负责将复杂目标拆解为可执行的子任务序列,并根据执行反馈动态调整计划。 * **核心功能**: * **任务分解 (Task Decomposition)**:将大问题拆小(例如:`写报告` -> `搜资料` -> `写大纲` -> `填内容` -> `润色`)。 * **反思与修正 (Reflection & Refinement)**:检查上一步的结果是否满足预期,若不满足则重新规划。 * **多路径探索**:在遇到死胡同时,能够回溯并尝试其他解决方案。 #### 🛠️ 2. 工具 (Tools) * **定义**:Agent 的“手脚”,是模型与外部世界交互的接口。 * **核心功能**: * **搜索类**:Google Search, Bing Search, 维基百科查询。 * **计算类**:Python 解释器, 计算器, 代码执行沙箱。 * **应用类**:发送邮件, 操作数据库, 调用 API (如天气、股票), 控制智能家居。 * **自定义工具**:开发者根据特定业务场景封装的 API。 #### 💾 3. 记忆 (Memory) * **定义**:Agent 的“海马体”,用于存储和检索信息,确保任务的连续性和个性化。 * **分类**: * **短期记忆 (Short-term Memory)**:当前的上下文窗口,包含最近的对话历史和中间思考过程。 * **长期记忆 (Long-term Memory)**:存储在向量数据库中的历史经验、用户画像、知识库文档。通过语义相似度检索(RAG)随时调用。 * **程序性记忆**:学会的技能或工具使用方法(有时通过微调或Few-shot prompts实现)。 #### 🎯 4. 行动/执行 (Action / Execution) * **定义**:将规划好的步骤和选定的工具转化为实际的执行指令,并获取执行结果(Observation)。 * **核心功能**: * **指令生成**:生成符合工具要求的精确参数。 * **结果解析**:将工具返回的原始数据(JSON, HTML, Text)转化为 LLM 可理解的文本描述。 * **状态更新**:根据执行结果更新当前任务状态(成功/失败/进行中)。 --- ### 5. Agent 技术框架 (设计模式) 为了让 Agent 更高效地工作,研究者提出了多种经典的推理与行动框架: #### ⚡ ReAct (Reason + Act) * **核心理念**:将**推理 (Reasoning)** 和 **行动 (Acting)** 交织在一起。模型在行动前先进行“内心独白”(Thought),解释为什么要采取这个行动,然后执行行动(Action),最后观察结果(Observation),如此循环。 * **工作流程**:`Thought` -> `Action` -> `Observation` -> `Thought` ... -> `Final Answer` * **优点**:透明度高,可解释性强,能通过推理纠正错误。 * **缺点**:串行执行,速度较慢;如果推理链条过长,容易迷失。 #### 📋 Plan and Execute (规划与执行) * **核心理念**:将任务分为两个阶段。首先由一个 LLM(Planner)制定完整的计划列表,然后由另一个 LLM(Executor)逐个执行计划中的步骤。 * **工作流程**: 1. **Plan**: 生成 `[Step 1, Step 2, Step 3]`。 2. **Execute**: 依次执行每一步,并将结果反馈。 3. **Refine (可选)**: 根据执行情况调整剩余计划。 * **优点**:全局视野好,适合长程任务;结构清晰。 * **缺点**:初始计划可能不完善,缺乏灵活性(除非加入重规划机制)。 #### 🤔 Self-Ask (自问自答) * **核心理念**:面对复杂问题时,模型主动将自己无法直接回答的问题拆解为一系列简单的**子问题 (Follow-up questions)**,先解决子问题,再综合回答原问题。 * **工作流程**: * User: "谁是美国总统出生地海拔最高的?" * Agent: "我需要知道每位总统的出生地及其海拔。" -> *追问*: "华盛顿的出生地海拔是多少?" -> *查工具* -> ... -> *综合*。 * **优点**:极其适合需要多跳推理(Multi-hop reasoning)和事实核查的任务。 * **变体**:Meta-Prompting, Socratic Questioning。 #### 🌳 其他进阶框架 * **Tree of Thoughts (ToT)**:在每一步维护多个可能的推理路径,像搜索树一样进行广度优先或深度优先搜索,选择最优路径。 * **Reflexion**:引入“反思”机制,Agent 在执行失败后,会生成一段自然语言的反思轨迹,存入记忆,指导下一次尝试。 * **AutoGen / CrewAI (多 Agent 协作)**:多个具有不同角色(如程序员、产品经理、测试员)的 Agent 互相对话协作,共同完成任务。 #### 私有化部署 * 云服务厂商,如阿里云,腾讯云 * deepseek官方, [deepseek-ai](https://github.com/deepseek-ai) * 开源大模型框架(**推荐**),如ollama,可参考 [olllama](https://ollama.com/) #### RAG * Naive RAG * Advanced RAG * Modular RAG ## AI代码编辑器 ### Cursor * Cursor三大核心AI功能 * Tab键:智能小助手 * Chat:对话模式 * Ctrl+K:内联生成和修改 #### 安装、注册、登录、配置 [cursor官网](https://cursor.com/cn) [cursor文档](https://cursor.com/cn/docs) #### 配置 * Cursor Settings(cursor AI 相关设置) * Edit Settings (cursor 编辑器相关设置) * User配置 (全局生效) * Workspace配置(仅对当前项目生效,优先级高于User配置) #### Tab键-智能提示助手 1. 代码补全 2. 智能代码重写 (修改注释后可直接提供修改意见) 3. 多行协同优化 * 自动联想和补全 * 多行批量改写 4. 光标位置预测 5. 接受(tab)、部分接受(tab+Right,功能需开启)、拒绝(esc/继续输入) 6. TAB配置 #### Chat对话模式 1. agent * 对话模式的核心功能,通过自主规划、信息检索和工具调用完成复杂任务 2. Plan * 计划模式的Agent,先沟通制定计划,确认后再执行 3. Background * Run agents in the background 指的是在后台运行agent,需要开启git仓库 4. Ask * 只读模式:只能查看、搜索、阅读代码 * 不能:创建文件、编辑文件、删除文件、运行命令 * 适用场景:询问问题、查看代码、理解逻辑 #### Chat对话模式注意事项 1. 代码生成、修改提示信息 1. Review Changes:审查代码修改/变化 2. KeepAll:保留所有修改/变化内容 3. UndoAll:撤销所有修改/变化的内容 2. Checkpoints数据还原 * 恢复到代码库的先前某个状态 * Cursor在发出的每次请求更改代码库时自动创建代码库的检查点(Checkpoint),通过Checkpoint可以回到指定的某个状态. #### 内联生成和修改 > 使用Ctrl+K(Windows/Linux)启用内联生成和修改。直接在编辑器窗口中生成新代码或编辑现有代码,适合精准的修改代码/内容。 #### Cursor上下文指定 > 在Cursor工具里,"上下文(Context)"是指AI工具在回答你的问题或帮助你编程时所能"看到"和"理解"信息的范围,也是Cursor能精准响应的关键。 ##### 代码库索引 * Codebase Indexing(代码库索引I)介绍 * 打开项目时,Cursor将初始化该工作区的索引。初始索引设置完成后,Cursor将自动为添加到工作区的新文件编制索引,使代码库上下文保持最新 * 快速理解整个项目结构 * 快速定位相关代码 * 跨文件理解 ###### 代码库索引如何使用 * 同步索引 * Cursor Settings-> Indexing&Docs -> Sync * 忽略文件 * Cursor Settings-> Indexing&Docs -> Ignore Files in.cursorignore 通过将.cursorignore文件添加到根目录来控制哪些文件/文件夹被忽略。 ##### Rules规则 * Rules是给Cursor AI功能生成结果添加规则和限制,让Cursor 生成的代码贴合团队规范,主要的作用如下: * 约束代码风格(如强制用驼峰命名、要求方法写注释等) * 能限定技术选型(如指定优先使用某技术/框架/库,禁止使用某组件/框架/库)口 * 提前指定配置参数(如提前设置连接数据库方式、账号密码等) ###### Rules规则如何使用 * User Rules * 对所有项目生效,个人专属配置 * Cursor Settings-> Rules&Memories -> User Rules (用markdown格式描述规则) * Project Rules * 仅对当前项目生效,团队成员共享相同规则 * 冲突时,Project Rules优先级高于User Rules * Cursor Settings-> Rules&Memories -> Project Rules (用markdown格式描述规则) ##### @符号 > 在Cursor中通过@符号在聊天中引用代码、文件、文档和其他上下文,直接更具体的指定上下文环境 1. @Files&Folders引用文件或目录 2. @Code引用代码片段 3. @Docs获取指定技术/框架/组件的官方文档 1. * Cursor Settings-> Indexing&Docs -> AddDoc 4. @Web会自动搜索互联网,查找与Cursor请求相关的上下文 5. @Linter Errors 用于访问并引用代码中的Lint报错与警告信息的快捷符号。这个符号可以自动捕获并提供你当前激活文件中所有的lint报错与警告 #### 模板 ```markdown ------------------------------------- 你现在是一名资深网页前端开发工程师,请帮我使用原生 HTML + CSS + JavaScript 编写一个可直接在浏览器中打开使用的「工作日程安排程序」,要求如下: 🧭 功能要求: 1. 页面显示当前月份的日历(例如一个 7x5 的网格); 2. 点击某个日期,可以打开一个简单的弹窗或侧边栏,输入当天的日程内容; 3. 输入的日程可以保存并显示在日历中对应日期下面; 4. 页面刷新后仍能保存数据(使用 localStorage 存储即可); 5. 可以删除某一天的日程; 6. 页面顶部显示当前年月; 7. 提供“上一个月 / 下一个月”按钮切换月份; 8. 页面风格简洁、美观。 🎨 界面要求: - 页面标题为“工作日程安排”; - 日历居中显示; - 每个日期格子用边框区分; - 当前日期高亮显示; - 弹窗或输入区域使用简洁样式(如白底圆角、阴影); - 使用 CSS Flex 或 Grid 布局实现; - 页面整体配色淡雅(如浅灰、浅蓝)。 🧩 技术要求: - 不使用任何框架或库(如 React、Vue、jQuery 等); - 所有代码写在同一个 HTML 文件中; - 使用原生 JavaScript 操作 DOM; - 有详细注释,逻辑清晰; - 可直接保存为 `schedule.html` 文件,并在浏览器中打开即可使用。 ⚙️ 输出格式要求: - 一次性输出完整的 HTML 文件代码; - 代码可直接运行,无需任何依赖; - 包含 `