课程简介
旨在深度解析AI Agent技术的最新进展与实战应用。课程将从OpenAI定义的L1-L5智能体演进范式切入,详细探讨Agent的认知架构、核心能力(自主性、规划、工具使用、记忆与反思),并重点剖析RAG与Agentic RAG如何赋能Agent进行复杂知识获取与推理。学员将系统学习Agent的构建、工作流设计、多Agent协作机制,并通过丰富的代码Agent、搜索Agent、多模态Agent等案例,掌握Agent在企业内落地的策略与挑战。课程也将结合最新的行业趋势、产品形态和资本动态,为学员提供AI Agent领域的全景视角。
目标收益
1.系统理解Agent技术全景: 掌握OpenAI定义的L1-L5智能体演进范式,深入理解Agent的认知架构与核心能力模型。
2.精通RAG与Agentic RAG: 掌握RAG技术原理,特别是Agentic RAG如何增强Agent的知识获取与推理,及其在复杂问答中的应用。
3.掌握Agent工作流与多Agent系统设计: 学习Agent的基础构建块、典型工作流模式,以及多Agent协作框架、通信协议与知识库构建。
4.洞察Agent应用与行业趋势: 了解代码Agent、搜索Agent、多模态Agent等典型应用,以及Agent在企业落地的最佳实践、挑战与行业最新动态。
培训对象
课程内容
第一天:Agent技术演进与核心能力解析
上午:L1-L5智能体演进范式与Agent认知基础
AI Agent智能体技术概述与行业背景
○AI行业总览:技术、应用、资本视角下的AI发展趋势。
○从LLM到Agent的必然:通用大模型能力的边界与Agent的出现。
○OpenAI定义的AGI发展路径与L1-L5智能体:
▪L1: Chatbot (对话机器人):基于GPT-3.5及后续模型,通过Chat UI实现基础对话能力。
▪L2: Reasoning (推理):模型思考慢下来,通过强化学习、精确奖励机制实现更深层次的逻辑推理与问题解决。
▪L3: Agent (智能体):模型具备自主规划、工具使用、与环境交互的能力,执行复杂任务。
▪L4: Innovation (创新):模型具备自我探索、发现新知识、创造新解决方案的能力。
▪L5: Organizer (组织者):模型能够协调和组织复杂系统,实现类人或超人智能。
○Agent的智能边界:通用智能与专用型Agent的平衡。
Agent的认知架构与核心能力模型
○自主性(Autonomy): Agent决策与行动的独立性。
○规划能力(Planning): 任务分解、策略制定、行动序列生成。
○工具使用(Tool Use): 让Agent调用外部API、数据库、网络工具。
○记忆机制(Memory): 短期记忆(上下文管理)与长期记忆(知识库、经验回放)。
○反思与学习(Reflection & Learning): Agent如何从错误中学习,优化策略和知识。
○Agent的基础构建块:增强型LLM的核心能力。
RAG (Retrieval Augmented Generation) 深度解析
○大模型驱动的RAG技术架构剖析:检索器、生成器、重排器。
○RAG技术的范式演进与核心步骤:从传统RAG到高级RAG。
○GraphRAG的核心原理与前沿探索:知识图谱与RAG的融合。
○优化RAG性能:Chunking策略、Embedding模型选择、向量数据库。
下午:Agentic RAG、高级工作流与主流框架
Agentic RAG:智能体的知识增强利器
○什么是Agentic RAG?为何它超越传统RAG?
○Agentic RAG的核心原理:Agent如何驱动多步骤检索、筛选、重组信息并生成答案。
○Agentic RAG与工具使用:Agent如何根据问题选择合适的检索工具、RAG策略(如多跳RAG、迭代RAG)。
○案例解析:Agentic RAG在复杂问答、报告生成、研究分析中的应用。
Agent典型工作流模式剖析
○提示链(Prompt Chain)模式:结构化提示词的序列执行。
○路由(Routing)模式:Agent根据条件动态选择执行路径。
○并行化(Parallelization)模式:同时执行多个子任务。
○Orchestrator-Workers模式:主控Agent协调多个工作Agent。
○Evaluator-Optimizer模式:Agent的自我反思、评估与优化循环。
○高阶智能的遐想:从工作流编排到自主Agent的跃迁,新型大模型下的Agent架构革新。
主流Agent框架介绍与实践基础
○LangChain:Agent模块、工具集成、记忆管理、Chain的构建。
○LlamaIndex:与RAG的深度结合,数据摄取与索引。
○(可选)Dify/Coze:低代码/零代码平台构建Agent工作流的对比分析。
○开发环境配置与核心组件介绍。
Agent安全框架与伦理考量
○安全边界与风险评估:幻觉、偏见、隐私泄露。
○行为约束与行动准则:Prompt Engineering与Guardrails。
○可解释性与透明度保障:Agent决策过程的可追溯性。
○敏感信息处理机制与合规性要求。
第二天:多Agent系统、典型应用与企业落地
上午:多Agent协作与多模态Agent
多Agent系统设计与协作机制
○多Agent协作框架与通信协议:如何实现Agent间的有效信息交换与任务协调。
○角色分配与专业化Agent设计:为不同任务设计具有特定能力的Agent。
○冲突解决与共识达成机制:多Agent环境下的决策与协商。
○Agent记忆与知识库构建原理:共享记忆、分布式记忆与知识沉淀。
○MANUS、OWL/OpenManus框架理念与实践(结合播客内容):
▪MANUS创始人Pieter Levels提出的“环境”概念:Agent与环境的深度交互。
▪MANUS等产品如何通过搭建更好的“环境”来提升Agent能力。
▪OWL/OpenManus框架的架构原理与技术特点(自主规划Agent开发、多Agent协作系统构建)。
多模态Agent的新发展与应用
○多模态Agent:超越语言,实现视觉、听觉、3D等多种模态的感知与生成。
○Coding Agent:
▪AI编程工具发展与技术原理:Copilot、Replit、Cloud Code(Anthropic一方产品)等对比。
▪AI代码生成的优势与局限性,企业级AI编程最佳实践。
▪Coding是否为大语言模型的子集?行业PMF(产品市场契合)的案例。
○多模态Agent的局部战场:
▪图片Agent: 文生图、图片编辑、一致性生成(Nano Banana,小红书/电商应用)。
▪视频Agent: 文生视频、视频编辑、图生视频(字节、Pika、Kling、Google V1O3)。
▪语音Agent: 语音合成、语音识别、即时语音API(MiniMax、OpenAI Realtime API、ElevenLabs)。
▪3D Agent: AI 3D生成与游戏行业的应用(腾讯混元世界模型、Roblox)。
○世界模型(World Model): 从局部战场到大战场,孕育AGI的虚拟子宫。
▪Google DeepMind GT3、李飞飞World Lab、腾讯混元世界模型的最新进展。
Agent驱动的Deep Research与Computer Use
○搜索Agent: GPT-O3的DeepResearch、Grok、Meta的深度搜索实践。
○Flowith的画布层次搜索实践:推理型模型的边思边搜技术方案。
○Agent如何使用浏览器/电脑:Computer Use能力的实现。
下午:Agent企业内实战案例与行业趋势
Agent企业内实战案例剖析
○复杂问答 Agent: 以“Agentic RAG复杂问答框架”为例,结合业务场景(如企业知识库问答、客服)。
○客户服务领域的Agent应用: 架构设计、工具集成、性能优化与监控。
○软件开发领域的Agent应用: SWE-bench案例解析,自动化测试与人工审核的平衡。
○自适应学习型Agent: 在线学习机制、经验积累与迁移、错误恢复与优化、持续演进策略。
Agent在复杂场景中的应用
○工业物联网Agent系统:智能监控、故障诊断、预测性维护。
○制造业Agent系统应用:生产流程优化、质量控制。
○车载Agent系统应用:智能驾驶辅助、人机交互。
○医疗辅助决策Agent:诊断辅助、治疗方案推荐。
○AI社交陪伴Agent:情感陪伴、心理咨询(Tohru、林间疗愈室、EVE等探索)。
Agent企业实施的最佳实践与挑战
○推理型产品的崛起: DeepSearch与MANUS等产品的启示。
○AutoGPT类产品涌现与Coze/Dify类产品对照:自主Agent与编排平台的选择。
○Agent的部署与运维:性能优化、成本控制、监控告警。
○Agent的投资与盈利模式探讨
▪ARR的争议与实际衡量标准。
▪AI产品毛利低下的原因与“击鼓传花”现象。
▪模型成本下降与几何倍数消耗的悖论。
▪产品计价模式的调整与企业盈利策略。
AI Agent行业最新突破与展望
○Agent协议(如MCP)与大模型工具调用标准化。
○Agent基础设施热潮:记忆系统、上下文管理、浏览器/电脑使用等。
○硅基与碳基在互联网上的发展趋势:Agent运行对现有互联网生态的影响。
○“喜新厌旧”、“世界首个…”等行业营销乱象与“信商”的建立。
○对未来的思考:AI训练AI,自我进化的可能性与挑战。