课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

本课程聚焦大模型与 Agent 能力评测及质量保障前沿实践。课程详解 LLM 原理、Prompt 工程、RAG 及 Agent 设计模式,构建必备知识体系。重点剖析评测“道法术器”,涵盖流程、数据集、指标设计及基础设施架构。结合 AI 原生应用质量保障最佳实践,分享从测试到评测的转变策略及非确定性技术围栏。通过企业级案例(如智能客服、辅助编程),帮助学员掌握 AI 时代质量保障核心能力,应对大模型应用落地挑战。

目标收益

1、掌握大模型与 Agent 核心原理及主流设计模式。
2、构建大模型能力评测指标体系与数据集建设方法。
3、学习 AI 原生应用质量保障最佳实践与前沿案例。
4、理解评测基础设施架构设计与自动化评测策略。
5、获取专家指导,应对大模型应用落地质量挑战。

培训对象

1. 质量保障/测试工程师:从事软件测试、质量保障,希望掌握大模型与Agent评测方法的专业人员。

2. AI应用开发者与算法工程师:负责大模型应用落地、Agent开发,需了解能力评估与质量围栏的技术人员。

3. 研发效能工程师与技术管理者:关注AI时代研发流程变革、效能度量与质量体系建设的管理者。

4. 技术架构师/技术负责人:规划AI原生应用架构、设计评测基础设施与自动化策略的核心技术骨干。

5. AI产品经理:负责智能客服、辅助编程等AI产品设计,需理解评测指标与质量验收标准的产品人员。

课程大纲

掌握大模型和Agent能力评测必须理解的LLM知识体系 1.大语言模型的基本原理详解
2.LLM应用能力的进阶模型(“倒三角”模型)
3.提示的万能使用公式详解
4.提示词静态链的使用
5.提示词的横向扩展
6.提示词的纵向扩展
7.使用OpenAI API
8.ReAct的概念和实践
9.ReAct的短板与改进
10.思维链和多思维链
11.RAG的基本原理与应用
12.多模态RAG的使用
13.plugin机制与使用方式
14.Function Call机制与使用方式
15.MCP机制与使用方式
16.MCP机制的短板与解决思路
17.Skills机制与使用方式
18.Skills机制的短板与解决思路
19.Skills的高级使用技巧
掌握大模型和Agent能力评测必须理解的Agent知识体系 1.Agent的雏形
2.Agent开发的基本框架
3.Agent的设计模式
4.业界主流Agent的设计思路与使用
5.Multi-Agent的雏形
6.业界主流Multi-Agent的设计思路
7.多Agent任务调度策略与选型
8.Agent设计模式与选择
9.Agent设计模式:顺序执行链模式与案例详解
10.Agent设计模式:路由模式与案例详解
11.Agent设计模式:并行模式与案例详解
12.Agent设计模式:反思模式与案例详解
13.Agent设计模式:工具使用模式与案例详解
14.Agent设计模式:规划模式与案例详解
15.Agent设计模式:多智能体协作模式与案例详解
16.Agent设计模式:人类参与模式与案例详解
17.Agent设计模式:短期记忆管理模式与案例详解
18.Agent设计模式:长期记忆管理模式与案例详解
19.Multi-Agent的基本逻辑和应用范围
20.Multi-Agent应用示例:MetaGPT
21.Multi-Agent应用示例:DevChat
22.Manus的设计原理
23.OpenClaw的设计原理
24.OpenClaw的架构设计
大模型和Agent能力评测的道法术器 1.大模型评测和Agent评测的区别
2.大模型和Agent能力评测的基本流程
3.目前主流评测手段的主要问题
4.评测的数据污染问题
5.数据污染的处理手段和保鲜机制
6.评测的数据饱和问题
7.数据饱和程度的感知方式
8.评测的数据简化问题
9.评测的任务分类体系问题
10.评测的难度等级问题
11.大模型能力评测维度
12.Agent能力评测维度
13.评测数据集与基准建设
14.评测数据集的结构设计
15.从真实数据泛化衍生新数据的方法
16.评测指标与评价标准的设计原则
17.常见评测指标设计思路解读
18.自动评测的局限与业界常见误区
19.人工手动评测的必要性
20.评测运行基础设施的架构设计
21.案例解读:SWE-Bench和SWE-Bench-Verified的设计
22.案例解读:软件研发全生命周期的LLM应用能力评测
AI原生应用质量保障的最佳实践与案例解读 1.从“测试”到“评测”
2.AI原生应用的软件质量范畴衍生
3.非确定性的技术围栏
4.模型评测之外的质量保障
5.用魔法打败魔法的实践
6.AI原生应用质量保障的特殊性和难点
7.AI原生应用质量保障技术概览
8.AI原生应用质量保障的基本方法
9.AI原生应用质量保障的“可验证性”理论
10.区分模型能力和Agent能力
11.AI原生应用评测的完整流程
12.AI原生应用评测的数据集准备
13.AI原生应用质量全生命周期的扩展
14.AI原生应用评测的业界前沿实践
15.AI原生应用评测的发展方向
16.企业级案例:LLM辅助编程工具的评测与质量控制
17.企业级案例:智能客服系统的评测与质量控制
掌握大模型和Agent能力评测必须理解的LLM知识体系
1.大语言模型的基本原理详解
2.LLM应用能力的进阶模型(“倒三角”模型)
3.提示的万能使用公式详解
4.提示词静态链的使用
5.提示词的横向扩展
6.提示词的纵向扩展
7.使用OpenAI API
8.ReAct的概念和实践
9.ReAct的短板与改进
10.思维链和多思维链
11.RAG的基本原理与应用
12.多模态RAG的使用
13.plugin机制与使用方式
14.Function Call机制与使用方式
15.MCP机制与使用方式
16.MCP机制的短板与解决思路
17.Skills机制与使用方式
18.Skills机制的短板与解决思路
19.Skills的高级使用技巧
掌握大模型和Agent能力评测必须理解的Agent知识体系
1.Agent的雏形
2.Agent开发的基本框架
3.Agent的设计模式
4.业界主流Agent的设计思路与使用
5.Multi-Agent的雏形
6.业界主流Multi-Agent的设计思路
7.多Agent任务调度策略与选型
8.Agent设计模式与选择
9.Agent设计模式:顺序执行链模式与案例详解
10.Agent设计模式:路由模式与案例详解
11.Agent设计模式:并行模式与案例详解
12.Agent设计模式:反思模式与案例详解
13.Agent设计模式:工具使用模式与案例详解
14.Agent设计模式:规划模式与案例详解
15.Agent设计模式:多智能体协作模式与案例详解
16.Agent设计模式:人类参与模式与案例详解
17.Agent设计模式:短期记忆管理模式与案例详解
18.Agent设计模式:长期记忆管理模式与案例详解
19.Multi-Agent的基本逻辑和应用范围
20.Multi-Agent应用示例:MetaGPT
21.Multi-Agent应用示例:DevChat
22.Manus的设计原理
23.OpenClaw的设计原理
24.OpenClaw的架构设计
大模型和Agent能力评测的道法术器
1.大模型评测和Agent评测的区别
2.大模型和Agent能力评测的基本流程
3.目前主流评测手段的主要问题
4.评测的数据污染问题
5.数据污染的处理手段和保鲜机制
6.评测的数据饱和问题
7.数据饱和程度的感知方式
8.评测的数据简化问题
9.评测的任务分类体系问题
10.评测的难度等级问题
11.大模型能力评测维度
12.Agent能力评测维度
13.评测数据集与基准建设
14.评测数据集的结构设计
15.从真实数据泛化衍生新数据的方法
16.评测指标与评价标准的设计原则
17.常见评测指标设计思路解读
18.自动评测的局限与业界常见误区
19.人工手动评测的必要性
20.评测运行基础设施的架构设计
21.案例解读:SWE-Bench和SWE-Bench-Verified的设计
22.案例解读:软件研发全生命周期的LLM应用能力评测
AI原生应用质量保障的最佳实践与案例解读
1.从“测试”到“评测”
2.AI原生应用的软件质量范畴衍生
3.非确定性的技术围栏
4.模型评测之外的质量保障
5.用魔法打败魔法的实践
6.AI原生应用质量保障的特殊性和难点
7.AI原生应用质量保障技术概览
8.AI原生应用质量保障的基本方法
9.AI原生应用质量保障的“可验证性”理论
10.区分模型能力和Agent能力
11.AI原生应用评测的完整流程
12.AI原生应用评测的数据集准备
13.AI原生应用质量全生命周期的扩展
14.AI原生应用评测的业界前沿实践
15.AI原生应用评测的发展方向
16.企业级案例:LLM辅助编程工具的评测与质量控制
17.企业级案例:智能客服系统的评测与质量控制

课程费用

6800.00 /人

课程时长

2

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求