RAG知识库工程实战训练营-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

掌握核心架构：深入理解RAG系统的核心组件和工作原理。
精通全流程开发：能够独立完成从文档处理、向量化、检索到生成的全部工程环节。
学会性能优化：掌握评估RAG系统质量的关键指标，并学会使用高级技巧进行针对性优化。
具备架构思维：了解高级RAG模式和生产环境部署的考量，能够设计满足复杂需求的RAG系统。

目标收益

培训对象

开发者、算法工程师、数据工程师、技术负责人，以及任何需要构建企业级知识问答、智能客服等应用的技术人员。

课程内容

第一天：基础构建与核心流程实战
主题：从零到一，构建你的第一个RAG系统
上午 (09:00-12:00)
模块一：RAG导论与架构解析
1. RAG为何重要：解决LLM的幻觉、知识滞后和私有数据问题。
2. RAG核心工作流： Indexing（索引）和Retrieval & Generation（检索与生成）两阶段详解。
3. 技术选型全景图：介绍主流的嵌入模型、向量数据库、LLM和开发框架（LangChain/LlamaIndex）。
4. 环境搭建：配置Python环境，安装必要库（openai, chromadb, langchain等）。
实战练习1：
- 在Jupyter Notebook中快速验证一个最简单的RAG流程，使用公开的嵌入模型和ChatGPT API。
模块二：文档处理与向量化（Indexing阶段）
1. 文档加载：处理多种格式文档（PDF、Word、PPT、HTML、TXT）。
2. 文本分割：递归分割、固定大小滑动窗口等策略，及其对检索效果的影响。
3. 嵌入模型：选择标准（如MTEB排行榜），OpenAI vs. 开源模型（BGE、M3E等）。
4. 向量数据库：将向量存入ChromaDB/Pinecone/Milvus，并创建索引。
实战练习2：
- 给定一份产品手册PDF，编写代码完成加载、分割、向量化并存入ChromaDB的全过程。
- 对比不同分割策略（如chunk_size=500 vs 1000）对检索内容的影响。
下午 (13:30-17:30)
模块三：检索策略与核心技巧（Retrieval阶段）
1. 相似度检索：基础的语义相似度搜索（Top-K）。
2. 混合检索：结合语义搜索（向量）和关键词搜索（BM25）的Hybrid Search。
3. 重排序：使用交叉编码器等小型重排模型对初步检索结果进行精排，提升命中率。
4. 元数据过滤：利用文档来源、日期等元数据，在检索时进行高效过滤。
实战练习3：
- 实现基础的Top-K检索，并观察“多轮问答”中可能出现的上下文丢失问题。
- 实现Hybrid Search，并对比其与纯向量检索在特定关键词查询上的效果差异。
- 为文档添加“章节”元数据，并实现按章节过滤的检索。
模块四：提示工程与生成优化（Generation阶段）
1. 提示词模板设计：构建包含上下文、问题和历史对话的强大提示模板。
2. 引用与溯源：如何在生成的答案中明确标注引用的来源文档片段。
3. 拒绝回答机制：当检索到的上下文与问题无关时，如何让LLM礼貌地拒绝回答。
实战练习4：
- 设计一个包含角色、上下文和问题的提示词模板，并观察生成答案的质量和引用情况。
- 测试“拒绝回答”机制：提供一个无关上下文，看模型是否会生成幻觉答案。
第一天小结集成与演示
将前四个模块的代码集成，构建一个具备基础问答能力的命令行版知识库助手。
第二天：性能优化与生产级架构
主题：从“能用”到“好用”，打造高性能生产级RAG
上午 (09:00-12:00)
模块五：RAG系统的评估体系
1. 评估指标：检索阶段（命中率、MRR）、生成阶段（答案相关性、事实一致性、流畅度）。
2. 评估方法：人工评估、基于LLM的自动评估（使用GPT-4作为裁判）。
3. 构建测试集：如何从业务中提取和构造高质量的（问题，标准答案）对。
实战练习5：
- 使用RAGAS等评估框架，对第一天构建的系统进行自动化评估，生成评估报告。
- 分析评估报告，找出系统当前的薄弱环节（是检索不准还是生成不好？）。
模块六：高级RAG优化技巧
1. 索引阶段优化：
- 小颗粒度分割 + 父文档引用：解决细小信息丢失问题。
- 句子窗口检索：提升上下文连贯性。
2. 检索阶段优化：
- 查询重写/扩展：使用LLM对原始问题进行优化，提升检索效果。
- 多查询检索：生成多个相关问题，并行检索再合并结果。
3. 生成阶段优化：
- 思维链：让模型先推理再回答，提升复杂问题解答能力。
实战练习6：
- 实现“父文档引用”策略，解决一个需要跨越多个chunk才能回答的复杂问题。
- 实现一个简单的“查询扩展”功能，将“它怎么样？”扩展为“[产品名]的性能和口碑怎么样？”。
下午 (13:30-16:30)
模块七：高级架构与生产部署
1. RAG智能体：让RAG系统具备调用工具（如计算器、搜索引擎）的能力。
2. 图数据库增强：结合知识图谱，处理复杂的关联关系查询。
3. 生产环境考量：
- 异步处理与增量更新：如何处理海量文档和实时更新？
- 安全与权限：如何实现基于用户权限的文档检索？
- 可观测性：日志、监控与链路追踪。
实战练习7（可选）：
- 设计一个RAG智能体的工作流程，使其在回答“公司最新财报数据”时，能先检索内部文档，再调用网络搜索获取最新市场评论。
模块八：综合项目实战工作坊
分组项目：学员分组，选择一个场景并基于提供的复杂数据集，优化一个RAG系统。

可选场景：
- 技术文档助手：处理包含代码、配置的复杂技术文档。
- 金融研报分析员：从多份PDF研报中提取和对比关键信息。
- 法律条款查询系统：处理条款间相互引用的法律文档。
实战练习8：
- 小组协作，运用所有优化技巧，设计并实现一个高性能的RAG系统。
- 使用评估体系对优化前后的系统进行对比，量化性能提升。
- 准备最终的项目展示。
16:30-17:00 课程总结与未来展望
1. 核心知识回顾：串讲RAG工程全链路核心技术与优化点。
2. 技术趋势： RAG与Agent的融合、多模态RAG、端到端训练等。
3. 推荐学习路径与资源：开源项目、论文、社区。
4. 答疑与颁发证书。

RAG知识库工程实战训练营

张老师

前百度高级数据产品专家

课程费用

6800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

6800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

AI产品设计实践——toB场景

RAG知识库工程实战训练营

张老师

前百度 高级数据产品专家

课程费用

6800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

6800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

AI产品设计实践——toB场景

前百度高级数据产品专家