课程简介
本次为期 2 天的线下培训,旨在提升银行 IT 部门各业务线运维工程师、SRE、业务支持人员、数据中心运维及网络运维人员的实战能力。通过精简理论知识,增加行业实践案例、场景研讨与课后作业,使学员掌握 SRE、AIOps 与大模型、云原生(含容器和 K8s)以及 DevOps 在银行场景中的落地方法,提升解决实际运维问题的能力,助力银行 IT 系统高效稳定运行。
目标收益
1.学员清楚理解SRE核心理念和原则,加深对SRE的认知,掌握理清运维琐事的方法及消减琐事的方法,掌握通过SLO度量业务和系统的可靠性稳定性,量化的方式来看待业务质量;
2.理解大模型技术及其在运维中的应用价值,掌握大模型在不同运维场景下的具体实施方法,学习如何通过大模型提升运维效率和系统稳定性
提升对云原生技术的、Devops技术理解和技能,掌握 SRE、AIOps 与大模型、云原生(含容器和 K8s)以及 DevOps 在银行场景中的落地方法
培训对象
IT 部门各业务线的运维工程师、SRE(站点可靠性工程师)、业务支持人员、数据中心运维人员、网络运维人员。
课程大纲
第一天:SRE 从入门到进阶、AIOps 和大模型在运维领域的应用 上午:SRE 从入门到进阶 |
1.SRE 核心概念与价值定位(30 分钟) ◦精简讲解 SRE 与传统运维的核心区别,突出自动化驱动的运维,如减少人工干预、提升运维效率。 ◦运维团队琐事定义、分析方法和消减方法 2.案例分析:团队琐事的案例(30分钟) ◦琐事的收集、琐事的统计 ◦某科技公司消减琐事的案例 3.工作坊:团队琐事现状诊断(30 分钟) ◦任务:分组列出当前团队 3 项核心工作(如 “夜间巡检”“故障排查”)及 3 类高频琐事(如 “重复配置服务器”“手动生成报表”)。 ◦输出:用 “琐事占比 = 琐事耗时 / 总工时” 公式计算现状,讨论可自动化的优先项 4.从传统运维到 SRE 的演进及转型路径(30 分钟) ◦初级阶段:建立监控体系,实现基础告警自动化。 ◦中级阶段:引入 SLO 管理,推动琐事自动化(如脚本替代人工部署)、全链路可观测,故障自愈能力。 ◦高级阶段:SRE的体系,从 组织到流程,从工程到运营。 5.行业实践案例:某银行 SRE 转型实施之路(30 分钟) ◦介绍某公司最近2年 SRE 体系建设背景,包括核心交易系统运维痛点(如人工操作占比高、故障响应慢)。 ◦详解实施路径:从 “监控 - 告警 - 处置” 全流程自动化改造,到基于错误预算的发布策略调整(如信用卡系统灰度发布机制)。 ◦成效数据:核心系统可用性提升方法,运维人效提升,年故障减少 37% 6.工作坊:银行支付系统 SLO/SLI 设计(30 分钟) ◦场景设定:某银行支付系统日均交易量 1000 万笔,要求全年可用性 99.99%,交易响应时间平均≤500ms。 ◦任务:分组设计 SLO 指标(如可用性计算公式、响应时间阈值)、SLI 采集方案(监控点部署位置)及错误预算分配规则(如每月允许 43 分钟不可用的拆分逻辑)。 输出:各组提交设计方案,讲师点评银行实际案例中的优化思路。 7.课后训练作业 ◦任务:基于工作坊设计SLO/SLI的方法,为银行转账系统(所负责的系统)制定SLI/SLO,对比当前情况,初步规划达成的措施。 ◦要求:结合银行案例中的自动化工具,说明技术实现路径。 ◦评分标准:贴合银行业务(10 分)、可行性(10 分)、工具适配性(5 分)。 |
下午:AIOps与大模型、云原生与Devops |
1.AIOps 和大模型在运维领域的应用(13:30 - 18:00) ◦AIOps的演进过程:从规则到统计算法、到大模型for运维 ◦大模型的在运维领域的阶段应用及案例 ◦RAG相关技术和知识库基础,及快速演示,及初步优化 ◦智能体技术入门、Agent/A2A/MCP协议初步讲解 ◦基于大模型的知识库工作原理及多模态信息转化为知识信息的方法 ◦企业的运维知识,如何采集整理成为知识库 2.行业实践案例:某银行大模型运维助手(30 分钟) ◦案例背景:2024 年某头部国有科技公司部署基于 Deepseek架构的运维知识库,解决 70% 重复性咨询问题。 ◦关键功能:日志语义分析(如从 “转账超时” 日志中定位数据库连接池瓶颈)、故障自愈脚本生成(如自动编写 Redis 集群扩容脚本)。 ◦落地挑战:模型幻觉规避(通过知识库校验)、数据合规性(本地部署 + 权限管控)。 3.工作坊:智能故障诊断模拟(30 分钟) ◦场景:提供某银行信用卡系统崩溃前 1 小时的混合日志(应用日志、数据库慢查询、网络丢包记录)。 ◦任务:分组使用简化版大模型工具(模拟银行助手),输出故障根因分析报告(需包含 “日志关键词提取 - 关联分析 - 结论” 三步骤)。 4.训练作业(25 分) ◦任务:为银行系统(所负责系统)设计基于大模型应用排障方案,包含监控数据输入格式(如设备状态码、交易失败类型)、预期输出(如 “吞卡故障” 的排查步骤)、风险控制措施(如人工复核机制)。 ◦要求:参考行内案例的模型训练数据来源(如历史故障处理工单)。 ◦评分标准:场景贴合度(10 分)、风险控制(10 分)、创新性(5 分)。 |
第二天:云原生、容器、K8s 与 DevOps 上午:云原生、容器、K8s |
1.云原生核心技术解析(30 分钟) ◦聚焦云原生架构原理和容器隔离(Namespace/Cgroups)的技术、K8s 核心组件(API Server、Controller Manager)与银行场景适配点(如多租户隔离、数据持久化)。 ◦对比传统部署与容器化部署在银行核心系统中的差异。 2.行业实践案例:某核心系统容器化改造(30 分钟) ◦改造范围:2023 年完成系统容器化,涉及 120 个微服务、日均处理 30 万笔申请。 ◦关键动作:容器化改造的难点,基于 K8s 的自动扩缩容配置(如根据申请量动态调整 Pod 数量)、镜像安全扫描、灾备方案(跨可用区部署)。 ◦成效:部署时间从 4 小时缩短至 15 分钟,资源成本降低 25%。 3.工作坊:银行对账系统容器化设计(30 分钟) ◦场景:某银行对账系统需每日凌晨 2 点 - 6 点运行,处理 1000 万条交易记录,要求失败可重试。 ◦任务:分组设计 Dockerfile(基础镜像选择、资源限制)与 K8s 部署清单(Deployment 配置、Volume 挂载、配置项、密码安全的容器和改造)。 ◦输出:各组展示方案,讲师点评各组方案的优化点(如 init 容器预处理数据)。 4.训练作业(25 分) ◦任务:为工作坊设计的对账系统制定《K8s 监控告警方案》,包含关键指标(Pod 存活状态、CPU 使用率、对账完成率)、监控工具配置方法、告警分级策略(P1 级故障 5 分钟内通知到人)。 ◦要求:参考行内的监控可视化看板设计。 评分标准:指标完整性(10 分)、工具适配性(10 分)、可操作性(5 分)。 |
下午:DevOps |
1.DevOps 核心流程与工具链(60 分钟) ◦精简讲解持续集成(CI)、持续交付(CD)在银行的落地逻辑,聚焦工具链协同 ◦强调合规性:银行代码审计、权限管控与 DevOps 效率的平衡。 2.行业实践案例:某银行 DevOps 平台建设(60 分钟) ◦平台架构:2024 年上线的 DevOps 平台,覆盖从代码提交到生产部署全流程,支持手机银行 APP 迭代 ◦关键功能:代码合规扫描(集成 SonarQube,检测金融敏感操作风险)、自动化测试(API 测试 + 性能测试)、灰度发布(基于 Istio 的流量切分)。 ◦挑战解决:通过 “双态运维” 兼容核心系统(传统架构)与创新业务(DevOps 模式)。 3.工作坊:银行系统产品发布 DevOps 流程设计(30 分钟) ◦场景:某银行新理财产品(所负责系统)需通过开发、测试、预生产、生产四环境,涉及合规审核环节。 ◦任务:分组绘制流程图,明确各环节工具(如 Git管理代码、Jenkins 触发构建、Ansible 部署)与角色职责(开发、测试、运维、合规)。 ◦输出:各组展示流程,讲师对比案例中的审批自动化方案。 4.训练作业(25 分) ◦任务:为工作坊设计的流程编写《Jenkins Pipeline 脚本》,包含代码拉取、编译打包、自动化测试(调用 Jmeter 脚本)、合规检查(调用内部审计工具)等步骤。 ◦要求:标注关键节点的回滚机制(如测试失败自动停止流程)。 评分标准:流程完整性(10 分)、脚本可行性(10 分)、风险控制(5 分)。 |
第一天:SRE 从入门到进阶、AIOps 和大模型在运维领域的应用 上午:SRE 从入门到进阶 1.SRE 核心概念与价值定位(30 分钟) ◦精简讲解 SRE 与传统运维的核心区别,突出自动化驱动的运维,如减少人工干预、提升运维效率。 ◦运维团队琐事定义、分析方法和消减方法 2.案例分析:团队琐事的案例(30分钟) ◦琐事的收集、琐事的统计 ◦某科技公司消减琐事的案例 3.工作坊:团队琐事现状诊断(30 分钟) ◦任务:分组列出当前团队 3 项核心工作(如 “夜间巡检”“故障排查”)及 3 类高频琐事(如 “重复配置服务器”“手动生成报表”)。 ◦输出:用 “琐事占比 = 琐事耗时 / 总工时” 公式计算现状,讨论可自动化的优先项 4.从传统运维到 SRE 的演进及转型路径(30 分钟) ◦初级阶段:建立监控体系,实现基础告警自动化。 ◦中级阶段:引入 SLO 管理,推动琐事自动化(如脚本替代人工部署)、全链路可观测,故障自愈能力。 ◦高级阶段:SRE的体系,从 组织到流程,从工程到运营。 5.行业实践案例:某银行 SRE 转型实施之路(30 分钟) ◦介绍某公司最近2年 SRE 体系建设背景,包括核心交易系统运维痛点(如人工操作占比高、故障响应慢)。 ◦详解实施路径:从 “监控 - 告警 - 处置” 全流程自动化改造,到基于错误预算的发布策略调整(如信用卡系统灰度发布机制)。 ◦成效数据:核心系统可用性提升方法,运维人效提升,年故障减少 37% 6.工作坊:银行支付系统 SLO/SLI 设计(30 分钟) ◦场景设定:某银行支付系统日均交易量 1000 万笔,要求全年可用性 99.99%,交易响应时间平均≤500ms。 ◦任务:分组设计 SLO 指标(如可用性计算公式、响应时间阈值)、SLI 采集方案(监控点部署位置)及错误预算分配规则(如每月允许 43 分钟不可用的拆分逻辑)。 输出:各组提交设计方案,讲师点评银行实际案例中的优化思路。 7.课后训练作业 ◦任务:基于工作坊设计SLO/SLI的方法,为银行转账系统(所负责的系统)制定SLI/SLO,对比当前情况,初步规划达成的措施。 ◦要求:结合银行案例中的自动化工具,说明技术实现路径。 ◦评分标准:贴合银行业务(10 分)、可行性(10 分)、工具适配性(5 分)。 |
下午:AIOps与大模型、云原生与Devops 1.AIOps 和大模型在运维领域的应用(13:30 - 18:00) ◦AIOps的演进过程:从规则到统计算法、到大模型for运维 ◦大模型的在运维领域的阶段应用及案例 ◦RAG相关技术和知识库基础,及快速演示,及初步优化 ◦智能体技术入门、Agent/A2A/MCP协议初步讲解 ◦基于大模型的知识库工作原理及多模态信息转化为知识信息的方法 ◦企业的运维知识,如何采集整理成为知识库 2.行业实践案例:某银行大模型运维助手(30 分钟) ◦案例背景:2024 年某头部国有科技公司部署基于 Deepseek架构的运维知识库,解决 70% 重复性咨询问题。 ◦关键功能:日志语义分析(如从 “转账超时” 日志中定位数据库连接池瓶颈)、故障自愈脚本生成(如自动编写 Redis 集群扩容脚本)。 ◦落地挑战:模型幻觉规避(通过知识库校验)、数据合规性(本地部署 + 权限管控)。 3.工作坊:智能故障诊断模拟(30 分钟) ◦场景:提供某银行信用卡系统崩溃前 1 小时的混合日志(应用日志、数据库慢查询、网络丢包记录)。 ◦任务:分组使用简化版大模型工具(模拟银行助手),输出故障根因分析报告(需包含 “日志关键词提取 - 关联分析 - 结论” 三步骤)。 4.训练作业(25 分) ◦任务:为银行系统(所负责系统)设计基于大模型应用排障方案,包含监控数据输入格式(如设备状态码、交易失败类型)、预期输出(如 “吞卡故障” 的排查步骤)、风险控制措施(如人工复核机制)。 ◦要求:参考行内案例的模型训练数据来源(如历史故障处理工单)。 ◦评分标准:场景贴合度(10 分)、风险控制(10 分)、创新性(5 分)。 |
第二天:云原生、容器、K8s 与 DevOps 上午:云原生、容器、K8s 1.云原生核心技术解析(30 分钟) ◦聚焦云原生架构原理和容器隔离(Namespace/Cgroups)的技术、K8s 核心组件(API Server、Controller Manager)与银行场景适配点(如多租户隔离、数据持久化)。 ◦对比传统部署与容器化部署在银行核心系统中的差异。 2.行业实践案例:某核心系统容器化改造(30 分钟) ◦改造范围:2023 年完成系统容器化,涉及 120 个微服务、日均处理 30 万笔申请。 ◦关键动作:容器化改造的难点,基于 K8s 的自动扩缩容配置(如根据申请量动态调整 Pod 数量)、镜像安全扫描、灾备方案(跨可用区部署)。 ◦成效:部署时间从 4 小时缩短至 15 分钟,资源成本降低 25%。 3.工作坊:银行对账系统容器化设计(30 分钟) ◦场景:某银行对账系统需每日凌晨 2 点 - 6 点运行,处理 1000 万条交易记录,要求失败可重试。 ◦任务:分组设计 Dockerfile(基础镜像选择、资源限制)与 K8s 部署清单(Deployment 配置、Volume 挂载、配置项、密码安全的容器和改造)。 ◦输出:各组展示方案,讲师点评各组方案的优化点(如 init 容器预处理数据)。 4.训练作业(25 分) ◦任务:为工作坊设计的对账系统制定《K8s 监控告警方案》,包含关键指标(Pod 存活状态、CPU 使用率、对账完成率)、监控工具配置方法、告警分级策略(P1 级故障 5 分钟内通知到人)。 ◦要求:参考行内的监控可视化看板设计。 评分标准:指标完整性(10 分)、工具适配性(10 分)、可操作性(5 分)。 |
下午:DevOps 1.DevOps 核心流程与工具链(60 分钟) ◦精简讲解持续集成(CI)、持续交付(CD)在银行的落地逻辑,聚焦工具链协同 ◦强调合规性:银行代码审计、权限管控与 DevOps 效率的平衡。 2.行业实践案例:某银行 DevOps 平台建设(60 分钟) ◦平台架构:2024 年上线的 DevOps 平台,覆盖从代码提交到生产部署全流程,支持手机银行 APP 迭代 ◦关键功能:代码合规扫描(集成 SonarQube,检测金融敏感操作风险)、自动化测试(API 测试 + 性能测试)、灰度发布(基于 Istio 的流量切分)。 ◦挑战解决:通过 “双态运维” 兼容核心系统(传统架构)与创新业务(DevOps 模式)。 3.工作坊:银行系统产品发布 DevOps 流程设计(30 分钟) ◦场景:某银行新理财产品(所负责系统)需通过开发、测试、预生产、生产四环境,涉及合规审核环节。 ◦任务:分组绘制流程图,明确各环节工具(如 Git管理代码、Jenkins 触发构建、Ansible 部署)与角色职责(开发、测试、运维、合规)。 ◦输出:各组展示流程,讲师对比案例中的审批自动化方案。 4.训练作业(25 分) ◦任务:为工作坊设计的流程编写《Jenkins Pipeline 脚本》,包含代码拉取、编译打包、自动化测试(调用 Jmeter 脚本)、合规检查(调用内部审计工具)等步骤。 ◦要求:标注关键节点的回滚机制(如测试失败自动停止流程)。 评分标准:流程完整性(10 分)、脚本可行性(10 分)、风险控制(5 分)。 |