视觉大模型及其应用-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

课程讲授人是从事深度学习项目管理的人员，带队完成了数十个AI项目，内容不仅包括深度学习、机器学习、数据挖掘等具体技术要点，也包括AI的整体发展、现状、应用、商业价值、未来方向等，涵盖内容非常丰富。

目标收益

1，整体把握机器学习、深度学习、数据挖掘的发展方向
2，了解机器学习、深度学习、计算机视觉的技术框架
3，理解机器学习和深度学习的思维方式和关键技术
4，了解深度学习和机器学习在当前工业界的落地应用
5，了解AI顶会论文和最新技术热点

培训对象

课程大纲

第一节：OpenCV图像处理	Skimage/OpenCV来源、简介与安装将视频转换为图像序列图像可视化与几何作图 HSV、RGB与图像颜色空间的转换图像增强与(局部)直方图均衡化给予边缘和区域的图像分割 gamma矫正和对数矫正亮度区域检测与前景提取图像边缘检测/特征提取图像算子Gabor/Laplace/Prewitt/Sobel/Niblack/Wiener 图像形态学：开/闭/凸包/膨胀/腐蚀双边滤波器/小波降噪/wiener滤波角点检：Harris，Shi-Tomasi SIFT、SURF算法视频分析：Meanshift 和 Camshift 算法代码和案例实践：不同算子下的图像卷积图像边缘检测与提取前景分割与图像融合 regional maxima检测与应用
第二节：卷积神经网络高级应用	Inception-V3/V4 ResNet、DenseNet 使用迁移学习实现蒙古文识别获取中间隐层的特征及可视化隐层特征的意义和使用迁移学习的trick 学习率、衰减、冻结等问题代码和案例实践：数字图片分类卷积核与特征提取以图搜图人证合一卷积神经网络调参经验分享猫狗大战详解海量蒙古文识别隐特征可视化及其应用
第三节：重点：目标检测	视频关键帧处理卷积的位置不变形与图像定位的关系物体检测与定位 RCNN，Fast-RCNN，Faster-RCNN，MaskRCNN YOLOv4、SSD UNet及其与残差网络的结合 FaceNet与特征 EfficientNet、EfficientDet 视频帧的目标定位时空卷积网络 SlowFast 代码和案例实践：人脸检测 OCR字体定位和识别睿客识云气象识别视频分类的trick 政务大厅视频监控的真实系统
第四节：变分自编码器VAE、生成对抗网络GAN、扩散模型DM	自编码器的意义使用AE做特征提取脸部各种特效是如何实现的生成模型：贝叶斯、HMM到深度生成模型 GAN对抗生成神经网络 DCGAN Conditional GAN GAN-VAE-流模型-扩散模型的技术发展和变化 CLIP和扩散模型的结合：基于CLIP模型的多模态引导图像生成：图文引导 Diffusion-CLIP模型扩散和去噪(Diffusion&Denoise) 训练和采样(Training&Sampling) 离散步骤的马尔可夫链分子热动力学的扩散过程离散加噪 DDPM-最经典的扩散模型 DDIM：加速采样、可控扩散 IVLR：迭代去燥的图像编辑，低通滤波上采样代码和案例实践：低质量噪声图像修复精确复原原图图像去除遮挡、图像补全图像生成（人物恢复青春、人物变瘦）
第五节：多模态模型	多模态的缘起：图像和文本任务的复杂性多模态模型的典型拓扑结构：Unicoder-VL、多层transformer结构 VisualBERT模型结构在图像文本上的应用 ViLBERT结构及其改进 VideoBERT模型实现文本与视频互转 BERT-Large模型基于Transformer的多模态结构总结 CLIP和扩散模型的结合基于CLIP模型的多模态引导图像生成：图文引导 GLIDE：文本引导 DALL·E 2：diffusion model和CLIP结合在一起 Diffusion-CLIP模型 FLAVA模型在模型参数上的探索代码和案例实践：上述多模态模型结构的代码复现和实践价值
第六节：近3个月发布的主流大模型和Agent技术对比与选型	1典型大模型比较 GPT-4（OpenAI） Claude3.7（Anthropic） Gemini 2.5（Google） Llama4（Meta） Qwen3（阿里） Coze（字节跳动） DeepSeek（深度求索-幻方量化） Dify 2 模型选择 Deepseek-R1 (7B/32B/70B/671B)：中文领域表现SOTA，支持长上下文推理 Llama-3 (8B/70B)：Meta最新开源模型，多语言通用底座 Mistral-8x7B：MoE架构标杆，推理效率提升3倍 QwQ-32B：阿里千问开源版 3 基础环境搭建实操 硬件要求：至少24GB显存（如RTX 3090/A10） + 64GB内存 软件依赖： oCUDA 12.1 + cuDNN 8.9 oPyTorch 2.2 + Transformers 4.38 oFlashAttention-2加速库 oOllama、vLLM、AngthingLLM等平台的安装
第七节：本地大模型私有化部署实操	1 Deepseek-R1蒸馏版的部署实操 1.模型获取： o通过HuggingFace官方仓库申请权限 o下载deepseek-r1-7B、8B、32B、70B的safetensors格式权重 2.推理服务启动 o关键参数trust_remote_code、max_model_len等的讲解 o解释器多种启动服务方式对比 3.服务验证 o代码调用 o服务API的参数设置 2 Deepseek-R1 671B满血版的部署流程 1.模型获取： oHuggingFace/Modelscope/github的参数下载 2.硬件配置说明 o16张A100，700G显存的刚性支持 o2T硬盘空间，权重文件和临时文件 3.对标模型的比较 oQwQ系列的突然开源 o解释阿里的32B是如何对抗671B的模型的 3 Llama-3-8B快速部署 1.量化加速 oFP8的特点 o对比Deepseek原论文中量化章节的解读 2.REST API调用： o深度学习系统部署的常用方式 o针对AI算法的部署框架
第八节：使用蒸馏的大模型完成微调、数据准备过程、模型训练代码实践	1 Deepseek-R1领域数据微调 1.数据准备： o格式：JSONL文件，每条含instruction/input/output o数据源：财报、券商研报、金融问答对、运营商问答对、意图识别数据 o关键处理：使用SentencePiece重组专业术语tokenization 2.QLoRA训练配置 o微调在大模型中的常用方法 o多种LoRA方式的对别 3.启动训练 o显存优化 oGPU并行 2 探讨适合微调的业务场景 o阐述项目中RAG模式和LoRA模式的选择 o探讨微调方案的优势，分析不适合微调的场景
第九节：MCP协议及其生态协议A2A	1、MCP 技术核心内容协议架构与设计原理客户端-服务器模型：MCP Host、Client、Server的交互逻辑上下文感知与多步骤任务任务链式调用，通过多次工具调用完成复杂推理关键技术特性：介绍 JSON-RPC 2.0 安全机制：沙盒隔离、零信任架构、敏感数据本地化处理在 IDE 中直接调用代码审查、数据库查询、整合影像与表格数据等应用场景 2、A2A 技术核心内容协议架构与协作机制任务状态管理：任务提交、处理中和完成/失败的全生命周期管理动态代理发现：Agent Card 元数据文件、权限协商与功能匹配关键技术特性：安全设计、高并发支持、多Agent协同复杂任务分解 3、其他相关配套技术与工具底层通信协议 WebSocket适配云端与边缘计算场景开发框架与生态生态工具Mintlify、OpenTools 分布式训练框架PyTorch Distributed、DeepSpeed
第十节：大模型高性能计算和集群组网	1 性能加速方案 量化压缩： oGPTQ 4bit量化使模型体积减少70% o采用DeepseekV3提出的MTP技术实现tokens 缓存策略： oKV Cache分块存储，降低重复计算 o高频问题回答预生成 2 硬件与加速器技术 了解GPU/TPU架构：NVIDIA Ampere、NVIDIA Hopper、Google TPU 高速互联技术：NVLink、InfiniBand、RoCE的性能对比与配置 异构计算：CPU-GPU协同工作、多卡并行策略 3 存储解决方案 分布式存储系统选型：Ceph、HDFS、GlusterFS 数据编排：Alluxio、Apache Arrow等内存加速 数据预处理优化：并行数据加载、可选的格式转换 4 集群架构设计 架构模式：参数服务器、对等网络Ring AllReduce 弹性伸缩设计：动态扩缩容策略，应对负载波动 多租户隔离：资源配额、容器隔离技术cgroups 5 资源管理与调度 调度器：Kubernetes、Slurm、YARN的使用 任务编排：Airflow、Argo Workflow在流水线中的应用 资源优化：Bin Packing算法、抢占式调度 6 通信库与优化 高性能通信库：NCCL、OpenMPI、gRPC的调优 压缩技术：梯度量化（如FP16、FP8）、稀疏通信

第一节：OpenCV图像处理

Skimage/OpenCV来源、简介与安装
将视频转换为图像序列
图像可视化与几何作图
HSV、RGB与图像颜色空间的转换
图像增强与(局部)直方图均衡化
给予边缘和区域的图像分割
gamma矫正和对数矫正
亮度区域检测与前景提取
图像边缘检测/特征提取
图像算子Gabor/Laplace/Prewitt/Sobel/Niblack/Wiener
图像形态学：开/闭/凸包/膨胀/腐蚀
双边滤波器/小波降噪/wiener滤波
角点检：Harris，Shi-Tomasi
SIFT、SURF算法
视频分析：Meanshift 和 Camshift 算法
代码和案例实践：
不同算子下的图像卷积
图像边缘检测与提取
前景分割与图像融合
regional maxima检测与应用

第二节：卷积神经网络高级应用

Inception-V3/V4
ResNet、DenseNet
使用迁移学习实现蒙古文识别
获取中间隐层的特征及可视化
隐层特征的意义和使用
迁移学习的trick
学习率、衰减、冻结等问题
代码和案例实践：
数字图片分类
卷积核与特征提取
以图搜图
人证合一
卷积神经网络调参经验分享
猫狗大战详解
海量蒙古文识别
隐特征可视化及其应用

第三节：重点：目标检测

视频关键帧处理
卷积的位置不变形与图像定位的关系
物体检测与定位
RCNN，Fast-RCNN，Faster-RCNN，MaskRCNN
YOLOv4、SSD
UNet及其与残差网络的结合
FaceNet与特征
EfficientNet、EfficientDet
视频帧的目标定位
时空卷积网络
SlowFast
代码和案例实践：
人脸检测
OCR字体定位和识别
睿客识云
气象识别
视频分类的trick
政务大厅视频监控的真实系统

第四节：变分自编码器VAE、生成对抗网络GAN、扩散模型DM

自编码器的意义
使用AE做特征提取
脸部各种特效是如何实现的
生成模型：贝叶斯、HMM到深度生成模型
GAN对抗生成神经网络
DCGAN
Conditional GAN
GAN-VAE-流模型-扩散模型的技术发展和变化
CLIP和扩散模型的结合：基于CLIP模型的多模态引导图像生成：图文引导
Diffusion-CLIP模型
扩散和去噪(Diffusion&Denoise)
训练和采样(Training&Sampling)
离散步骤的马尔可夫链
分子热动力学的扩散过程
离散加噪
DDPM-最经典的扩散模型
DDIM：加速采样、可控扩散
IVLR：迭代去燥的图像编辑，低通滤波上采样
代码和案例实践：
低质量噪声图像修复
精确复原原图
图像去除遮挡、图像补全
图像生成（人物恢复青春、人物变瘦）

第五节：多模态模型

多模态的缘起：图像和文本任务的复杂性
多模态模型的典型拓扑结构：Unicoder-VL、多层transformer结构
VisualBERT模型结构在图像文本上的应用
ViLBERT结构及其改进
VideoBERT模型
实现文本与视频互转
BERT-Large模型
基于Transformer的多模态结构总结
CLIP和扩散模型的结合
基于CLIP模型的多模态引导图像生成：图文引导
GLIDE：文本引导
DALL·E 2：diffusion model和CLIP结合在一起
Diffusion-CLIP模型
FLAVA模型在模型参数上的探索
代码和案例实践：
上述多模态模型结构的代码复现和实践价值

第六节：近3个月发布的主流大模型和Agent技术对比与选型

1典型大模型比较
GPT-4（OpenAI）
Claude3.7（Anthropic）
Gemini 2.5（Google）
Llama4（Meta）
Qwen3（阿里）
Coze（字节跳动）
DeepSeek（深度求索-幻方量化）
Dify
2 模型选择
Deepseek-R1 (7B/32B/70B/671B)：中文领域表现SOTA，支持长上下文推理
Llama-3 (8B/70B)：Meta最新开源模型，多语言通用底座
Mistral-8x7B：MoE架构标杆，推理效率提升3倍
QwQ-32B：阿里千问开源版
3 基础环境搭建实操
硬件要求：至少24GB显存（如RTX 3090/A10） + 64GB内存
软件依赖：
oCUDA 12.1 + cuDNN 8.9
oPyTorch 2.2 + Transformers 4.38
oFlashAttention-2加速库
oOllama、vLLM、AngthingLLM等平台的安装

第七节：本地大模型私有化部署实操

1 Deepseek-R1蒸馏版的部署实操
1.模型获取：
o通过HuggingFace官方仓库申请权限
o下载deepseek-r1-7B、8B、32B、70B的safetensors格式权重
2.推理服务启动
o关键参数trust_remote_code、max_model_len等的讲解
o解释器多种启动服务方式对比
3.服务验证
o代码调用
o服务API的参数设置
2 Deepseek-R1 671B满血版的部署流程
1.模型获取：
oHuggingFace/Modelscope/github的参数下载
2.硬件配置说明
o16张A100，700G显存的刚性支持
o2T硬盘空间，权重文件和临时文件
3.对标模型的比较
oQwQ系列的突然开源
o解释阿里的32B是如何对抗671B的模型的
3 Llama-3-8B快速部署
1.量化加速
oFP8的特点
o对比Deepseek原论文中量化章节的解读
2.REST API调用：
o深度学习系统部署的常用方式
o针对AI算法的部署框架

第八节：使用蒸馏的大模型完成微调、数据准备过程、模型训练代码实践

1 Deepseek-R1领域数据微调
1.数据准备：
o格式：JSONL文件，每条含instruction/input/output
o数据源：财报、券商研报、金融问答对、运营商问答对、意图识别数据
o关键处理：使用SentencePiece重组专业术语tokenization
2.QLoRA训练配置
o微调在大模型中的常用方法
o多种LoRA方式的对别
3.启动训练
o显存优化
oGPU并行
2 探讨适合微调的业务场景
o阐述项目中RAG模式和LoRA模式的选择
o探讨微调方案的优势，分析不适合微调的场景

第九节：MCP协议及其生态协议A2A

1、MCP 技术核心内容
协议架构与设计原理
客户端-服务器模型：MCP Host、Client、Server的交互逻辑
上下文感知与多步骤任务
任务链式调用，通过多次工具调用完成复杂推理
关键技术特性：介绍 JSON-RPC 2.0
安全机制：沙盒隔离、零信任架构、敏感数据本地化处理
在 IDE 中直接调用代码审查、数据库查询、整合影像与表格数据等应用场景
2、A2A 技术核心内容
协议架构与协作机制
任务状态管理：任务提交、处理中和完成/失败的全生命周期管理
动态代理发现：Agent Card 元数据文件、权限协商与功能匹配
关键技术特性：安全设计、高并发支持、多Agent协同
复杂任务分解
3、其他相关配套技术与工具
底层通信协议
WebSocket适配云端与边缘计算场景
开发框架与生态
生态工具Mintlify、OpenTools
分布式训练框架PyTorch Distributed、DeepSpeed

第十节：大模型高性能计算和集群组网

1 性能加速方案
量化压缩：
oGPTQ 4bit量化使模型体积减少70%
o采用DeepseekV3提出的MTP技术实现tokens
缓存策略：
oKV Cache分块存储，降低重复计算
o高频问题回答预生成
2 硬件与加速器技术
了解GPU/TPU架构：NVIDIA Ampere、NVIDIA Hopper、Google TPU
高速互联技术：NVLink、InfiniBand、RoCE的性能对比与配置
异构计算：CPU-GPU协同工作、多卡并行策略
3 存储解决方案
分布式存储系统选型：Ceph、HDFS、GlusterFS
数据编排：Alluxio、Apache Arrow等内存加速
数据预处理优化：并行数据加载、可选的格式转换
4 集群架构设计
架构模式：参数服务器、对等网络Ring AllReduce
弹性伸缩设计：动态扩缩容策略，应对负载波动
多租户隔离：资源配额、容器隔离技术cgroups
5 资源管理与调度
调度器：Kubernetes、Slurm、YARN的使用
任务编排：Airflow、Argo Workflow在流水线中的应用
资源优化：Bin Packing算法、抢占式调度
6 通信库与优化
高性能通信库：NCCL、OpenMPI、gRPC的调优
压缩技术：梯度量化（如FP16、FP8）、稀疏通信

视觉大模型及其应用

邹老师

长春工业大学人工智能学院院长

课程费用

5800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程大纲

课程评论

课程费用

5800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

AI产品经理训练营

视觉大模型及其应用

邹老师

长春工业大学 人工智能学院院长

课程费用

5800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程大纲

课程评论

课程费用

5800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

AI产品经理训练营

长春工业大学人工智能学院院长