课程费用

5800.00 /人

课程时长

2

成为教练

课程简介

课程讲授人是从事深度学习项目管理的人员,带队完成了数十个AI项目,内容不仅包括深度学习、机器学习、数据挖掘等具体技术要点,也包括AI的整体发展、现状、应用、商业价值、未来方向等,涵盖内容非常丰富。

目标收益

1,整体把握机器学习、深度学习、数据挖掘的发展方向
2,了解机器学习、深度学习、计算机视觉的技术框架
3,理解机器学习和深度学习的思维方式和关键技术
4,了解深度学习和机器学习在当前工业界的落地应用
5,了解AI顶会论文和最新技术热点

培训对象

课程大纲

第一节:OpenCV图像处理 Skimage/OpenCV来源、简介与安装
将视频转换为图像序列
图像可视化与几何作图
HSV、RGB与图像颜色空间的转换
图像增强与(局部)直方图均衡化
给予边缘和区域的图像分割
gamma矫正和对数矫正
亮度区域检测与前景提取
图像边缘检测/特征提取
图像算子Gabor/Laplace/Prewitt/Sobel/Niblack/Wiener
图像形态学:开/闭/凸包/膨胀/腐蚀
双边滤波器/小波降噪/wiener滤波
角点检:Harris,Shi-Tomasi
SIFT、SURF算法
视频分析:Meanshift 和 Camshift 算法
代码和案例实践:
不同算子下的图像卷积
图像边缘检测与提取
前景分割与图像融合
regional maxima检测与应用
第二节:卷积神经网络高级应用 Inception-V3/V4
ResNet、DenseNet
使用迁移学习实现蒙古文识别
获取中间隐层的特征及可视化
隐层特征的意义和使用
迁移学习的trick
学习率、衰减、冻结等问题
代码和案例实践:
数字图片分类
卷积核与特征提取
以图搜图
人证合一
卷积神经网络调参经验分享
猫狗大战详解
海量蒙古文识别
隐特征可视化及其应用
第三节:重点:目标检测 视频关键帧处理
卷积的位置不变形与图像定位的关系
物体检测与定位
RCNN,Fast-RCNN,Faster-RCNN,MaskRCNN
YOLOv4、SSD
UNet及其与残差网络的结合
FaceNet与特征
EfficientNet、EfficientDet
视频帧的目标定位
时空卷积网络
SlowFast
代码和案例实践:
人脸检测
OCR字体定位和识别
睿客识云
气象识别
视频分类的trick
政务大厅视频监控的真实系统
第四节:变分自编码器VAE、生成对抗网络GAN、扩散模型DM 自编码器的意义
使用AE做特征提取
脸部各种特效是如何实现的
生成模型:贝叶斯、HMM到深度生成模型
GAN对抗生成神经网络
DCGAN
Conditional GAN
GAN-VAE-流模型-扩散模型的技术发展和变化
CLIP和扩散模型的结合:基于CLIP模型的多模态引导图像生成:图文引导
Diffusion-CLIP模型
扩散和去噪(Diffusion&Denoise)
训练和采样(Training&Sampling)
离散步骤的马尔可夫链
分子热动力学的扩散过程
离散加噪
DDPM-最经典的扩散模型
DDIM:加速采样、可控扩散
IVLR:迭代去燥的图像编辑,低通滤波上采样
代码和案例实践:
低质量噪声图像修复
精确复原原图
图像去除遮挡、图像补全
图像生成(人物恢复青春、人物变瘦)
第五节:多模态模型 多模态的缘起:图像和文本任务的复杂性
多模态模型的典型拓扑结构:Unicoder-VL、多层transformer结构
VisualBERT模型结构在图像文本上的应用
ViLBERT结构及其改进
VideoBERT模型
实现文本与视频互转
BERT-Large模型
基于Transformer的多模态结构总结
CLIP和扩散模型的结合
基于CLIP模型的多模态引导图像生成:图文引导
GLIDE:文本引导
DALL·E 2:diffusion model和CLIP结合在一起
Diffusion-CLIP模型
FLAVA模型在模型参数上的探索
代码和案例实践:
上述多模态模型结构的代码复现和实践价值
第六节:近3个月发布的主流大模型和Agent技术对比与选型 1典型大模型比较
GPT-4(OpenAI)
Claude3.7(Anthropic)
Gemini 2.5(Google)
Llama4(Meta)
Qwen3(阿里)
Coze(字节跳动)
DeepSeek(深度求索-幻方量化)
Dify
2 模型选择
Deepseek-R1 (7B/32B/70B/671B):中文领域表现SOTA,支持长上下文推理
Llama-3 (8B/70B):Meta最新开源模型,多语言通用底座
Mistral-8x7B:MoE架构标杆,推理效率提升3倍
QwQ-32B:阿里千问开源版
3 基础环境搭建实操
硬件要求:至少24GB显存(如RTX 3090/A10) + 64GB内存
软件依赖:
oCUDA 12.1 + cuDNN 8.9
oPyTorch 2.2 + Transformers 4.38
oFlashAttention-2加速库
oOllama、vLLM、AngthingLLM等平台的安装
第七节:本地大模型私有化部署实操 1 Deepseek-R1蒸馏版的部署实操
1.模型获取:
o通过HuggingFace官方仓库申请权限
o下载deepseek-r1-7B、8B、32B、70B的safetensors格式权重
2.推理服务启动
o关键参数trust_remote_code、max_model_len等的讲解
o解释器多种启动服务方式对比
3.服务验证
o代码调用
o服务API的参数设置
2 Deepseek-R1 671B满血版的部署流程
1.模型获取:
oHuggingFace/Modelscope/github的参数下载
2.硬件配置说明
o16张A100,700G显存的刚性支持
o2T硬盘空间,权重文件和临时文件
3.对标模型的比较
oQwQ系列的突然开源
o解释阿里的32B是如何对抗671B的模型的
3 Llama-3-8B快速部署
1.量化加速
oFP8的特点
o对比Deepseek原论文中量化章节的解读
2.REST API调用:
o深度学习系统部署的常用方式
o针对AI算法的部署框架
第八节:使用蒸馏的大模型完成微调、数据准备过程、模型训练代码实践 1 Deepseek-R1领域数据微调
1.数据准备:
o格式:JSONL文件,每条含instruction/input/output
o数据源:财报、券商研报、金融问答对、运营商问答对、意图识别数据
o关键处理:使用SentencePiece重组专业术语tokenization
2.QLoRA训练配置
o微调在大模型中的常用方法
o多种LoRA方式的对别
3.启动训练
o显存优化
oGPU并行
2 探讨适合微调的业务场景
o阐述项目中RAG模式和LoRA模式的选择
o探讨微调方案的优势,分析不适合微调的场景
第九节:MCP协议及其生态协议A2A 1、MCP 技术核心内容
协议架构与设计原理
客户端-服务器模型:MCP Host、Client、Server的交互逻辑
上下文感知与多步骤任务
任务链式调用,通过多次工具调用完成复杂推理
关键技术特性:介绍 JSON-RPC 2.0
安全机制:沙盒隔离、零信任架构、敏感数据本地化处理
在 IDE 中直接调用代码审查、数据库查询、整合影像与表格数据等应用场景
2、A2A 技术核心内容
协议架构与协作机制
任务状态管理:任务提交、处理中和完成/失败的全生命周期管理
动态代理发现:Agent Card 元数据文件、权限协商与功能匹配
关键技术特性:安全设计、高并发支持、多Agent协同
复杂任务分解
3、其他相关配套技术与工具
底层通信协议
WebSocket适配云端与边缘计算场景
开发框架与生态
生态工具Mintlify、OpenTools
分布式训练框架PyTorch Distributed、DeepSpeed
第十节:大模型高性能计算和集群组网 1 性能加速方案
量化压缩:
oGPTQ 4bit量化使模型体积减少70%
o采用DeepseekV3提出的MTP技术实现tokens
缓存策略:
oKV Cache分块存储,降低重复计算
o高频问题回答预生成
2 硬件与加速器技术
了解GPU/TPU架构:NVIDIA Ampere、NVIDIA Hopper、Google TPU
高速互联技术:NVLink、InfiniBand、RoCE的性能对比与配置
异构计算:CPU-GPU协同工作、多卡并行策略
3 存储解决方案
分布式存储系统选型:Ceph、HDFS、GlusterFS
数据编排:Alluxio、Apache Arrow等内存加速
数据预处理优化:并行数据加载、可选的格式转换
4 集群架构设计
架构模式:参数服务器、对等网络Ring AllReduce
弹性伸缩设计:动态扩缩容策略,应对负载波动
多租户隔离:资源配额、容器隔离技术cgroups
5 资源管理与调度
调度器:Kubernetes、Slurm、YARN的使用
任务编排:Airflow、Argo Workflow在流水线中的应用
资源优化:Bin Packing算法、抢占式调度
6 通信库与优化
高性能通信库:NCCL、OpenMPI、gRPC的调优
压缩技术:梯度量化(如FP16、FP8)、稀疏通信
第一节:OpenCV图像处理
Skimage/OpenCV来源、简介与安装
将视频转换为图像序列
图像可视化与几何作图
HSV、RGB与图像颜色空间的转换
图像增强与(局部)直方图均衡化
给予边缘和区域的图像分割
gamma矫正和对数矫正
亮度区域检测与前景提取
图像边缘检测/特征提取
图像算子Gabor/Laplace/Prewitt/Sobel/Niblack/Wiener
图像形态学:开/闭/凸包/膨胀/腐蚀
双边滤波器/小波降噪/wiener滤波
角点检:Harris,Shi-Tomasi
SIFT、SURF算法
视频分析:Meanshift 和 Camshift 算法
代码和案例实践:
不同算子下的图像卷积
图像边缘检测与提取
前景分割与图像融合
regional maxima检测与应用
第二节:卷积神经网络高级应用
Inception-V3/V4
ResNet、DenseNet
使用迁移学习实现蒙古文识别
获取中间隐层的特征及可视化
隐层特征的意义和使用
迁移学习的trick
学习率、衰减、冻结等问题
代码和案例实践:
数字图片分类
卷积核与特征提取
以图搜图
人证合一
卷积神经网络调参经验分享
猫狗大战详解
海量蒙古文识别
隐特征可视化及其应用
第三节:重点:目标检测
视频关键帧处理
卷积的位置不变形与图像定位的关系
物体检测与定位
RCNN,Fast-RCNN,Faster-RCNN,MaskRCNN
YOLOv4、SSD
UNet及其与残差网络的结合
FaceNet与特征
EfficientNet、EfficientDet
视频帧的目标定位
时空卷积网络
SlowFast
代码和案例实践:
人脸检测
OCR字体定位和识别
睿客识云
气象识别
视频分类的trick
政务大厅视频监控的真实系统
第四节:变分自编码器VAE、生成对抗网络GAN、扩散模型DM
自编码器的意义
使用AE做特征提取
脸部各种特效是如何实现的
生成模型:贝叶斯、HMM到深度生成模型
GAN对抗生成神经网络
DCGAN
Conditional GAN
GAN-VAE-流模型-扩散模型的技术发展和变化
CLIP和扩散模型的结合:基于CLIP模型的多模态引导图像生成:图文引导
Diffusion-CLIP模型
扩散和去噪(Diffusion&Denoise)
训练和采样(Training&Sampling)
离散步骤的马尔可夫链
分子热动力学的扩散过程
离散加噪
DDPM-最经典的扩散模型
DDIM:加速采样、可控扩散
IVLR:迭代去燥的图像编辑,低通滤波上采样
代码和案例实践:
低质量噪声图像修复
精确复原原图
图像去除遮挡、图像补全
图像生成(人物恢复青春、人物变瘦)
第五节:多模态模型
多模态的缘起:图像和文本任务的复杂性
多模态模型的典型拓扑结构:Unicoder-VL、多层transformer结构
VisualBERT模型结构在图像文本上的应用
ViLBERT结构及其改进
VideoBERT模型
实现文本与视频互转
BERT-Large模型
基于Transformer的多模态结构总结
CLIP和扩散模型的结合
基于CLIP模型的多模态引导图像生成:图文引导
GLIDE:文本引导
DALL·E 2:diffusion model和CLIP结合在一起
Diffusion-CLIP模型
FLAVA模型在模型参数上的探索
代码和案例实践:
上述多模态模型结构的代码复现和实践价值
第六节:近3个月发布的主流大模型和Agent技术对比与选型
1典型大模型比较
GPT-4(OpenAI)
Claude3.7(Anthropic)
Gemini 2.5(Google)
Llama4(Meta)
Qwen3(阿里)
Coze(字节跳动)
DeepSeek(深度求索-幻方量化)
Dify
2 模型选择
Deepseek-R1 (7B/32B/70B/671B):中文领域表现SOTA,支持长上下文推理
Llama-3 (8B/70B):Meta最新开源模型,多语言通用底座
Mistral-8x7B:MoE架构标杆,推理效率提升3倍
QwQ-32B:阿里千问开源版
3 基础环境搭建实操
硬件要求:至少24GB显存(如RTX 3090/A10) + 64GB内存
软件依赖:
oCUDA 12.1 + cuDNN 8.9
oPyTorch 2.2 + Transformers 4.38
oFlashAttention-2加速库
oOllama、vLLM、AngthingLLM等平台的安装
第七节:本地大模型私有化部署实操
1 Deepseek-R1蒸馏版的部署实操
1.模型获取:
o通过HuggingFace官方仓库申请权限
o下载deepseek-r1-7B、8B、32B、70B的safetensors格式权重
2.推理服务启动
o关键参数trust_remote_code、max_model_len等的讲解
o解释器多种启动服务方式对比
3.服务验证
o代码调用
o服务API的参数设置
2 Deepseek-R1 671B满血版的部署流程
1.模型获取:
oHuggingFace/Modelscope/github的参数下载
2.硬件配置说明
o16张A100,700G显存的刚性支持
o2T硬盘空间,权重文件和临时文件
3.对标模型的比较
oQwQ系列的突然开源
o解释阿里的32B是如何对抗671B的模型的
3 Llama-3-8B快速部署
1.量化加速
oFP8的特点
o对比Deepseek原论文中量化章节的解读
2.REST API调用:
o深度学习系统部署的常用方式
o针对AI算法的部署框架
第八节:使用蒸馏的大模型完成微调、数据准备过程、模型训练代码实践
1 Deepseek-R1领域数据微调
1.数据准备:
o格式:JSONL文件,每条含instruction/input/output
o数据源:财报、券商研报、金融问答对、运营商问答对、意图识别数据
o关键处理:使用SentencePiece重组专业术语tokenization
2.QLoRA训练配置
o微调在大模型中的常用方法
o多种LoRA方式的对别
3.启动训练
o显存优化
oGPU并行
2 探讨适合微调的业务场景
o阐述项目中RAG模式和LoRA模式的选择
o探讨微调方案的优势,分析不适合微调的场景
第九节:MCP协议及其生态协议A2A
1、MCP 技术核心内容
协议架构与设计原理
客户端-服务器模型:MCP Host、Client、Server的交互逻辑
上下文感知与多步骤任务
任务链式调用,通过多次工具调用完成复杂推理
关键技术特性:介绍 JSON-RPC 2.0
安全机制:沙盒隔离、零信任架构、敏感数据本地化处理
在 IDE 中直接调用代码审查、数据库查询、整合影像与表格数据等应用场景
2、A2A 技术核心内容
协议架构与协作机制
任务状态管理:任务提交、处理中和完成/失败的全生命周期管理
动态代理发现:Agent Card 元数据文件、权限协商与功能匹配
关键技术特性:安全设计、高并发支持、多Agent协同
复杂任务分解
3、其他相关配套技术与工具
底层通信协议
WebSocket适配云端与边缘计算场景
开发框架与生态
生态工具Mintlify、OpenTools
分布式训练框架PyTorch Distributed、DeepSpeed
第十节:大模型高性能计算和集群组网
1 性能加速方案
量化压缩:
oGPTQ 4bit量化使模型体积减少70%
o采用DeepseekV3提出的MTP技术实现tokens
缓存策略:
oKV Cache分块存储,降低重复计算
o高频问题回答预生成
2 硬件与加速器技术
了解GPU/TPU架构:NVIDIA Ampere、NVIDIA Hopper、Google TPU
高速互联技术:NVLink、InfiniBand、RoCE的性能对比与配置
异构计算:CPU-GPU协同工作、多卡并行策略
3 存储解决方案
分布式存储系统选型:Ceph、HDFS、GlusterFS
数据编排:Alluxio、Apache Arrow等内存加速
数据预处理优化:并行数据加载、可选的格式转换
4 集群架构设计
架构模式:参数服务器、对等网络Ring AllReduce
弹性伸缩设计:动态扩缩容策略,应对负载波动
多租户隔离:资源配额、容器隔离技术cgroups
5 资源管理与调度
调度器:Kubernetes、Slurm、YARN的使用
任务编排:Airflow、Argo Workflow在流水线中的应用
资源优化:Bin Packing算法、抢占式调度
6 通信库与优化
高性能通信库:NCCL、OpenMPI、gRPC的调优
压缩技术:梯度量化(如FP16、FP8)、稀疏通信

活动详情

提交需求