课程简介
课程讲授人是从事深度学习项目管理的人员,带队完成了数十个AI项目,内容不仅包括深度学习、机器学习、数据挖掘等具体技术要点,也包括AI的整体发展、现状、应用、商业价值、未来方向等,涵盖内容非常丰富。
目标收益
1,整体把握机器学习、深度学习、数据挖掘的发展方向
2,了解机器学习、深度学习、计算机视觉的技术框架
3,理解机器学习和深度学习的思维方式和关键技术
4,了解深度学习和机器学习在当前工业界的落地应用
5,了解AI顶会论文和最新技术热点
培训对象
课程大纲
第一节:OpenCV图像处理 |
Skimage/OpenCV来源、简介与安装 将视频转换为图像序列 图像可视化与几何作图 HSV、RGB与图像颜色空间的转换 图像增强与(局部)直方图均衡化 给予边缘和区域的图像分割 gamma矫正和对数矫正 亮度区域检测与前景提取 图像边缘检测/特征提取 图像算子Gabor/Laplace/Prewitt/Sobel/Niblack/Wiener 图像形态学:开/闭/凸包/膨胀/腐蚀 双边滤波器/小波降噪/wiener滤波 角点检:Harris,Shi-Tomasi SIFT、SURF算法 视频分析:Meanshift 和 Camshift 算法 代码和案例实践: 不同算子下的图像卷积 图像边缘检测与提取 前景分割与图像融合 regional maxima检测与应用 |
第二节:卷积神经网络高级应用 |
Inception-V3/V4 ResNet、DenseNet 使用迁移学习实现蒙古文识别 获取中间隐层的特征及可视化 隐层特征的意义和使用 迁移学习的trick 学习率、衰减、冻结等问题 代码和案例实践: 数字图片分类 卷积核与特征提取 以图搜图 人证合一 卷积神经网络调参经验分享 猫狗大战详解 海量蒙古文识别 隐特征可视化及其应用 |
第三节:重点:目标检测 |
视频关键帧处理 卷积的位置不变形与图像定位的关系 物体检测与定位 RCNN,Fast-RCNN,Faster-RCNN,MaskRCNN YOLOv4、SSD UNet及其与残差网络的结合 FaceNet与特征 EfficientNet、EfficientDet 视频帧的目标定位 时空卷积网络 SlowFast 代码和案例实践: 人脸检测 OCR字体定位和识别 睿客识云 气象识别 视频分类的trick 政务大厅视频监控的真实系统 |
第四节:变分自编码器VAE、生成对抗网络GAN、扩散模型DM |
自编码器的意义 使用AE做特征提取 脸部各种特效是如何实现的 生成模型:贝叶斯、HMM到深度生成模型 GAN对抗生成神经网络 DCGAN Conditional GAN GAN-VAE-流模型-扩散模型的技术发展和变化 CLIP和扩散模型的结合:基于CLIP模型的多模态引导图像生成:图文引导 Diffusion-CLIP模型 扩散和去噪(Diffusion&Denoise) 训练和采样(Training&Sampling) 离散步骤的马尔可夫链 分子热动力学的扩散过程 离散加噪 DDPM-最经典的扩散模型 DDIM:加速采样、可控扩散 IVLR:迭代去燥的图像编辑,低通滤波上采样 代码和案例实践: 低质量噪声图像修复 精确复原原图 图像去除遮挡、图像补全 图像生成(人物恢复青春、人物变瘦) |
第五节:多模态模型 |
多模态的缘起:图像和文本任务的复杂性 多模态模型的典型拓扑结构:Unicoder-VL、多层transformer结构 VisualBERT模型结构在图像文本上的应用 ViLBERT结构及其改进 VideoBERT模型 实现文本与视频互转 BERT-Large模型 基于Transformer的多模态结构总结 CLIP和扩散模型的结合 基于CLIP模型的多模态引导图像生成:图文引导 GLIDE:文本引导 DALL·E 2:diffusion model和CLIP结合在一起 Diffusion-CLIP模型 FLAVA模型在模型参数上的探索 代码和案例实践: 上述多模态模型结构的代码复现和实践价值 |
第六节:近3个月发布的主流大模型和Agent技术对比与选型 |
1典型大模型比较 GPT-4(OpenAI) Claude3.7(Anthropic) Gemini 2.5(Google) Llama4(Meta) Qwen3(阿里) Coze(字节跳动) DeepSeek(深度求索-幻方量化) Dify 2 模型选择 Deepseek-R1 (7B/32B/70B/671B):中文领域表现SOTA,支持长上下文推理 Llama-3 (8B/70B):Meta最新开源模型,多语言通用底座 Mistral-8x7B:MoE架构标杆,推理效率提升3倍 QwQ-32B:阿里千问开源版 3 基础环境搭建实操 硬件要求:至少24GB显存(如RTX 3090/A10) + 64GB内存 软件依赖: oCUDA 12.1 + cuDNN 8.9 oPyTorch 2.2 + Transformers 4.38 oFlashAttention-2加速库 oOllama、vLLM、AngthingLLM等平台的安装 |
第七节:本地大模型私有化部署实操 |
1 Deepseek-R1蒸馏版的部署实操 1.模型获取: o通过HuggingFace官方仓库申请权限 o下载deepseek-r1-7B、8B、32B、70B的safetensors格式权重 2.推理服务启动 o关键参数trust_remote_code、max_model_len等的讲解 o解释器多种启动服务方式对比 3.服务验证 o代码调用 o服务API的参数设置 2 Deepseek-R1 671B满血版的部署流程 1.模型获取: oHuggingFace/Modelscope/github的参数下载 2.硬件配置说明 o16张A100,700G显存的刚性支持 o2T硬盘空间,权重文件和临时文件 3.对标模型的比较 oQwQ系列的突然开源 o解释阿里的32B是如何对抗671B的模型的 3 Llama-3-8B快速部署 1.量化加速 oFP8的特点 o对比Deepseek原论文中量化章节的解读 2.REST API调用: o深度学习系统部署的常用方式 o针对AI算法的部署框架 |
第八节:使用蒸馏的大模型完成微调、数据准备过程、模型训练代码实践 |
1 Deepseek-R1领域数据微调 1.数据准备: o格式:JSONL文件,每条含instruction/input/output o数据源:财报、券商研报、金融问答对、运营商问答对、意图识别数据 o关键处理:使用SentencePiece重组专业术语tokenization 2.QLoRA训练配置 o微调在大模型中的常用方法 o多种LoRA方式的对别 3.启动训练 o显存优化 oGPU并行 2 探讨适合微调的业务场景 o阐述项目中RAG模式和LoRA模式的选择 o探讨微调方案的优势,分析不适合微调的场景 |
第九节:MCP协议及其生态协议A2A |
1、MCP 技术核心内容 协议架构与设计原理 客户端-服务器模型:MCP Host、Client、Server的交互逻辑 上下文感知与多步骤任务 任务链式调用,通过多次工具调用完成复杂推理 关键技术特性:介绍 JSON-RPC 2.0 安全机制:沙盒隔离、零信任架构、敏感数据本地化处理 在 IDE 中直接调用代码审查、数据库查询、整合影像与表格数据等应用场景 2、A2A 技术核心内容 协议架构与协作机制 任务状态管理:任务提交、处理中和完成/失败的全生命周期管理 动态代理发现:Agent Card 元数据文件、权限协商与功能匹配 关键技术特性:安全设计、高并发支持、多Agent协同 复杂任务分解 3、其他相关配套技术与工具 底层通信协议 WebSocket适配云端与边缘计算场景 开发框架与生态 生态工具Mintlify、OpenTools 分布式训练框架PyTorch Distributed、DeepSpeed |
第十节:大模型高性能计算和集群组网 |
1 性能加速方案 量化压缩: oGPTQ 4bit量化使模型体积减少70% o采用DeepseekV3提出的MTP技术实现tokens 缓存策略: oKV Cache分块存储,降低重复计算 o高频问题回答预生成 2 硬件与加速器技术 了解GPU/TPU架构:NVIDIA Ampere、NVIDIA Hopper、Google TPU 高速互联技术:NVLink、InfiniBand、RoCE的性能对比与配置 异构计算:CPU-GPU协同工作、多卡并行策略 3 存储解决方案 分布式存储系统选型:Ceph、HDFS、GlusterFS 数据编排:Alluxio、Apache Arrow等内存加速 数据预处理优化:并行数据加载、可选的格式转换 4 集群架构设计 架构模式:参数服务器、对等网络Ring AllReduce 弹性伸缩设计:动态扩缩容策略,应对负载波动 多租户隔离:资源配额、容器隔离技术cgroups 5 资源管理与调度 调度器:Kubernetes、Slurm、YARN的使用 任务编排:Airflow、Argo Workflow在流水线中的应用 资源优化:Bin Packing算法、抢占式调度 6 通信库与优化 高性能通信库:NCCL、OpenMPI、gRPC的调优 压缩技术:梯度量化(如FP16、FP8)、稀疏通信 |
第一节:OpenCV图像处理 Skimage/OpenCV来源、简介与安装 将视频转换为图像序列 图像可视化与几何作图 HSV、RGB与图像颜色空间的转换 图像增强与(局部)直方图均衡化 给予边缘和区域的图像分割 gamma矫正和对数矫正 亮度区域检测与前景提取 图像边缘检测/特征提取 图像算子Gabor/Laplace/Prewitt/Sobel/Niblack/Wiener 图像形态学:开/闭/凸包/膨胀/腐蚀 双边滤波器/小波降噪/wiener滤波 角点检:Harris,Shi-Tomasi SIFT、SURF算法 视频分析:Meanshift 和 Camshift 算法 代码和案例实践: 不同算子下的图像卷积 图像边缘检测与提取 前景分割与图像融合 regional maxima检测与应用 |
第二节:卷积神经网络高级应用 Inception-V3/V4 ResNet、DenseNet 使用迁移学习实现蒙古文识别 获取中间隐层的特征及可视化 隐层特征的意义和使用 迁移学习的trick 学习率、衰减、冻结等问题 代码和案例实践: 数字图片分类 卷积核与特征提取 以图搜图 人证合一 卷积神经网络调参经验分享 猫狗大战详解 海量蒙古文识别 隐特征可视化及其应用 |
第三节:重点:目标检测 视频关键帧处理 卷积的位置不变形与图像定位的关系 物体检测与定位 RCNN,Fast-RCNN,Faster-RCNN,MaskRCNN YOLOv4、SSD UNet及其与残差网络的结合 FaceNet与特征 EfficientNet、EfficientDet 视频帧的目标定位 时空卷积网络 SlowFast 代码和案例实践: 人脸检测 OCR字体定位和识别 睿客识云 气象识别 视频分类的trick 政务大厅视频监控的真实系统 |
第四节:变分自编码器VAE、生成对抗网络GAN、扩散模型DM 自编码器的意义 使用AE做特征提取 脸部各种特效是如何实现的 生成模型:贝叶斯、HMM到深度生成模型 GAN对抗生成神经网络 DCGAN Conditional GAN GAN-VAE-流模型-扩散模型的技术发展和变化 CLIP和扩散模型的结合:基于CLIP模型的多模态引导图像生成:图文引导 Diffusion-CLIP模型 扩散和去噪(Diffusion&Denoise) 训练和采样(Training&Sampling) 离散步骤的马尔可夫链 分子热动力学的扩散过程 离散加噪 DDPM-最经典的扩散模型 DDIM:加速采样、可控扩散 IVLR:迭代去燥的图像编辑,低通滤波上采样 代码和案例实践: 低质量噪声图像修复 精确复原原图 图像去除遮挡、图像补全 图像生成(人物恢复青春、人物变瘦) |
第五节:多模态模型 多模态的缘起:图像和文本任务的复杂性 多模态模型的典型拓扑结构:Unicoder-VL、多层transformer结构 VisualBERT模型结构在图像文本上的应用 ViLBERT结构及其改进 VideoBERT模型 实现文本与视频互转 BERT-Large模型 基于Transformer的多模态结构总结 CLIP和扩散模型的结合 基于CLIP模型的多模态引导图像生成:图文引导 GLIDE:文本引导 DALL·E 2:diffusion model和CLIP结合在一起 Diffusion-CLIP模型 FLAVA模型在模型参数上的探索 代码和案例实践: 上述多模态模型结构的代码复现和实践价值 |
第六节:近3个月发布的主流大模型和Agent技术对比与选型 1典型大模型比较 GPT-4(OpenAI) Claude3.7(Anthropic) Gemini 2.5(Google) Llama4(Meta) Qwen3(阿里) Coze(字节跳动) DeepSeek(深度求索-幻方量化) Dify 2 模型选择 Deepseek-R1 (7B/32B/70B/671B):中文领域表现SOTA,支持长上下文推理 Llama-3 (8B/70B):Meta最新开源模型,多语言通用底座 Mistral-8x7B:MoE架构标杆,推理效率提升3倍 QwQ-32B:阿里千问开源版 3 基础环境搭建实操 硬件要求:至少24GB显存(如RTX 3090/A10) + 64GB内存 软件依赖: oCUDA 12.1 + cuDNN 8.9 oPyTorch 2.2 + Transformers 4.38 oFlashAttention-2加速库 oOllama、vLLM、AngthingLLM等平台的安装 |
第七节:本地大模型私有化部署实操 1 Deepseek-R1蒸馏版的部署实操 1.模型获取: o通过HuggingFace官方仓库申请权限 o下载deepseek-r1-7B、8B、32B、70B的safetensors格式权重 2.推理服务启动 o关键参数trust_remote_code、max_model_len等的讲解 o解释器多种启动服务方式对比 3.服务验证 o代码调用 o服务API的参数设置 2 Deepseek-R1 671B满血版的部署流程 1.模型获取: oHuggingFace/Modelscope/github的参数下载 2.硬件配置说明 o16张A100,700G显存的刚性支持 o2T硬盘空间,权重文件和临时文件 3.对标模型的比较 oQwQ系列的突然开源 o解释阿里的32B是如何对抗671B的模型的 3 Llama-3-8B快速部署 1.量化加速 oFP8的特点 o对比Deepseek原论文中量化章节的解读 2.REST API调用: o深度学习系统部署的常用方式 o针对AI算法的部署框架 |
第八节:使用蒸馏的大模型完成微调、数据准备过程、模型训练代码实践 1 Deepseek-R1领域数据微调 1.数据准备: o格式:JSONL文件,每条含instruction/input/output o数据源:财报、券商研报、金融问答对、运营商问答对、意图识别数据 o关键处理:使用SentencePiece重组专业术语tokenization 2.QLoRA训练配置 o微调在大模型中的常用方法 o多种LoRA方式的对别 3.启动训练 o显存优化 oGPU并行 2 探讨适合微调的业务场景 o阐述项目中RAG模式和LoRA模式的选择 o探讨微调方案的优势,分析不适合微调的场景 |
第九节:MCP协议及其生态协议A2A 1、MCP 技术核心内容 协议架构与设计原理 客户端-服务器模型:MCP Host、Client、Server的交互逻辑 上下文感知与多步骤任务 任务链式调用,通过多次工具调用完成复杂推理 关键技术特性:介绍 JSON-RPC 2.0 安全机制:沙盒隔离、零信任架构、敏感数据本地化处理 在 IDE 中直接调用代码审查、数据库查询、整合影像与表格数据等应用场景 2、A2A 技术核心内容 协议架构与协作机制 任务状态管理:任务提交、处理中和完成/失败的全生命周期管理 动态代理发现:Agent Card 元数据文件、权限协商与功能匹配 关键技术特性:安全设计、高并发支持、多Agent协同 复杂任务分解 3、其他相关配套技术与工具 底层通信协议 WebSocket适配云端与边缘计算场景 开发框架与生态 生态工具Mintlify、OpenTools 分布式训练框架PyTorch Distributed、DeepSpeed |
第十节:大模型高性能计算和集群组网 1 性能加速方案 量化压缩: oGPTQ 4bit量化使模型体积减少70% o采用DeepseekV3提出的MTP技术实现tokens 缓存策略: oKV Cache分块存储,降低重复计算 o高频问题回答预生成 2 硬件与加速器技术 了解GPU/TPU架构:NVIDIA Ampere、NVIDIA Hopper、Google TPU 高速互联技术:NVLink、InfiniBand、RoCE的性能对比与配置 异构计算:CPU-GPU协同工作、多卡并行策略 3 存储解决方案 分布式存储系统选型:Ceph、HDFS、GlusterFS 数据编排:Alluxio、Apache Arrow等内存加速 数据预处理优化:并行数据加载、可选的格式转换 4 集群架构设计 架构模式:参数服务器、对等网络Ring AllReduce 弹性伸缩设计:动态扩缩容策略,应对负载波动 多租户隔离:资源配额、容器隔离技术cgroups 5 资源管理与调度 调度器:Kubernetes、Slurm、YARN的使用 任务编排:Airflow、Argo Workflow在流水线中的应用 资源优化:Bin Packing算法、抢占式调度 6 通信库与优化 高性能通信库:NCCL、OpenMPI、gRPC的调优 压缩技术:梯度量化(如FP16、FP8)、稀疏通信 |