工程師
其他
大模型
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

DeepSeek大模型技術(shù)原理與實戰(zhàn)

某互聯(lián)網(wǎng)大廠 AIGC負(fù)責(zé)人

任某互聯(lián)網(wǎng)公司AIGC負(fù)責(zé)人,負(fù)責(zé)大模型、多模態(tài)、產(chǎn)研落地與知識管理與評估等多個團(tuán)隊工作。
多年百度搜索、大數(shù)據(jù)工作經(jīng)驗,專注于自然語言處理與人工智能方向,曾獲CCKS中文知識圖譜大賽第一名,就職期間輸出數(shù)十篇專利。
帶領(lǐng)團(tuán)隊發(fā)布內(nèi)容行業(yè)垂類模型,并通過網(wǎng)信辦備案。在多模態(tài)內(nèi)容理解、角色對話、視頻生成等多個方向有場景落地,有大量一線實操經(jīng)驗,AIGC業(yè)務(wù)單日服務(wù)用戶超50萬。
對市面上大部分大模型基座有比較深入的了解,能判斷模型的能力邊界。擅長結(jié)合行業(yè)垂類的實際情況,挖掘大模型可賦能的業(yè)務(wù)場景。有落地AIGC與大模型業(yè)務(wù)的一手經(jīng)驗,從模型的訓(xùn)練微調(diào),到算力部署推理,以及線上實際用戶case的反饋跟進(jìn),熟悉生產(chǎn)環(huán)境的具體實施。此外,也掌握大模型風(fēng)控和網(wǎng)信辦備案過程,能有效幫助企業(yè)在生產(chǎn)環(huán)境中落地大模型。

任某互聯(lián)網(wǎng)公司AIGC負(fù)責(zé)人,負(fù)責(zé)大模型、多模態(tài)、產(chǎn)研落地與知識管理與評估等多個團(tuán)隊工作。 多年百度搜索、大數(shù)據(jù)工作經(jīng)驗,專注于自然語言處理與人工智能方向,曾獲CCKS中文知識圖譜大賽第一名,就職期間輸出數(shù)十篇專利。 帶領(lǐng)團(tuán)隊發(fā)布內(nèi)容行業(yè)垂類模型,并通過網(wǎng)信辦備案。在多模態(tài)內(nèi)容理解、角色對話、視頻生成等多個方向有場景落地,有大量一線實操經(jīng)驗,AIGC業(yè)務(wù)單日服務(wù)用戶超50萬。 對市面上大部分大模型基座有比較深入的了解,能判斷模型的能力邊界。擅長結(jié)合行業(yè)垂類的實際情況,挖掘大模型可賦能的業(yè)務(wù)場景。有落地AIGC與大模型業(yè)務(wù)的一手經(jīng)驗,從模型的訓(xùn)練微調(diào),到算力部署推理,以及線上實際用戶case的反饋跟進(jìn),熟悉生產(chǎn)環(huán)境的具體實施。此外,也掌握大模型風(fēng)控和網(wǎng)信辦備案過程,能有效幫助企業(yè)在生產(chǎn)環(huán)境中落地大模型。

課程費(fèi)用

6800.00 /人

課程時長

4

成為教練

課程簡介

聚焦DeepSeek大模型技術(shù)體系的全面解析。從模型架構(gòu)、訓(xùn)練范式到部署實踐,系統(tǒng)性地介紹DeepSeek從V1到R1的技術(shù)演進(jìn)歷程,并結(jié)合實際案例講解大模型在工業(yè)場景中的落地應(yīng)用。
補(bǔ)充:
本節(jié)課程需要額外的算力支持,如客戶不能提供,需要使用私有部署,需要支付對應(yīng)成本,如人數(shù)在20人,一天的費(fèi)用大概在3000元。

目標(biāo)收益

掌握DeepSeek大模型的核心技術(shù)原理和創(chuàng)新點
學(xué)習(xí)大模型訓(xùn)練、微調(diào)和部署的實踐技能
了解MoE架構(gòu)和分布式訓(xùn)練的關(guān)鍵技術(shù)
掌握模型應(yīng)用落地的最佳實踐經(jīng)驗

培訓(xùn)對象

AI算法工程師
機(jī)器學(xué)習(xí)研究員
深度學(xué)習(xí)開發(fā)工程師
大模型應(yīng)用開發(fā)人員
對大模型技術(shù)感興趣的技術(shù)管理者

課程內(nèi)容

Day1 DeepSeek發(fā)展歷程和基礎(chǔ)知識點
第一章 DeepSeek發(fā)展歷程與技術(shù)演進(jìn)
1. DeepSeek的發(fā)展里程碑
?DeepSeek Coder的開源
?DeepSeek LLM的發(fā)布
?DeepSeek-V2的MoE架構(gòu)創(chuàng)新
?DeepSeek-R1-Lite的推理優(yōu)化
?DeepSeek-V3的技術(shù)突破
?DeepSeek-R1發(fā)布

2. 核心技術(shù)創(chuàng)新歷程
?從Dense到MoE架構(gòu)的演進(jìn)
?訓(xùn)練框架的持續(xù)優(yōu)化
?推理能力的不斷提升

第二章 核心基礎(chǔ)技術(shù)詳解
1. 大模型訓(xùn)練范式
?SFT(有監(jiān)督微調(diào))
原理與實現(xiàn)
數(shù)據(jù)標(biāo)注要求
優(yōu)勢與局限性

?強(qiáng)化學(xué)習(xí)(RL)
RL基本原理
在大模型中的應(yīng)用
純RL訓(xùn)練的挑戰(zhàn)

?過程獎勵模型(PRM)
PRM工作機(jī)制
實現(xiàn)方法
應(yīng)用限制

2. 推理能力增強(qiáng)技術(shù)
?思維鏈(CoT)技術(shù)
CoT原理解析
長度擴(kuò)展方法
測試時擴(kuò)展挑戰(zhàn)

?搜索算法應(yīng)用
蒙特卡洛樹搜索MCTS算法原理
在推理中的應(yīng)用
效果與局限性

3. MoE(混合專家)技術(shù)
?MoE架構(gòu)設(shè)計
?專家路由機(jī)制
?負(fù)載均衡策略

4. 并行計算技術(shù)
?數(shù)據(jù)并行(DP)
?專家并行(EP)
?流水線并行(PP)
?張量并行(TP)

5. 訓(xùn)練優(yōu)化技術(shù)
?FP8混合精度訓(xùn)練
?DualPipe流水線優(yōu)化
?All-to-All通信優(yōu)化

Day2 DeepSeek-V3與R1深度解析
第三章 DeepSeek-V3深度解析
1. 核心架構(gòu)創(chuàng)新
?多頭潛注意力(MLA)機(jī)制
?DeepSeekMoE架構(gòu)
?無輔助損失負(fù)載均衡

2. 訓(xùn)練框架優(yōu)化
?HAI-LLM框架設(shè)計
?軟硬件協(xié)同優(yōu)化
?顯存使用優(yōu)化

第四章 DeepSeek-R1技術(shù)詳解
1. R1-Zero純強(qiáng)化學(xué)習(xí)訓(xùn)練
?GRPO算法原理
?獎勵模型設(shè)計
?訓(xùn)練模板設(shè)計

2. R1多階段增強(qiáng)訓(xùn)練
?冷啟動策略
?推理導(dǎo)向的強(qiáng)化學(xué)習(xí)
?全場景RL對齊

3. 模型蒸餾技術(shù)
?蒸餾原理與方法
?支持模型規(guī)格(1.5B/7B/14B/等)
?性能評估指標(biāo)

*特殊備注:第三天-第四天的內(nèi)容需要額外的算力支持,如客戶不能提供,需要使用私有部署,需要支付對應(yīng)成本,如人數(shù)在20人,一天的費(fèi)用大概在3000元。

Day3 deepseek服務(wù)化推理
第五章 模型服務(wù)化部署
1. 全參數(shù)671B模型部署
?硬件需求規(guī)劃和推薦配置方案
?Ray分布式集群搭建與多機(jī)多卡協(xié)同推理方案
?VLLM推理加速框架集成與性能優(yōu)化
?基于Tensor Parallel和Pipeline Parallel的分布式推理部署
?大規(guī)模模型推理性能評估與資源利用分析

2. 蒸餾模型部署(1.5B/7B/14B/等)
?Ollama部署流程環(huán)境準(zhǔn)備與安裝
?Modelfile配置說明及模型創(chuàng)建與加載
?Web界面集成

3. 推理優(yōu)化
?常見部署場景(個人電腦部署/服務(wù)器部署/云服務(wù)部署)
?性能優(yōu)化指南及GPU加載優(yōu)化
?內(nèi)存使用優(yōu)化及服務(wù)性能調(diào)優(yōu)

第六章 昇騰NPU上的大模型部署
1. 平臺架構(gòu)與架構(gòu)設(shè)計
?NPU計算單元特性與硬件架構(gòu)設(shè)計
?CANN基礎(chǔ)軟件棧與開發(fā)套件配置
?PyTorch/MindSpore框架適配方案
?性能分析工具鏈與監(jiān)控體系

2. 推理部署
?模型格式轉(zhuǎn)換與量化優(yōu)化
?DeepSeek-R1-Distill單機(jī)多卡部署與分布式方案
?推理性能調(diào)優(yōu)與資源管理
?部署驗證與性能評估指標(biāo)
Day4 deepseek落地實踐和發(fā)展方向
第七章 落地實踐指南
1. Prompt工程實踐
?提示詞設(shè)計原則
?場景化應(yīng)用模板
?性能優(yōu)化技巧

2. 思維鏈應(yīng)用
?CoT原理與應(yīng)用
?推理能力增強(qiáng)
?實戰(zhàn)案例落地分析
?工業(yè)知識管理
?金融領(lǐng)域AI量化

第八章 從R1看大模型發(fā)展趨勢展望
1. 分布式推理趨勢
?大模型集群化推理部署及發(fā)展趨勢
?大模型算力效率提升
?集群推理服務(wù)成本優(yōu)化

2. 技術(shù)發(fā)展方向
?大語言模型架構(gòu)創(chuàng)新走勢
?GPU集群訓(xùn)練范式演進(jìn)
?AGI應(yīng)用場景拓展
?國產(chǎn)GPU推理走勢

活動詳情

提交需求