工程師
其他
大模型
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

DeepSeek大模型技術(shù)原理與實(shí)戰(zhàn)

某互聯(lián)網(wǎng)大廠 AIGC負(fù)責(zé)人

任某互聯(lián)網(wǎng)公司AIGC負(fù)責(zé)人,負(fù)責(zé)大模型、多模態(tài)、產(chǎn)研落地與知識(shí)管理與評(píng)估等多個(gè)團(tuán)隊(duì)工作。
多年百度搜索、大數(shù)據(jù)工作經(jīng)驗(yàn),專注于自然語言處理與人工智能方向,曾獲CCKS中文知識(shí)圖譜大賽第一名,就職期間輸出數(shù)十篇專利。
帶領(lǐng)團(tuán)隊(duì)發(fā)布內(nèi)容行業(yè)垂類模型,并通過網(wǎng)信辦備案。在多模態(tài)內(nèi)容理解、角色對(duì)話、視頻生成等多個(gè)方向有場(chǎng)景落地,有大量一線實(shí)操經(jīng)驗(yàn),AIGC業(yè)務(wù)單日服務(wù)用戶超50萬。
對(duì)市面上大部分大模型基座有比較深入的了解,能判斷模型的能力邊界。擅長(zhǎng)結(jié)合行業(yè)垂類的實(shí)際情況,挖掘大模型可賦能的業(yè)務(wù)場(chǎng)景。有落地AIGC與大模型業(yè)務(wù)的一手經(jīng)驗(yàn),從模型的訓(xùn)練微調(diào),到算力部署推理,以及線上實(shí)際用戶case的反饋跟進(jìn),熟悉生產(chǎn)環(huán)境的具體實(shí)施。此外,也掌握大模型風(fēng)控和網(wǎng)信辦備案過程,能有效幫助企業(yè)在生產(chǎn)環(huán)境中落地大模型。

任某互聯(lián)網(wǎng)公司AIGC負(fù)責(zé)人,負(fù)責(zé)大模型、多模態(tài)、產(chǎn)研落地與知識(shí)管理與評(píng)估等多個(gè)團(tuán)隊(duì)工作。 多年百度搜索、大數(shù)據(jù)工作經(jīng)驗(yàn),專注于自然語言處理與人工智能方向,曾獲CCKS中文知識(shí)圖譜大賽第一名,就職期間輸出數(shù)十篇專利。 帶領(lǐng)團(tuán)隊(duì)發(fā)布內(nèi)容行業(yè)垂類模型,并通過網(wǎng)信辦備案。在多模態(tài)內(nèi)容理解、角色對(duì)話、視頻生成等多個(gè)方向有場(chǎng)景落地,有大量一線實(shí)操經(jīng)驗(yàn),AIGC業(yè)務(wù)單日服務(wù)用戶超50萬。 對(duì)市面上大部分大模型基座有比較深入的了解,能判斷模型的能力邊界。擅長(zhǎng)結(jié)合行業(yè)垂類的實(shí)際情況,挖掘大模型可賦能的業(yè)務(wù)場(chǎng)景。有落地AIGC與大模型業(yè)務(wù)的一手經(jīng)驗(yàn),從模型的訓(xùn)練微調(diào),到算力部署推理,以及線上實(shí)際用戶case的反饋跟進(jìn),熟悉生產(chǎn)環(huán)境的具體實(shí)施。此外,也掌握大模型風(fēng)控和網(wǎng)信辦備案過程,能有效幫助企業(yè)在生產(chǎn)環(huán)境中落地大模型。

課程費(fèi)用

6800.00 /人

課程時(shí)長(zhǎng)

4

成為教練

課程簡(jiǎn)介

聚焦DeepSeek大模型技術(shù)體系的全面解析。從模型架構(gòu)、訓(xùn)練范式到部署實(shí)踐,系統(tǒng)性地介紹DeepSeek從V1到R1的技術(shù)演進(jìn)歷程,并結(jié)合實(shí)際案例講解大模型在工業(yè)場(chǎng)景中的落地應(yīng)用。
補(bǔ)充:
本節(jié)課程需要額外的算力支持,如客戶不能提供,需要使用私有部署,需要支付對(duì)應(yīng)成本,如人數(shù)在20人,一天的費(fèi)用大概在3000元。

目標(biāo)收益

掌握DeepSeek大模型的核心技術(shù)原理和創(chuàng)新點(diǎn)
學(xué)習(xí)大模型訓(xùn)練、微調(diào)和部署的實(shí)踐技能
了解MoE架構(gòu)和分布式訓(xùn)練的關(guān)鍵技術(shù)
掌握模型應(yīng)用落地的最佳實(shí)踐經(jīng)驗(yàn)

培訓(xùn)對(duì)象

AI算法工程師
機(jī)器學(xué)習(xí)研究員
深度學(xué)習(xí)開發(fā)工程師
大模型應(yīng)用開發(fā)人員
對(duì)大模型技術(shù)感興趣的技術(shù)管理者

課程內(nèi)容

Day1 DeepSeek發(fā)展歷程和基礎(chǔ)知識(shí)點(diǎn)
第一章 DeepSeek發(fā)展歷程與技術(shù)演進(jìn)
1. DeepSeek的發(fā)展里程碑
?DeepSeek Coder的開源
?DeepSeek LLM的發(fā)布
?DeepSeek-V2的MoE架構(gòu)創(chuàng)新
?DeepSeek-R1-Lite的推理優(yōu)化
?DeepSeek-V3的技術(shù)突破
?DeepSeek-R1發(fā)布

2. 核心技術(shù)創(chuàng)新歷程
?從Dense到MoE架構(gòu)的演進(jìn)
?訓(xùn)練框架的持續(xù)優(yōu)化
?推理能力的不斷提升

第二章 核心基礎(chǔ)技術(shù)詳解
1. 大模型訓(xùn)練范式
?SFT(有監(jiān)督微調(diào))
原理與實(shí)現(xiàn)
數(shù)據(jù)標(biāo)注要求
優(yōu)勢(shì)與局限性

?強(qiáng)化學(xué)習(xí)(RL)
RL基本原理
在大模型中的應(yīng)用
純RL訓(xùn)練的挑戰(zhàn)

?過程獎(jiǎng)勵(lì)模型(PRM)
PRM工作機(jī)制
實(shí)現(xiàn)方法
應(yīng)用限制

2. 推理能力增強(qiáng)技術(shù)
?思維鏈(CoT)技術(shù)
CoT原理解析
長(zhǎng)度擴(kuò)展方法
測(cè)試時(shí)擴(kuò)展挑戰(zhàn)

?搜索算法應(yīng)用
蒙特卡洛樹搜索MCTS算法原理
在推理中的應(yīng)用
效果與局限性

3. MoE(混合專家)技術(shù)
?MoE架構(gòu)設(shè)計(jì)
?專家路由機(jī)制
?負(fù)載均衡策略

4. 并行計(jì)算技術(shù)
?數(shù)據(jù)并行(DP)
?專家并行(EP)
?流水線并行(PP)
?張量并行(TP)

5. 訓(xùn)練優(yōu)化技術(shù)
?FP8混合精度訓(xùn)練
?DualPipe流水線優(yōu)化
?All-to-All通信優(yōu)化

Day2 DeepSeek-V3與R1深度解析
第三章 DeepSeek-V3深度解析
1. 核心架構(gòu)創(chuàng)新
?多頭潛注意力(MLA)機(jī)制
?DeepSeekMoE架構(gòu)
?無輔助損失負(fù)載均衡

2. 訓(xùn)練框架優(yōu)化
?HAI-LLM框架設(shè)計(jì)
?軟硬件協(xié)同優(yōu)化
?顯存使用優(yōu)化

第四章 DeepSeek-R1技術(shù)詳解
1. R1-Zero純強(qiáng)化學(xué)習(xí)訓(xùn)練
?GRPO算法原理
?獎(jiǎng)勵(lì)模型設(shè)計(jì)
?訓(xùn)練模板設(shè)計(jì)

2. R1多階段增強(qiáng)訓(xùn)練
?冷啟動(dòng)策略
?推理導(dǎo)向的強(qiáng)化學(xué)習(xí)
?全場(chǎng)景RL對(duì)齊

3. 模型蒸餾技術(shù)
?蒸餾原理與方法
?支持模型規(guī)格(1.5B/7B/14B/等)
?性能評(píng)估指標(biāo)

*特殊備注:第三天-第四天的內(nèi)容需要額外的算力支持,如客戶不能提供,需要使用私有部署,需要支付對(duì)應(yīng)成本,如人數(shù)在20人,一天的費(fèi)用大概在3000元。

Day3 deepseek服務(wù)化推理
第五章 模型服務(wù)化部署
1. 全參數(shù)671B模型部署
?硬件需求規(guī)劃和推薦配置方案
?Ray分布式集群搭建與多機(jī)多卡協(xié)同推理方案
?VLLM推理加速框架集成與性能優(yōu)化
?基于Tensor Parallel和Pipeline Parallel的分布式推理部署
?大規(guī)模模型推理性能評(píng)估與資源利用分析

2. 蒸餾模型部署(1.5B/7B/14B/等)
?Ollama部署流程環(huán)境準(zhǔn)備與安裝
?Modelfile配置說明及模型創(chuàng)建與加載
?Web界面集成

3. 推理優(yōu)化
?常見部署場(chǎng)景(個(gè)人電腦部署/服務(wù)器部署/云服務(wù)部署)
?性能優(yōu)化指南及GPU加載優(yōu)化
?內(nèi)存使用優(yōu)化及服務(wù)性能調(diào)優(yōu)

第六章 昇騰NPU上的大模型部署
1. 平臺(tái)架構(gòu)與架構(gòu)設(shè)計(jì)
?NPU計(jì)算單元特性與硬件架構(gòu)設(shè)計(jì)
?CANN基礎(chǔ)軟件棧與開發(fā)套件配置
?PyTorch/MindSpore框架適配方案
?性能分析工具鏈與監(jiān)控體系

2. 推理部署
?模型格式轉(zhuǎn)換與量化優(yōu)化
?DeepSeek-R1-Distill單機(jī)多卡部署與分布式方案
?推理性能調(diào)優(yōu)與資源管理
?部署驗(yàn)證與性能評(píng)估指標(biāo)
Day4 deepseek落地實(shí)踐和發(fā)展方向
第七章 落地實(shí)踐指南
1. Prompt工程實(shí)踐
?提示詞設(shè)計(jì)原則
?場(chǎng)景化應(yīng)用模板
?性能優(yōu)化技巧

2. 思維鏈應(yīng)用
?CoT原理與應(yīng)用
?推理能力增強(qiáng)
?實(shí)戰(zhàn)案例落地分析
?工業(yè)知識(shí)管理
?金融領(lǐng)域AI量化

第八章 從R1看大模型發(fā)展趨勢(shì)展望
1. 分布式推理趨勢(shì)
?大模型集群化推理部署及發(fā)展趨勢(shì)
?大模型算力效率提升
?集群推理服務(wù)成本優(yōu)化

2. 技術(shù)發(fā)展方向
?大語言模型架構(gòu)創(chuàng)新走勢(shì)
?GPU集群訓(xùn)練范式演進(jìn)
?AGI應(yīng)用場(chǎng)景拓展
?國產(chǎn)GPU推理走勢(shì)

課程費(fèi)用

6800.00 /人

課程時(shí)長(zhǎng)

4

預(yù)約體驗(yàn)票 我要分享

近期公開課推薦

近期公開課推薦

活動(dòng)詳情

提交需求