課程簡介
課程介紹提示詞工程、企業(yè)應用場景、底層關(guān)鍵技術(shù)、底層架構(gòu)、預訓練技術(shù)、微調(diào)技術(shù)以及業(yè)界企業(yè)級最佳實踐,通過對大語言模型體系化的講解和實戰(zhàn)演練,幫助學員學會理解大模型底層原理、關(guān)鍵技術(shù)、應用場景并這掌握企業(yè)級應用實踐,為企業(yè)培養(yǎng)數(shù)字化人才梯隊。
目標收益
1、提供大語言模型知識體系,幫助學員全面了解中外前沿科技、方法工具和業(yè)內(nèi)最佳實踐;
2、通過全過程案例講解,使學員全面掌握大模型的原理和基于大模型驅(qū)動的企業(yè)級應用架構(gòu)設計,在邊做邊學中增強其解決實際問題的能力;
3、對學員的實際項目進行咨詢指導,幫助單位完善數(shù)字化人才梯隊培養(yǎng),助力企業(yè)融入AI浪潮;
4、為學員課后答疑和持續(xù)學習提供網(wǎng)站資源,幫助其掌握數(shù)字時代學習新理念,提升其自學的意愿和能力。
培訓對象
希望掌握大模型底層原理、底層架構(gòu)、提示詞工程的軟件開發(fā)人員、售前工程師、在咨詢顧問及業(yè)務人員
課程大綱
第一天上午: 基礎(chǔ)通識篇 |
一、大模型基礎(chǔ)知識講解 (一)GPT模型前世今生 1、GPT模型是什么 2、GPT-1模型解讀 3、GPT-2模型解讀 4、GPT-3模型解讀 二、大模型底層核心原理 (一)大模型核心原理剖析 1、結(jié)構(gòu)解讀 2、自注意力 3、編解碼器 4,代碼演示 案例練習:結(jié)合工業(yè)界應用場景對知識點進行代入式講解,深入淺出幫助學員從道、法、術(shù)、器層面對大模型底層原理、核心技術(shù)、產(chǎn)業(yè)生態(tài)、商業(yè)應用有一個系統(tǒng)性的認識。 |
第一天下午: 基礎(chǔ)通識篇 |
一、提示詞應用原則與使用技巧 (一)提示詞工程原則 1、主題相關(guān)性 2、確定性焦點 3、語義清晰度 (二)提示詞萬能公式 1、內(nèi)容前提,讓大模型知道你是誰 2、角色設定,讓大模型知道它是誰 3、目標設定,讓大模型知道要干嘛(明確清晰的目標指令) 4、補充需求,讓大模型知道關(guān)注點(回答需要什么形式和范圍) (三)提示詞使用技巧 1、優(yōu)化表達式 2、連續(xù)性輸出 3、提升問題質(zhì)量 4、預設回答方案 5、給定參考答案 (四)提示詞優(yōu)化方式 1、加強大模型的思辨分析意識 2、界定大模型的劃分范圍邊界 (五)提示詞迭代優(yōu)化 1、提示詞迭代優(yōu)化案例 (六)樣本提示 1、零樣本提示 2、小樣本提示 (七)思維鏈提示 1、文本轉(zhuǎn)化 2、零樣本思維鏈 3、多推理路徑 (八)背景知識提示 1、文本轉(zhuǎn)化 2、零樣本思維鏈 3、多推理路徑 二、提示詞應用場景 (一)基礎(chǔ)應用場景 1、文本總結(jié) 2、文本分類 3、文本轉(zhuǎn)化 4、文本擴展 5、情感分析 6、內(nèi)容審核 (二)高階應用場景 1、論文翻譯 2、知識問答 3、語音合成 4、數(shù)字播報 5、圖片搜索 三、提示詞應用實踐 (一)如何運用大模型能力進行架構(gòu)設計 1、方案設計 (二)如何運用大模型能力實現(xiàn)知識問答 1、知識問答 (三)如何運用大模型能力進行數(shù)據(jù)提取 1、數(shù)據(jù)提取 案例練習:結(jié)合課程內(nèi)容進行演示。 |
第二天上午: 基礎(chǔ)技術(shù)篇 |
一,F(xiàn)unctionCalling技術(shù)介紹 (一)FunctionCalling深度剖析 1、FunctionCalling應用 2、使用GPT生成函數(shù)的參數(shù) 3、自然語言生成數(shù)據(jù)庫查詢腳本 4、FunctionCalling 穩(wěn)定性保障 二、文檔嵌入技術(shù)介紹 (一)文檔嵌入技術(shù)深度剖析 1、Embedding能夠解決什么問題 2、Embedding在大模型中的應用 3、如何計算相似度和進行語義搜索 4、文檔嵌入技術(shù)在知識問答中的應用案例 5、文檔嵌入技術(shù)在審計預警中的應用案例 三、向量數(shù)據(jù)庫技術(shù)介紹 (一)向量數(shù)據(jù)庫技術(shù)剖析 1、向量數(shù)據(jù)庫簡介 2、向量數(shù)據(jù)庫應用場景 3、向量數(shù)據(jù)庫底層原理 4、向量數(shù)據(jù)庫搜索算法 5、向量數(shù)據(jù)庫索引技術(shù) 四、檢索增強技術(shù)介紹 (一)檢索增強技術(shù)原理 1、檢索增強原理 2、檢索增強技術(shù) 五、企業(yè)級應用案例 (一)知識問答系統(tǒng) (二)審計預警系統(tǒng) 案例二: 基于大模型、向量數(shù)據(jù)庫、檢索增強技術(shù)、搜索引擎技術(shù),實現(xiàn)基于企業(yè)知識庫的審計預警系統(tǒng)。 |
第二天下午: 開發(fā)框架篇 |
一、應用開發(fā)框架入門 (一)深入淺出LangChain之總體框架 1、LangChain框架簡介 2、LangChain核心能力 3、LangChain應用場景 4、LangChain核心模塊 二、應用開發(fā)框架進階 (一)深入淺出LangChain 之Model I/0模塊 1、底層原理講解 2、核心知識講解 3、提示模板引擎 (二)深入淺出LangChain 之Chains 1、Sequential Chain 2、Transform Chain 3、Router Chain (三)深入淺出LangChain 之Memory 1、為何LLM需要記憶 2、LLM記憶能力的實現(xiàn) 3、LangChain中常用的記憶類型 (四)深入淺出LangChain 之Retrieval 1、Retrieval 實現(xiàn)原理 2、Retrieval 代碼實現(xiàn) (五)深入淺出LangChain 之Agent 1、Agent實現(xiàn)原理 2、Agent代碼實戰(zhàn) (六)深入淺出LangChain 之Callbacks 1、Callbacks實現(xiàn)原理 2、Callbacks代碼實戰(zhàn) 三、LangChain開發(fā)框架實戰(zhàn) (一)案例:基于LangChain開發(fā)自己的論文翻譯助手 (二)案例:基于LangChain開發(fā)自己的知識問答助手 案例研討: 案例一:結(jié)合LangChain框架相關(guān)技術(shù)的應用開發(fā)一個屬于自己的論文翻譯助手 結(jié)合LangChain框架相關(guān)技術(shù)的應用開發(fā)一個屬于自己的知識問答系統(tǒng) |
第三天上午: 開發(fā)框架篇 |
一、Agent 技術(shù)介紹 (一)Agents 概述與應用場景 1、Agent 設計原理 2、Agent 應用場景 3、ReAct 框架解讀 (二)Agent 關(guān)鍵技術(shù) 1、Agent 計劃能力 2、Agent 行動能力 3、Agent 工具能力 二、開源Agents 源碼解讀 (一)開源Agent 源碼解讀 1、AutoGPT項目定位與解決的問題 2、AutoGPT的技術(shù)方案分析 3、AutoGPT的各模塊代碼解讀 4、MetaGPT項目定位與解決的問題 5、MetaGPT的技術(shù)方案分析 6、MetaGPT的各模塊代碼解讀 三、開源Agents 實踐案例 (一)線路規(guī)劃師案例 |
第三天下午: 模型部署篇 |
一、私有化模型部署 (一)為何要部署私有化模型 1、垂直數(shù)據(jù)分布差異 2、企業(yè)私有數(shù)據(jù)安全 (二)HuggingFace開源社區(qū)使用指南 1、HuggingFace使用說明 2、HuggingFace應用場景 二、私有化大模型部署實戰(zhàn) (一)常見開源大模型介紹 (二)私有化部署環(huán)境準備 三、私有化部署實戰(zhàn)案例 (一)案例一:私有化部署ChatGLM-6B (二)案例二:搭建自己的智能服務助手 案例研討: 1.清華智普大模型私有化部署; 個人智能服務助手部署 |
第四天上午: 模型微調(diào)篇 |
一、大模型微調(diào)基礎(chǔ) (一)為何微調(diào)大模型 1、大模型先天缺陷 2、預訓練成本高昂 3、垂直數(shù)據(jù)分布差異 4、提示推理成本限制 5、企業(yè)私有數(shù)據(jù)安全 (二)大模型微調(diào)三要素 1、微調(diào)數(shù)據(jù) 2、算法模型 3、算力資源 (三)大模型微調(diào)的方式 1、全量參數(shù)微調(diào) 2、部分參數(shù)微調(diào) 3、在線模型微調(diào) 4、離線模型微調(diào) 二、大模型微調(diào)進階 (一)大模型指令微調(diào)技術(shù) 1、通用模型的缺點和指令微調(diào)的必要性 2、指令微調(diào)跟BERT時代Fine-tune之間區(qū)別 3、指令集的收集與格式化 4、指令數(shù)據(jù)集文件制作 5、訓練模型以及評估模型 (二)大模型參數(shù)高效微調(diào)技術(shù) 1、什么是參數(shù)高效微調(diào)技術(shù) 2、Adapter Tuning 3、Prefix Tuning 4、P-Tuning 5、Prompt Tuning 6、LoRA, AdaLoRA (三)大模型內(nèi)存高效微調(diào)技術(shù) 1、理解什么Quantization 2、Mixed-precision decompostion 3、ZeroQuant, SmoothQuant 4、GPTQ, AWQ 5、QLoRA |
第四天下午: 微調(diào)進階篇 |
一、大模型微調(diào)實戰(zhàn) (一)DeepSpeed框架介紹 1、DeepSpeed框架介紹 2、DeepSpeed核心模塊解讀 3、DeepSpeed分布式架構(gòu)解讀 4、ZeRO技術(shù)介紹 5、DeepSpeed部分代碼解讀 6、DeepSpeed/Megatron-LM/Colossal-AI/Transformers (二)基于Mistra-7B模型的推薦系統(tǒng)微調(diào)七步曲 1、第一步:推薦數(shù)據(jù)清洗 2、第二步:準備訓練和測試數(shù)據(jù) 3、第三步:推薦Prompt的Instruction設計 4、第四步:推薦標簽數(shù)據(jù)轉(zhuǎn)化為指令數(shù)據(jù) 5、第五步:基于DeepSpeed在Mistra-7B進行微調(diào) 6、第六步:評估大模型在推薦數(shù)據(jù)上的效果 7、第七步:持續(xù)優(yōu)化并評估 (三)基于ChatGLM3-6B構(gòu)建個人分身大模型微調(diào)七步曲 1、第一步:獲取Webchat個人對話數(shù)據(jù) 2、第二步:對話文件轉(zhuǎn)化成可讀的Text 3、第三步:對話數(shù)據(jù)清洗 4、第四步:個人分身的評估以及訓練、測試集準備 5、第五步:基于多倫對話數(shù)據(jù)構(gòu)造指令數(shù)據(jù) 6、第六步:基于DeepSpeed在ChatGLM3-6B上進行訓練 7、第七步:評估模型效果以及持續(xù)優(yōu)化 |
第五天上午: 微調(diào)實踐篇 |
一、大模型高階微調(diào)技術(shù) (一)增量預訓練+模型微調(diào) 1、什么是增量預訓練(Continuous Pre-train) 2、增量預訓練的挑戰(zhàn) 3、預訓練數(shù)據(jù)準備與微調(diào)數(shù)據(jù)準備 4、領(lǐng)域知識與通用知識 5、通用知識的遺忘 6、領(lǐng)域知識、通用知識的順序、配比問題 7、前沿技術(shù)方案剖析 (二)大模型微調(diào)中的挑戰(zhàn) 1、基礎(chǔ)模型的選擇標準 2、tokenizer修改以及解決方案 3、考慮很長的上下文,以及常見解決方案 4、考慮知識的遺忘,以及常見的解決方案 5、算力的利用效率以及提高算力利用率 6、數(shù)據(jù)質(zhì)量、數(shù)據(jù)多樣性的重要性 (三)大模型評估 1、領(lǐng)域大模型的評估標準設計 2、Benchmarking的重要性以及與解決思路 3、例子:金融大模型的評估緯度與benchmark準備 4、例子:情感大模型的評估緯度與benchmark準備 5、例子:醫(yī)療大模型的評估緯度與benchmark準備 (四)通用大模型搭建 1、通用大模型與領(lǐng)域大模型 2、通用大模型搭建pipeline 3、通用大模型的數(shù)據(jù)配比 4、數(shù)據(jù)清洗的pipeline 5、構(gòu)建模型結(jié)構(gòu)中的思考 6、訓練模型過程中的tricks |
第五天下午: 微調(diào)高級篇 |
一、大模型預訓練架構(gòu) (一)Encoder-Decoder預訓練架構(gòu) 1、編解碼器預訓練架構(gòu)剖析 2、案例分析 (二)Encoder-Only預訓練架構(gòu) 1、Encoder-Only預訓練架構(gòu)剖析 2、案例分析 (三)Decoder-Only預訓練架構(gòu) 1、Decoder-Only預訓練架構(gòu)剖析 2、案例分析 三、大模型預訓練框架深度剖析 (一)GPT-3模型深度剖析 1、模型原理深度剖析 2、模型源碼深度剖析 (二)常用開源預訓練模型 1、ChatGLM系列模型解讀 2、LLaMA系列模型解讀 3、Mistra-7B模型 (三)訓練特定領(lǐng)域私有模型 1、獲取模型文件 2、部署私有模型 3、對外服務開放 4、模型性能比較 |
第一天上午: 基礎(chǔ)通識篇 一、大模型基礎(chǔ)知識講解 (一)GPT模型前世今生 1、GPT模型是什么 2、GPT-1模型解讀 3、GPT-2模型解讀 4、GPT-3模型解讀 二、大模型底層核心原理 (一)大模型核心原理剖析 1、結(jié)構(gòu)解讀 2、自注意力 3、編解碼器 4,代碼演示 案例練習:結(jié)合工業(yè)界應用場景對知識點進行代入式講解,深入淺出幫助學員從道、法、術(shù)、器層面對大模型底層原理、核心技術(shù)、產(chǎn)業(yè)生態(tài)、商業(yè)應用有一個系統(tǒng)性的認識。 |
第一天下午: 基礎(chǔ)通識篇 一、提示詞應用原則與使用技巧 (一)提示詞工程原則 1、主題相關(guān)性 2、確定性焦點 3、語義清晰度 (二)提示詞萬能公式 1、內(nèi)容前提,讓大模型知道你是誰 2、角色設定,讓大模型知道它是誰 3、目標設定,讓大模型知道要干嘛(明確清晰的目標指令) 4、補充需求,讓大模型知道關(guān)注點(回答需要什么形式和范圍) (三)提示詞使用技巧 1、優(yōu)化表達式 2、連續(xù)性輸出 3、提升問題質(zhì)量 4、預設回答方案 5、給定參考答案 (四)提示詞優(yōu)化方式 1、加強大模型的思辨分析意識 2、界定大模型的劃分范圍邊界 (五)提示詞迭代優(yōu)化 1、提示詞迭代優(yōu)化案例 (六)樣本提示 1、零樣本提示 2、小樣本提示 (七)思維鏈提示 1、文本轉(zhuǎn)化 2、零樣本思維鏈 3、多推理路徑 (八)背景知識提示 1、文本轉(zhuǎn)化 2、零樣本思維鏈 3、多推理路徑 二、提示詞應用場景 (一)基礎(chǔ)應用場景 1、文本總結(jié) 2、文本分類 3、文本轉(zhuǎn)化 4、文本擴展 5、情感分析 6、內(nèi)容審核 (二)高階應用場景 1、論文翻譯 2、知識問答 3、語音合成 4、數(shù)字播報 5、圖片搜索 三、提示詞應用實踐 (一)如何運用大模型能力進行架構(gòu)設計 1、方案設計 (二)如何運用大模型能力實現(xiàn)知識問答 1、知識問答 (三)如何運用大模型能力進行數(shù)據(jù)提取 1、數(shù)據(jù)提取 案例練習:結(jié)合課程內(nèi)容進行演示。 |
第二天上午: 基礎(chǔ)技術(shù)篇 一,F(xiàn)unctionCalling技術(shù)介紹 (一)FunctionCalling深度剖析 1、FunctionCalling應用 2、使用GPT生成函數(shù)的參數(shù) 3、自然語言生成數(shù)據(jù)庫查詢腳本 4、FunctionCalling 穩(wěn)定性保障 二、文檔嵌入技術(shù)介紹 (一)文檔嵌入技術(shù)深度剖析 1、Embedding能夠解決什么問題 2、Embedding在大模型中的應用 3、如何計算相似度和進行語義搜索 4、文檔嵌入技術(shù)在知識問答中的應用案例 5、文檔嵌入技術(shù)在審計預警中的應用案例 三、向量數(shù)據(jù)庫技術(shù)介紹 (一)向量數(shù)據(jù)庫技術(shù)剖析 1、向量數(shù)據(jù)庫簡介 2、向量數(shù)據(jù)庫應用場景 3、向量數(shù)據(jù)庫底層原理 4、向量數(shù)據(jù)庫搜索算法 5、向量數(shù)據(jù)庫索引技術(shù) 四、檢索增強技術(shù)介紹 (一)檢索增強技術(shù)原理 1、檢索增強原理 2、檢索增強技術(shù) 五、企業(yè)級應用案例 (一)知識問答系統(tǒng) (二)審計預警系統(tǒng) 案例二: 基于大模型、向量數(shù)據(jù)庫、檢索增強技術(shù)、搜索引擎技術(shù),實現(xiàn)基于企業(yè)知識庫的審計預警系統(tǒng)。 |
第二天下午: 開發(fā)框架篇 一、應用開發(fā)框架入門 (一)深入淺出LangChain之總體框架 1、LangChain框架簡介 2、LangChain核心能力 3、LangChain應用場景 4、LangChain核心模塊 二、應用開發(fā)框架進階 (一)深入淺出LangChain 之Model I/0模塊 1、底層原理講解 2、核心知識講解 3、提示模板引擎 (二)深入淺出LangChain 之Chains 1、Sequential Chain 2、Transform Chain 3、Router Chain (三)深入淺出LangChain 之Memory 1、為何LLM需要記憶 2、LLM記憶能力的實現(xiàn) 3、LangChain中常用的記憶類型 (四)深入淺出LangChain 之Retrieval 1、Retrieval 實現(xiàn)原理 2、Retrieval 代碼實現(xiàn) (五)深入淺出LangChain 之Agent 1、Agent實現(xiàn)原理 2、Agent代碼實戰(zhàn) (六)深入淺出LangChain 之Callbacks 1、Callbacks實現(xiàn)原理 2、Callbacks代碼實戰(zhàn) 三、LangChain開發(fā)框架實戰(zhàn) (一)案例:基于LangChain開發(fā)自己的論文翻譯助手 (二)案例:基于LangChain開發(fā)自己的知識問答助手 案例研討: 案例一:結(jié)合LangChain框架相關(guān)技術(shù)的應用開發(fā)一個屬于自己的論文翻譯助手 結(jié)合LangChain框架相關(guān)技術(shù)的應用開發(fā)一個屬于自己的知識問答系統(tǒng) |
第三天上午: 開發(fā)框架篇 一、Agent 技術(shù)介紹 (一)Agents 概述與應用場景 1、Agent 設計原理 2、Agent 應用場景 3、ReAct 框架解讀 (二)Agent 關(guān)鍵技術(shù) 1、Agent 計劃能力 2、Agent 行動能力 3、Agent 工具能力 二、開源Agents 源碼解讀 (一)開源Agent 源碼解讀 1、AutoGPT項目定位與解決的問題 2、AutoGPT的技術(shù)方案分析 3、AutoGPT的各模塊代碼解讀 4、MetaGPT項目定位與解決的問題 5、MetaGPT的技術(shù)方案分析 6、MetaGPT的各模塊代碼解讀 三、開源Agents 實踐案例 (一)線路規(guī)劃師案例 |
第三天下午: 模型部署篇 一、私有化模型部署 (一)為何要部署私有化模型 1、垂直數(shù)據(jù)分布差異 2、企業(yè)私有數(shù)據(jù)安全 (二)HuggingFace開源社區(qū)使用指南 1、HuggingFace使用說明 2、HuggingFace應用場景 二、私有化大模型部署實戰(zhàn) (一)常見開源大模型介紹 (二)私有化部署環(huán)境準備 三、私有化部署實戰(zhàn)案例 (一)案例一:私有化部署ChatGLM-6B (二)案例二:搭建自己的智能服務助手 案例研討: 1.清華智普大模型私有化部署; 個人智能服務助手部署 |
第四天上午: 模型微調(diào)篇 一、大模型微調(diào)基礎(chǔ) (一)為何微調(diào)大模型 1、大模型先天缺陷 2、預訓練成本高昂 3、垂直數(shù)據(jù)分布差異 4、提示推理成本限制 5、企業(yè)私有數(shù)據(jù)安全 (二)大模型微調(diào)三要素 1、微調(diào)數(shù)據(jù) 2、算法模型 3、算力資源 (三)大模型微調(diào)的方式 1、全量參數(shù)微調(diào) 2、部分參數(shù)微調(diào) 3、在線模型微調(diào) 4、離線模型微調(diào) 二、大模型微調(diào)進階 (一)大模型指令微調(diào)技術(shù) 1、通用模型的缺點和指令微調(diào)的必要性 2、指令微調(diào)跟BERT時代Fine-tune之間區(qū)別 3、指令集的收集與格式化 4、指令數(shù)據(jù)集文件制作 5、訓練模型以及評估模型 (二)大模型參數(shù)高效微調(diào)技術(shù) 1、什么是參數(shù)高效微調(diào)技術(shù) 2、Adapter Tuning 3、Prefix Tuning 4、P-Tuning 5、Prompt Tuning 6、LoRA, AdaLoRA (三)大模型內(nèi)存高效微調(diào)技術(shù) 1、理解什么Quantization 2、Mixed-precision decompostion 3、ZeroQuant, SmoothQuant 4、GPTQ, AWQ 5、QLoRA |
第四天下午: 微調(diào)進階篇 一、大模型微調(diào)實戰(zhàn) (一)DeepSpeed框架介紹 1、DeepSpeed框架介紹 2、DeepSpeed核心模塊解讀 3、DeepSpeed分布式架構(gòu)解讀 4、ZeRO技術(shù)介紹 5、DeepSpeed部分代碼解讀 6、DeepSpeed/Megatron-LM/Colossal-AI/Transformers (二)基于Mistra-7B模型的推薦系統(tǒng)微調(diào)七步曲 1、第一步:推薦數(shù)據(jù)清洗 2、第二步:準備訓練和測試數(shù)據(jù) 3、第三步:推薦Prompt的Instruction設計 4、第四步:推薦標簽數(shù)據(jù)轉(zhuǎn)化為指令數(shù)據(jù) 5、第五步:基于DeepSpeed在Mistra-7B進行微調(diào) 6、第六步:評估大模型在推薦數(shù)據(jù)上的效果 7、第七步:持續(xù)優(yōu)化并評估 (三)基于ChatGLM3-6B構(gòu)建個人分身大模型微調(diào)七步曲 1、第一步:獲取Webchat個人對話數(shù)據(jù) 2、第二步:對話文件轉(zhuǎn)化成可讀的Text 3、第三步:對話數(shù)據(jù)清洗 4、第四步:個人分身的評估以及訓練、測試集準備 5、第五步:基于多倫對話數(shù)據(jù)構(gòu)造指令數(shù)據(jù) 6、第六步:基于DeepSpeed在ChatGLM3-6B上進行訓練 7、第七步:評估模型效果以及持續(xù)優(yōu)化 |
第五天上午: 微調(diào)實踐篇 一、大模型高階微調(diào)技術(shù) (一)增量預訓練+模型微調(diào) 1、什么是增量預訓練(Continuous Pre-train) 2、增量預訓練的挑戰(zhàn) 3、預訓練數(shù)據(jù)準備與微調(diào)數(shù)據(jù)準備 4、領(lǐng)域知識與通用知識 5、通用知識的遺忘 6、領(lǐng)域知識、通用知識的順序、配比問題 7、前沿技術(shù)方案剖析 (二)大模型微調(diào)中的挑戰(zhàn) 1、基礎(chǔ)模型的選擇標準 2、tokenizer修改以及解決方案 3、考慮很長的上下文,以及常見解決方案 4、考慮知識的遺忘,以及常見的解決方案 5、算力的利用效率以及提高算力利用率 6、數(shù)據(jù)質(zhì)量、數(shù)據(jù)多樣性的重要性 (三)大模型評估 1、領(lǐng)域大模型的評估標準設計 2、Benchmarking的重要性以及與解決思路 3、例子:金融大模型的評估緯度與benchmark準備 4、例子:情感大模型的評估緯度與benchmark準備 5、例子:醫(yī)療大模型的評估緯度與benchmark準備 (四)通用大模型搭建 1、通用大模型與領(lǐng)域大模型 2、通用大模型搭建pipeline 3、通用大模型的數(shù)據(jù)配比 4、數(shù)據(jù)清洗的pipeline 5、構(gòu)建模型結(jié)構(gòu)中的思考 6、訓練模型過程中的tricks |
第五天下午: 微調(diào)高級篇 一、大模型預訓練架構(gòu) (一)Encoder-Decoder預訓練架構(gòu) 1、編解碼器預訓練架構(gòu)剖析 2、案例分析 (二)Encoder-Only預訓練架構(gòu) 1、Encoder-Only預訓練架構(gòu)剖析 2、案例分析 (三)Decoder-Only預訓練架構(gòu) 1、Decoder-Only預訓練架構(gòu)剖析 2、案例分析 三、大模型預訓練框架深度剖析 (一)GPT-3模型深度剖析 1、模型原理深度剖析 2、模型源碼深度剖析 (二)常用開源預訓練模型 1、ChatGLM系列模型解讀 2、LLaMA系列模型解讀 3、Mistra-7B模型 (三)訓練特定領(lǐng)域私有模型 1、獲取模型文件 2、部署私有模型 3、對外服務開放 4、模型性能比較 |