課程簡(jiǎn)介
本次課程圍繞著實(shí)時(shí)計(jì)算和湖倉(cāng)一體的內(nèi)容進(jìn)行展開(kāi)。主要涉及Flink(重點(diǎn)是Flink SQL)、流式數(shù)據(jù)湖Paimon的核心原理及使用,實(shí)時(shí)OLAP引擎Doris的使用、以及湖倉(cāng)一體架構(gòu)的核心技術(shù)選型和整體架構(gòu)設(shè)計(jì)。在講解湖倉(cāng)一體架構(gòu)之前會(huì)系統(tǒng)分析數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展歷程和架構(gòu)演進(jìn)過(guò)程,包括離線(xiàn)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)、實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)之Lambda架構(gòu)、實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)之Kappa架構(gòu)(批流一體化)、最后到湖倉(cāng)一體架構(gòu)。
通過(guò)對(duì)湖倉(cāng)一體架構(gòu)系統(tǒng)的梳理,以及其中核心技術(shù)組件的講解,幫助學(xué)員快速掌握湖倉(cāng)一體架構(gòu)的應(yīng)用。
目標(biāo)收益
掌握Flink SQL的核心原理及使用
掌握流式數(shù)據(jù)湖技術(shù)組件Paimon的原理及使用
掌握實(shí)時(shí)OLAP引擎Doris的原理及使用
掌握數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的發(fā)展歷史
掌握數(shù)據(jù)倉(cāng)庫(kù)(離線(xiàn)+實(shí)時(shí))的架構(gòu)設(shè)計(jì)
掌握湖倉(cāng)一體架構(gòu)的設(shè)計(jì)和實(shí)現(xiàn)
培訓(xùn)對(duì)象
大數(shù)據(jù)崗位開(kāi)發(fā)人員
數(shù)據(jù)分析崗位人員
課程大綱
第一天 (上午) 湖倉(cāng)一體架構(gòu)的由來(lái) |
1 數(shù)據(jù)倉(cāng)庫(kù)的起源 2 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展歷程 3 離線(xiàn)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì) 4 實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)(Lambda和Kappa) 5 湖倉(cāng)一體架構(gòu)整體設(shè)計(jì) 6如何選擇數(shù)據(jù)倉(cāng)庫(kù)建模方式和建模模型 7湖倉(cāng)分層設(shè)計(jì)及命名規(guī)范 8湖倉(cāng)數(shù)據(jù)清洗規(guī)則及注意事項(xiàng) |
第一天 (下午) Flink SQL的核心原理及使用 |
1 Flink的核心原理及架構(gòu)分析 3 Flink SQL快速理解(離線(xiàn)計(jì)算+實(shí)時(shí)計(jì)算) 4 Flink SQL解析引擎之Calcite分析 5 Flink SQL典型案例實(shí)戰(zhàn) 6 Flink SQL中的靜態(tài)表和動(dòng)態(tài)表 7 Flink SQL常見(jiàn)的數(shù)據(jù)類(lèi)型 8 Flink SQL中的常規(guī)列和元數(shù)據(jù)列 9 Flink SQL滾動(dòng)窗口和滑動(dòng)窗口的使用 10 Flink SQL中Catalog的原理及使用 |
第二天 (上午) Paimon原理、架構(gòu)及使用 |
1 Paimon核心原理及架構(gòu) 2 基于Flink SQL操作Paimon 3 Paimon中的表類(lèi)型詳解 4 Paimon中的主鍵表和僅追加表 5 Changelog Producers原理及案例實(shí)戰(zhàn) 6 Merge Engines原理及案例實(shí)戰(zhàn) 7 Paimon中的Catalog和Table詳解 8 Paimon之CDC數(shù)據(jù)攝取 9 Paimon集成Hive引擎(Hive Metastore Catalog) 10 Paimon底層存儲(chǔ)文件深入剖析 |
第二天(下午) Doris原理、架構(gòu)及使用 |
1 Doris的前世今生 2 Doris原理及架構(gòu)分析 3 Doris中的數(shù)據(jù)類(lèi)型 4 Doris中數(shù)據(jù)庫(kù)和表的操作 5 Doris中外部表的定義和使用 6 Doris數(shù)據(jù)模型詳解 7 Doris的數(shù)據(jù)導(dǎo)入功能 8 Flink Doris Connect的使用 |
湖倉(cāng)一體架構(gòu)的構(gòu)建 | 案例分析:實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)(湖倉(cāng)一體)技術(shù)選項(xiàng)及架構(gòu)設(shè)計(jì) |
第一天 (上午) 湖倉(cāng)一體架構(gòu)的由來(lái) 1 數(shù)據(jù)倉(cāng)庫(kù)的起源 2 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展歷程 3 離線(xiàn)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì) 4 實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)(Lambda和Kappa) 5 湖倉(cāng)一體架構(gòu)整體設(shè)計(jì) 6如何選擇數(shù)據(jù)倉(cāng)庫(kù)建模方式和建模模型 7湖倉(cāng)分層設(shè)計(jì)及命名規(guī)范 8湖倉(cāng)數(shù)據(jù)清洗規(guī)則及注意事項(xiàng) |
第一天 (下午) Flink SQL的核心原理及使用 1 Flink的核心原理及架構(gòu)分析 3 Flink SQL快速理解(離線(xiàn)計(jì)算+實(shí)時(shí)計(jì)算) 4 Flink SQL解析引擎之Calcite分析 5 Flink SQL典型案例實(shí)戰(zhàn) 6 Flink SQL中的靜態(tài)表和動(dòng)態(tài)表 7 Flink SQL常見(jiàn)的數(shù)據(jù)類(lèi)型 8 Flink SQL中的常規(guī)列和元數(shù)據(jù)列 9 Flink SQL滾動(dòng)窗口和滑動(dòng)窗口的使用 10 Flink SQL中Catalog的原理及使用 |
第二天 (上午) Paimon原理、架構(gòu)及使用 1 Paimon核心原理及架構(gòu) 2 基于Flink SQL操作Paimon 3 Paimon中的表類(lèi)型詳解 4 Paimon中的主鍵表和僅追加表 5 Changelog Producers原理及案例實(shí)戰(zhàn) 6 Merge Engines原理及案例實(shí)戰(zhàn) 7 Paimon中的Catalog和Table詳解 8 Paimon之CDC數(shù)據(jù)攝取 9 Paimon集成Hive引擎(Hive Metastore Catalog) 10 Paimon底層存儲(chǔ)文件深入剖析 |
第二天(下午) Doris原理、架構(gòu)及使用 1 Doris的前世今生 2 Doris原理及架構(gòu)分析 3 Doris中的數(shù)據(jù)類(lèi)型 4 Doris中數(shù)據(jù)庫(kù)和表的操作 5 Doris中外部表的定義和使用 6 Doris數(shù)據(jù)模型詳解 7 Doris的數(shù)據(jù)導(dǎo)入功能 8 Flink Doris Connect的使用 |
湖倉(cāng)一體架構(gòu)的構(gòu)建 案例分析:實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)(湖倉(cāng)一體)技術(shù)選項(xiàng)及架構(gòu)設(shè)計(jì) |