課程簡介
深入理解流存儲技術的發(fā)展背景和趨勢。
掌握Fluss的核心設計理念、架構和關鍵特性。
熟悉Fluss與流計算引擎的集成方式。
了解如何使用Fluss構建流式數(shù)據(jù)湖。
掌握基于Fluss的流分析應用開發(fā)。
了解Apache Paimon等相關技術,并比較其優(yōu)劣。
目標收益
培訓對象
數(shù)據(jù)工程師、流計算工程師、數(shù)據(jù)架構師、以及對新一代流存儲技術感興趣的技術人員
課程大綱
第一天:流存儲技術概覽與Fluss核心原理 模塊 1:流數(shù)據(jù)處理背景與挑戰(zhàn) (上午) |
流數(shù)據(jù)的定義、特點和應用場景 傳統(tǒng)流數(shù)據(jù)處理架構的局限性:高延遲、低可靠性、難擴展 流存儲技術的發(fā)展趨勢:實時化、湖倉一體化、云原生化 新一代流存儲技術的關鍵需求:高吞吐、低延遲、強一致性、易擴展 |
模塊 2:Fluss核心設計理念與架構 (上午) |
Fluss的設計目標:構建高性能、高可靠、低成本的流存儲系統(tǒng) Fluss的核心設計理念:Log-structured Merge Tree (LSM Tree) 的優(yōu)化與改進 Fluss的整體架構:存儲層、索引層、元數(shù)據(jù)層、API層 Fluss的關鍵組件:Write Buffer、SSTable、Compaction、WAL (Write-Ahead Log) 動手實踐:分析Fluss架構圖,理解各組件之間的交互關系 |
模塊 3:Fluss關鍵特性解析 (下午) |
Fluss的高吞吐寫入優(yōu)化:多線程并發(fā)寫入、WAL機制、零拷貝技術 Fluss的低延遲讀取優(yōu)化:Bloom Filter、索引技術、Compaction策略 Fluss的數(shù)據(jù)一致性保證:ACID事務、Snapshot Isolation Fluss的可擴展性設計:分片、副本、自動負載均衡 Fluss的容錯性機制:數(shù)據(jù)備份、故障恢復 動手實踐:討論并設計針對特定場景的Fluss配置參數(shù) |
模塊 4:Fluss安裝部署與基本使用 (下午) |
Fluss的安裝部署方式:本地部署、集群部署、云端部署 Fluss的配置參數(shù)詳解:存儲路徑、緩存大小、線程數(shù) Fluss的基本API使用:寫入數(shù)據(jù)、讀取數(shù)據(jù)、刪除數(shù)據(jù) Fluss的監(jiān)控與運維:日志分析、性能指標、故障診斷 動手實踐:搭建Fluss本地環(huán)境,并進行簡單的數(shù)據(jù)讀寫操作 |
第二天:Fluss與流計算引擎集成及流式數(shù)據(jù)湖構建 模塊 5:Fluss與主流流計算引擎集成 (上午) |
Fluss與Apache Flink的集成:Connector開發(fā)、數(shù)據(jù)格式轉換 Fluss與Apache Spark Streaming的集成:RDD轉換、數(shù)據(jù)源適配 Fluss與其他流計算引擎的集成:Kafka Streams, Apache Beam 集成模式選擇:根據(jù)業(yè)務需求和技術棧 動手實踐:使用Flink消費Fluss中的數(shù)據(jù)并進行簡單處理 |
模塊 6:使用Fluss構建流式數(shù)據(jù)湖 (上午) |
流式數(shù)據(jù)湖的概念與優(yōu)勢:實時數(shù)據(jù)集成、低成本存儲、靈活分析 基于Fluss的流式數(shù)據(jù)湖架構設計:數(shù)據(jù)攝取、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析 Fluss在流式數(shù)據(jù)湖中的角色:提供高性能、高可靠的流存儲 數(shù)據(jù)湖元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog 數(shù)據(jù)湖安全與治理:權限控制、數(shù)據(jù)加密、數(shù)據(jù)血緣 動手實踐:設計基于Fluss的流式數(shù)據(jù)湖架構,并討論關鍵技術選型 |
模塊 7:流式數(shù)據(jù)湖架構設計與演進 (下午) |
Lambda架構:實時與離線并存,數(shù)據(jù)一致性挑戰(zhàn) Kappa架構:簡化架構,依賴強一致性流存儲 湖倉一體架構:Delta Lake, Apache Iceberg, Apache Hudi,提供事務性更新與查詢 基于Fluss的湖倉一體架構:利用Fluss作為實時數(shù)據(jù)源 動手實踐:比較不同架構的優(yōu)缺點,并討論適用于特定場景的架構方案 |
模塊 8:基于Fluss的流分析應用開發(fā) (下午) |
流分析的應用場景:實時監(jiān)控、異常檢測、趨勢預測 流分析的技術選型:CEP (Complex Event Processing), Time Series Database 使用CEP引擎分析Fluss中的數(shù)據(jù):Apache Flink CEP, Esper 使用時序數(shù)據(jù)庫存儲和分析Fluss中的數(shù)據(jù):InfluxDB, TimescaleDB 動手實踐:使用Flink CEP分析Fluss中的數(shù)據(jù)并進行異常檢測 |
第三天:Fluss與其他流存儲技術對比及高級應用 模塊 9:Apache Paimon技術解析 (上午) |
Apache Paimon的介紹:統(tǒng)一流式和批量處理的數(shù)據(jù)湖存儲 Paimon的核心特性:Schema Evolution, Upsert/Delete, Change Data Capture (CDC) Paimon的架構設計:Catalog, Table Format, File System Paimon與Flink的集成:Streaming Sink, Source, Lookup Join 動手實踐:部署Paimon環(huán)境,并體驗其核心功能 |
模塊 10:Fluss vs. Paimon vs. 其他流存儲技術 (上午) |
Fluss、Paimon、Kafka Streams、Apache Hudi等技術的對比分析 對比維度:性能、一致性、可擴展性、易用性、社區(qū)活躍度 選擇合適的流存儲技術:根據(jù)業(yè)務需求和技術棧 技術選型建議:針對不同應用場景給出具體建議 |
模塊 11:Fluss高級特性與調優(yōu) (下午) |
Fluss的Compaction策略優(yōu)化:Tiered Compaction, Leveled Compaction Fluss的內存管理優(yōu)化:Write Buffer大小、Cache策略 Fluss的IO調度優(yōu)化:磁盤調度算法、IO優(yōu)先級 Fluss的監(jiān)控與報警:Prometheus, Grafana 性能測試與基準測試:JMH, YCSB 動手實踐:對Fluss進行性能調優(yōu),并使用基準測試工具評估效果 |
模塊 12:Fluss在實際場景中的應用 (下午) |
案例1:構建高吞吐的日志收集系統(tǒng) 案例2:構建實時風控系統(tǒng) 案例3:構建流式推薦系統(tǒng) 案例分析:技術架構、實施步驟、挑戰(zhàn)與解決方案 Fluss的未來發(fā)展趨勢:云原生、智能化、多模態(tài) 開放討論:學員分享實際工作中的流數(shù)據(jù)處理需求,探討如何使用Fluss解決問題 |
可選模塊 (根據(jù)客戶需求調整) Fluss源碼分析 |
深入剖析Fluss的源碼實現(xiàn) 理解關鍵組件的內部邏輯 學習如何貢獻代碼到Fluss社區(qū) |
Fluss與云原生技術集成 |
在Kubernetes上部署Fluss 使用Docker容器化Fluss應用 使用服務網(wǎng)格管理Fluss流量 |
Fluss安全與治理高級議題 |
數(shù)據(jù)加密與訪問控制 數(shù)據(jù)血緣與數(shù)據(jù)質量 符合GDPR等合規(guī)要求 |
第一天:流存儲技術概覽與Fluss核心原理 模塊 1:流數(shù)據(jù)處理背景與挑戰(zhàn) (上午) 流數(shù)據(jù)的定義、特點和應用場景 傳統(tǒng)流數(shù)據(jù)處理架構的局限性:高延遲、低可靠性、難擴展 流存儲技術的發(fā)展趨勢:實時化、湖倉一體化、云原生化 新一代流存儲技術的關鍵需求:高吞吐、低延遲、強一致性、易擴展 |
模塊 2:Fluss核心設計理念與架構 (上午) Fluss的設計目標:構建高性能、高可靠、低成本的流存儲系統(tǒng) Fluss的核心設計理念:Log-structured Merge Tree (LSM Tree) 的優(yōu)化與改進 Fluss的整體架構:存儲層、索引層、元數(shù)據(jù)層、API層 Fluss的關鍵組件:Write Buffer、SSTable、Compaction、WAL (Write-Ahead Log) 動手實踐:分析Fluss架構圖,理解各組件之間的交互關系 |
模塊 3:Fluss關鍵特性解析 (下午) Fluss的高吞吐寫入優(yōu)化:多線程并發(fā)寫入、WAL機制、零拷貝技術 Fluss的低延遲讀取優(yōu)化:Bloom Filter、索引技術、Compaction策略 Fluss的數(shù)據(jù)一致性保證:ACID事務、Snapshot Isolation Fluss的可擴展性設計:分片、副本、自動負載均衡 Fluss的容錯性機制:數(shù)據(jù)備份、故障恢復 動手實踐:討論并設計針對特定場景的Fluss配置參數(shù) |
模塊 4:Fluss安裝部署與基本使用 (下午) Fluss的安裝部署方式:本地部署、集群部署、云端部署 Fluss的配置參數(shù)詳解:存儲路徑、緩存大小、線程數(shù) Fluss的基本API使用:寫入數(shù)據(jù)、讀取數(shù)據(jù)、刪除數(shù)據(jù) Fluss的監(jiān)控與運維:日志分析、性能指標、故障診斷 動手實踐:搭建Fluss本地環(huán)境,并進行簡單的數(shù)據(jù)讀寫操作 |
第二天:Fluss與流計算引擎集成及流式數(shù)據(jù)湖構建 模塊 5:Fluss與主流流計算引擎集成 (上午) Fluss與Apache Flink的集成:Connector開發(fā)、數(shù)據(jù)格式轉換 Fluss與Apache Spark Streaming的集成:RDD轉換、數(shù)據(jù)源適配 Fluss與其他流計算引擎的集成:Kafka Streams, Apache Beam 集成模式選擇:根據(jù)業(yè)務需求和技術棧 動手實踐:使用Flink消費Fluss中的數(shù)據(jù)并進行簡單處理 |
模塊 6:使用Fluss構建流式數(shù)據(jù)湖 (上午) 流式數(shù)據(jù)湖的概念與優(yōu)勢:實時數(shù)據(jù)集成、低成本存儲、靈活分析 基于Fluss的流式數(shù)據(jù)湖架構設計:數(shù)據(jù)攝取、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析 Fluss在流式數(shù)據(jù)湖中的角色:提供高性能、高可靠的流存儲 數(shù)據(jù)湖元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog 數(shù)據(jù)湖安全與治理:權限控制、數(shù)據(jù)加密、數(shù)據(jù)血緣 動手實踐:設計基于Fluss的流式數(shù)據(jù)湖架構,并討論關鍵技術選型 |
模塊 7:流式數(shù)據(jù)湖架構設計與演進 (下午) Lambda架構:實時與離線并存,數(shù)據(jù)一致性挑戰(zhàn) Kappa架構:簡化架構,依賴強一致性流存儲 湖倉一體架構:Delta Lake, Apache Iceberg, Apache Hudi,提供事務性更新與查詢 基于Fluss的湖倉一體架構:利用Fluss作為實時數(shù)據(jù)源 動手實踐:比較不同架構的優(yōu)缺點,并討論適用于特定場景的架構方案 |
模塊 8:基于Fluss的流分析應用開發(fā) (下午) 流分析的應用場景:實時監(jiān)控、異常檢測、趨勢預測 流分析的技術選型:CEP (Complex Event Processing), Time Series Database 使用CEP引擎分析Fluss中的數(shù)據(jù):Apache Flink CEP, Esper 使用時序數(shù)據(jù)庫存儲和分析Fluss中的數(shù)據(jù):InfluxDB, TimescaleDB 動手實踐:使用Flink CEP分析Fluss中的數(shù)據(jù)并進行異常檢測 |
第三天:Fluss與其他流存儲技術對比及高級應用 模塊 9:Apache Paimon技術解析 (上午) Apache Paimon的介紹:統(tǒng)一流式和批量處理的數(shù)據(jù)湖存儲 Paimon的核心特性:Schema Evolution, Upsert/Delete, Change Data Capture (CDC) Paimon的架構設計:Catalog, Table Format, File System Paimon與Flink的集成:Streaming Sink, Source, Lookup Join 動手實踐:部署Paimon環(huán)境,并體驗其核心功能 |
模塊 10:Fluss vs. Paimon vs. 其他流存儲技術 (上午) Fluss、Paimon、Kafka Streams、Apache Hudi等技術的對比分析 對比維度:性能、一致性、可擴展性、易用性、社區(qū)活躍度 選擇合適的流存儲技術:根據(jù)業(yè)務需求和技術棧 技術選型建議:針對不同應用場景給出具體建議 |
模塊 11:Fluss高級特性與調優(yōu) (下午) Fluss的Compaction策略優(yōu)化:Tiered Compaction, Leveled Compaction Fluss的內存管理優(yōu)化:Write Buffer大小、Cache策略 Fluss的IO調度優(yōu)化:磁盤調度算法、IO優(yōu)先級 Fluss的監(jiān)控與報警:Prometheus, Grafana 性能測試與基準測試:JMH, YCSB 動手實踐:對Fluss進行性能調優(yōu),并使用基準測試工具評估效果 |
模塊 12:Fluss在實際場景中的應用 (下午) 案例1:構建高吞吐的日志收集系統(tǒng) 案例2:構建實時風控系統(tǒng) 案例3:構建流式推薦系統(tǒng) 案例分析:技術架構、實施步驟、挑戰(zhàn)與解決方案 Fluss的未來發(fā)展趨勢:云原生、智能化、多模態(tài) 開放討論:學員分享實際工作中的流數(shù)據(jù)處理需求,探討如何使用Fluss解決問題 |
可選模塊 (根據(jù)客戶需求調整) Fluss源碼分析 深入剖析Fluss的源碼實現(xiàn) 理解關鍵組件的內部邏輯 學習如何貢獻代碼到Fluss社區(qū) |
Fluss與云原生技術集成 在Kubernetes上部署Fluss 使用Docker容器化Fluss應用 使用服務網(wǎng)格管理Fluss流量 |
Fluss安全與治理高級議題 數(shù)據(jù)加密與訪問控制 數(shù)據(jù)血緣與數(shù)據(jù)質量 符合GDPR等合規(guī)要求 |