課程費用

6800.00 /人

課程時長

4

成為教練

課程簡介

深入理解流存儲技術的發(fā)展背景和趨勢。
掌握Fluss的核心設計理念、架構和關鍵特性。
熟悉Fluss與流計算引擎的集成方式。
了解如何使用Fluss構建流式數(shù)據(jù)湖。
掌握基于Fluss的流分析應用開發(fā)。
了解Apache Paimon等相關技術,并比較其優(yōu)劣。

目標收益

培訓對象

數(shù)據(jù)工程師、流計算工程師、數(shù)據(jù)架構師、以及對新一代流存儲技術感興趣的技術人員

課程大綱

第一天:流存儲技術概覽與Fluss核心原理
模塊 1:流數(shù)據(jù)處理背景與挑戰(zhàn) (上午)
流數(shù)據(jù)的定義、特點和應用場景
傳統(tǒng)流數(shù)據(jù)處理架構的局限性:高延遲、低可靠性、難擴展
流存儲技術的發(fā)展趨勢:實時化、湖倉一體化、云原生化
新一代流存儲技術的關鍵需求:高吞吐、低延遲、強一致性、易擴展
模塊 2:Fluss核心設計理念與架構 (上午) Fluss的設計目標:構建高性能、高可靠、低成本的流存儲系統(tǒng)
Fluss的核心設計理念:Log-structured Merge Tree (LSM Tree) 的優(yōu)化與改進
Fluss的整體架構:存儲層、索引層、元數(shù)據(jù)層、API層
Fluss的關鍵組件:Write Buffer、SSTable、Compaction、WAL (Write-Ahead Log)
動手實踐:分析Fluss架構圖,理解各組件之間的交互關系
模塊 3:Fluss關鍵特性解析 (下午) Fluss的高吞吐寫入優(yōu)化:多線程并發(fā)寫入、WAL機制、零拷貝技術
Fluss的低延遲讀取優(yōu)化:Bloom Filter、索引技術、Compaction策略
Fluss的數(shù)據(jù)一致性保證:ACID事務、Snapshot Isolation
Fluss的可擴展性設計:分片、副本、自動負載均衡
Fluss的容錯性機制:數(shù)據(jù)備份、故障恢復
動手實踐:討論并設計針對特定場景的Fluss配置參數(shù)
模塊 4:Fluss安裝部署與基本使用 (下午) Fluss的安裝部署方式:本地部署、集群部署、云端部署
Fluss的配置參數(shù)詳解:存儲路徑、緩存大小、線程數(shù)
Fluss的基本API使用:寫入數(shù)據(jù)、讀取數(shù)據(jù)、刪除數(shù)據(jù)
Fluss的監(jiān)控與運維:日志分析、性能指標、故障診斷
動手實踐:搭建Fluss本地環(huán)境,并進行簡單的數(shù)據(jù)讀寫操作
第二天:Fluss與流計算引擎集成及流式數(shù)據(jù)湖構建
模塊 5:Fluss與主流流計算引擎集成 (上午)
Fluss與Apache Flink的集成:Connector開發(fā)、數(shù)據(jù)格式轉換
Fluss與Apache Spark Streaming的集成:RDD轉換、數(shù)據(jù)源適配
Fluss與其他流計算引擎的集成:Kafka Streams, Apache Beam
集成模式選擇:根據(jù)業(yè)務需求和技術棧
動手實踐:使用Flink消費Fluss中的數(shù)據(jù)并進行簡單處理
模塊 6:使用Fluss構建流式數(shù)據(jù)湖 (上午) 流式數(shù)據(jù)湖的概念與優(yōu)勢:實時數(shù)據(jù)集成、低成本存儲、靈活分析
基于Fluss的流式數(shù)據(jù)湖架構設計:數(shù)據(jù)攝取、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析
Fluss在流式數(shù)據(jù)湖中的角色:提供高性能、高可靠的流存儲
數(shù)據(jù)湖元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog
數(shù)據(jù)湖安全與治理:權限控制、數(shù)據(jù)加密、數(shù)據(jù)血緣
動手實踐:設計基于Fluss的流式數(shù)據(jù)湖架構,并討論關鍵技術選型
模塊 7:流式數(shù)據(jù)湖架構設計與演進 (下午) Lambda架構:實時與離線并存,數(shù)據(jù)一致性挑戰(zhàn)
Kappa架構:簡化架構,依賴強一致性流存儲
湖倉一體架構:Delta Lake, Apache Iceberg, Apache Hudi,提供事務性更新與查詢
基于Fluss的湖倉一體架構:利用Fluss作為實時數(shù)據(jù)源
動手實踐:比較不同架構的優(yōu)缺點,并討論適用于特定場景的架構方案
模塊 8:基于Fluss的流分析應用開發(fā) (下午) 流分析的應用場景:實時監(jiān)控、異常檢測、趨勢預測
流分析的技術選型:CEP (Complex Event Processing), Time Series Database
使用CEP引擎分析Fluss中的數(shù)據(jù):Apache Flink CEP, Esper
使用時序數(shù)據(jù)庫存儲和分析Fluss中的數(shù)據(jù):InfluxDB, TimescaleDB
動手實踐:使用Flink CEP分析Fluss中的數(shù)據(jù)并進行異常檢測
第三天:Fluss與其他流存儲技術對比及高級應用
模塊 9:Apache Paimon技術解析 (上午)
Apache Paimon的介紹:統(tǒng)一流式和批量處理的數(shù)據(jù)湖存儲
Paimon的核心特性:Schema Evolution, Upsert/Delete, Change Data Capture (CDC)
Paimon的架構設計:Catalog, Table Format, File System
Paimon與Flink的集成:Streaming Sink, Source, Lookup Join
動手實踐:部署Paimon環(huán)境,并體驗其核心功能
模塊 10:Fluss vs. Paimon vs. 其他流存儲技術 (上午) Fluss、Paimon、Kafka Streams、Apache Hudi等技術的對比分析
對比維度:性能、一致性、可擴展性、易用性、社區(qū)活躍度
選擇合適的流存儲技術:根據(jù)業(yè)務需求和技術棧
技術選型建議:針對不同應用場景給出具體建議
模塊 11:Fluss高級特性與調優(yōu) (下午) Fluss的Compaction策略優(yōu)化:Tiered Compaction, Leveled Compaction
Fluss的內存管理優(yōu)化:Write Buffer大小、Cache策略
Fluss的IO調度優(yōu)化:磁盤調度算法、IO優(yōu)先級
Fluss的監(jiān)控與報警:Prometheus, Grafana
性能測試與基準測試:JMH, YCSB
動手實踐:對Fluss進行性能調優(yōu),并使用基準測試工具評估效果
模塊 12:Fluss在實際場景中的應用 (下午) 案例1:構建高吞吐的日志收集系統(tǒng)
案例2:構建實時風控系統(tǒng)
案例3:構建流式推薦系統(tǒng)
案例分析:技術架構、實施步驟、挑戰(zhàn)與解決方案
Fluss的未來發(fā)展趨勢:云原生、智能化、多模態(tài)
開放討論:學員分享實際工作中的流數(shù)據(jù)處理需求,探討如何使用Fluss解決問題
可選模塊 (根據(jù)客戶需求調整)
Fluss源碼分析
深入剖析Fluss的源碼實現(xiàn)
理解關鍵組件的內部邏輯
學習如何貢獻代碼到Fluss社區(qū)
Fluss與云原生技術集成 在Kubernetes上部署Fluss
使用Docker容器化Fluss應用
使用服務網(wǎng)格管理Fluss流量
Fluss安全與治理高級議題 數(shù)據(jù)加密與訪問控制
數(shù)據(jù)血緣與數(shù)據(jù)質量
符合GDPR等合規(guī)要求
第一天:流存儲技術概覽與Fluss核心原理
模塊 1:流數(shù)據(jù)處理背景與挑戰(zhàn) (上午)
流數(shù)據(jù)的定義、特點和應用場景
傳統(tǒng)流數(shù)據(jù)處理架構的局限性:高延遲、低可靠性、難擴展
流存儲技術的發(fā)展趨勢:實時化、湖倉一體化、云原生化
新一代流存儲技術的關鍵需求:高吞吐、低延遲、強一致性、易擴展
模塊 2:Fluss核心設計理念與架構 (上午)
Fluss的設計目標:構建高性能、高可靠、低成本的流存儲系統(tǒng)
Fluss的核心設計理念:Log-structured Merge Tree (LSM Tree) 的優(yōu)化與改進
Fluss的整體架構:存儲層、索引層、元數(shù)據(jù)層、API層
Fluss的關鍵組件:Write Buffer、SSTable、Compaction、WAL (Write-Ahead Log)
動手實踐:分析Fluss架構圖,理解各組件之間的交互關系
模塊 3:Fluss關鍵特性解析 (下午)
Fluss的高吞吐寫入優(yōu)化:多線程并發(fā)寫入、WAL機制、零拷貝技術
Fluss的低延遲讀取優(yōu)化:Bloom Filter、索引技術、Compaction策略
Fluss的數(shù)據(jù)一致性保證:ACID事務、Snapshot Isolation
Fluss的可擴展性設計:分片、副本、自動負載均衡
Fluss的容錯性機制:數(shù)據(jù)備份、故障恢復
動手實踐:討論并設計針對特定場景的Fluss配置參數(shù)
模塊 4:Fluss安裝部署與基本使用 (下午)
Fluss的安裝部署方式:本地部署、集群部署、云端部署
Fluss的配置參數(shù)詳解:存儲路徑、緩存大小、線程數(shù)
Fluss的基本API使用:寫入數(shù)據(jù)、讀取數(shù)據(jù)、刪除數(shù)據(jù)
Fluss的監(jiān)控與運維:日志分析、性能指標、故障診斷
動手實踐:搭建Fluss本地環(huán)境,并進行簡單的數(shù)據(jù)讀寫操作
第二天:Fluss與流計算引擎集成及流式數(shù)據(jù)湖構建
模塊 5:Fluss與主流流計算引擎集成 (上午)
Fluss與Apache Flink的集成:Connector開發(fā)、數(shù)據(jù)格式轉換
Fluss與Apache Spark Streaming的集成:RDD轉換、數(shù)據(jù)源適配
Fluss與其他流計算引擎的集成:Kafka Streams, Apache Beam
集成模式選擇:根據(jù)業(yè)務需求和技術棧
動手實踐:使用Flink消費Fluss中的數(shù)據(jù)并進行簡單處理
模塊 6:使用Fluss構建流式數(shù)據(jù)湖 (上午)
流式數(shù)據(jù)湖的概念與優(yōu)勢:實時數(shù)據(jù)集成、低成本存儲、靈活分析
基于Fluss的流式數(shù)據(jù)湖架構設計:數(shù)據(jù)攝取、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析
Fluss在流式數(shù)據(jù)湖中的角色:提供高性能、高可靠的流存儲
數(shù)據(jù)湖元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog
數(shù)據(jù)湖安全與治理:權限控制、數(shù)據(jù)加密、數(shù)據(jù)血緣
動手實踐:設計基于Fluss的流式數(shù)據(jù)湖架構,并討論關鍵技術選型
模塊 7:流式數(shù)據(jù)湖架構設計與演進 (下午)
Lambda架構:實時與離線并存,數(shù)據(jù)一致性挑戰(zhàn)
Kappa架構:簡化架構,依賴強一致性流存儲
湖倉一體架構:Delta Lake, Apache Iceberg, Apache Hudi,提供事務性更新與查詢
基于Fluss的湖倉一體架構:利用Fluss作為實時數(shù)據(jù)源
動手實踐:比較不同架構的優(yōu)缺點,并討論適用于特定場景的架構方案
模塊 8:基于Fluss的流分析應用開發(fā) (下午)
流分析的應用場景:實時監(jiān)控、異常檢測、趨勢預測
流分析的技術選型:CEP (Complex Event Processing), Time Series Database
使用CEP引擎分析Fluss中的數(shù)據(jù):Apache Flink CEP, Esper
使用時序數(shù)據(jù)庫存儲和分析Fluss中的數(shù)據(jù):InfluxDB, TimescaleDB
動手實踐:使用Flink CEP分析Fluss中的數(shù)據(jù)并進行異常檢測
第三天:Fluss與其他流存儲技術對比及高級應用
模塊 9:Apache Paimon技術解析 (上午)
Apache Paimon的介紹:統(tǒng)一流式和批量處理的數(shù)據(jù)湖存儲
Paimon的核心特性:Schema Evolution, Upsert/Delete, Change Data Capture (CDC)
Paimon的架構設計:Catalog, Table Format, File System
Paimon與Flink的集成:Streaming Sink, Source, Lookup Join
動手實踐:部署Paimon環(huán)境,并體驗其核心功能
模塊 10:Fluss vs. Paimon vs. 其他流存儲技術 (上午)
Fluss、Paimon、Kafka Streams、Apache Hudi等技術的對比分析
對比維度:性能、一致性、可擴展性、易用性、社區(qū)活躍度
選擇合適的流存儲技術:根據(jù)業(yè)務需求和技術棧
技術選型建議:針對不同應用場景給出具體建議
模塊 11:Fluss高級特性與調優(yōu) (下午)
Fluss的Compaction策略優(yōu)化:Tiered Compaction, Leveled Compaction
Fluss的內存管理優(yōu)化:Write Buffer大小、Cache策略
Fluss的IO調度優(yōu)化:磁盤調度算法、IO優(yōu)先級
Fluss的監(jiān)控與報警:Prometheus, Grafana
性能測試與基準測試:JMH, YCSB
動手實踐:對Fluss進行性能調優(yōu),并使用基準測試工具評估效果
模塊 12:Fluss在實際場景中的應用 (下午)
案例1:構建高吞吐的日志收集系統(tǒng)
案例2:構建實時風控系統(tǒng)
案例3:構建流式推薦系統(tǒng)
案例分析:技術架構、實施步驟、挑戰(zhàn)與解決方案
Fluss的未來發(fā)展趨勢:云原生、智能化、多模態(tài)
開放討論:學員分享實際工作中的流數(shù)據(jù)處理需求,探討如何使用Fluss解決問題
可選模塊 (根據(jù)客戶需求調整)
Fluss源碼分析
深入剖析Fluss的源碼實現(xiàn)
理解關鍵組件的內部邏輯
學習如何貢獻代碼到Fluss社區(qū)
Fluss與云原生技術集成
在Kubernetes上部署Fluss
使用Docker容器化Fluss應用
使用服務網(wǎng)格管理Fluss流量
Fluss安全與治理高級議題
數(shù)據(jù)加密與訪問控制
數(shù)據(jù)血緣與數(shù)據(jù)質量
符合GDPR等合規(guī)要求

課程費用

6800.00 /人

課程時長

4

預約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求