課程簡(jiǎn)介
理解實(shí)時(shí)數(shù)據(jù)分析的核心概念、架構(gòu)和優(yōu)勢(shì)。
掌握主流流計(jì)算引擎(Apache Flink、Apache Kafka Streams)的使用方法。
掌握 StarRocks 實(shí)時(shí)數(shù)據(jù)庫(kù)的設(shè)計(jì)和應(yīng)用。
學(xué)習(xí)使用窗口函數(shù)和復(fù)雜事件處理(CEP)技術(shù)進(jìn)行高級(jí)實(shí)時(shí)分析。
了解實(shí)時(shí)數(shù)據(jù)分析的應(yīng)用場(chǎng)景和最佳實(shí)踐。
能夠構(gòu)建自己的實(shí)時(shí)數(shù)據(jù)分析原型系統(tǒng)。
目標(biāo)收益
培訓(xùn)對(duì)象
數(shù)據(jù)工程師、流計(jì)算工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、以及對(duì)實(shí)時(shí)數(shù)據(jù)處理感興趣的技術(shù)人員。
課程大綱
第一天:實(shí)時(shí)數(shù)據(jù)分析基礎(chǔ)與流計(jì)算引擎 模塊 1:實(shí)時(shí)數(shù)據(jù)分析概述 (上午) |
實(shí)時(shí)數(shù)據(jù)的定義、特點(diǎn)和應(yīng)用場(chǎng)景 傳統(tǒng)數(shù)據(jù)分析與實(shí)時(shí)數(shù)據(jù)分析的對(duì)比 實(shí)時(shí)數(shù)據(jù)分析的價(jià)值與挑戰(zhàn) 實(shí)時(shí)數(shù)據(jù)分析的架構(gòu)與核心組件:數(shù)據(jù)源、流計(jì)算引擎、存儲(chǔ)系統(tǒng)、可視化工具 |
模塊 2:流計(jì)算引擎基礎(chǔ) (上午) |
流計(jì)算引擎的定義與特點(diǎn) 有狀態(tài)計(jì)算與無(wú)狀態(tài)計(jì)算 Exactly-Once語(yǔ)義與容錯(cuò)機(jī)制 窗口函數(shù) (Windowing) 的概念與類型:滾動(dòng)窗口、滑動(dòng)窗口、會(huì)話窗口 水印 (Watermark) 的作用:處理亂序數(shù)據(jù)和延遲數(shù)據(jù) |
模塊 3:Apache Flink技術(shù)詳解 (下午) |
Apache Flink的架構(gòu)與核心組件:DataStream API, Table API, CEP Flink的數(shù)據(jù)模型:Stream, DataSet, Table Flink的窗口函數(shù):Time-based Windows, Count-based Windows, Session Windows Flink的容錯(cuò)機(jī)制:Checkpoint, Savepoint 動(dòng)手實(shí)踐:使用Flink DataStream API構(gòu)建簡(jiǎn)單的流式數(shù)據(jù)處理程序 |
模塊 4:Apache Kafka Streams技術(shù)詳解 (下午) |
Apache Kafka Streams的架構(gòu)與核心組件:Topology, Processor, State Store Kafka Streams的數(shù)據(jù)模型:KStream, KTable, GlobalKTable Kafka Streams的窗口函數(shù):Time Windows, Session Windows, Hopping Windows Kafka Streams的容錯(cuò)機(jī)制:Changelog Topic 動(dòng)手實(shí)踐:使用Kafka Streams構(gòu)建簡(jiǎn)單的流式數(shù)據(jù)處理程序 |
第二天:StarRocks 實(shí)時(shí)數(shù)據(jù)庫(kù)與高級(jí)分析技術(shù) 模塊 5:StarRocks技術(shù)詳解 (上午) |
StarRocks的架構(gòu)與核心組件:FE, BE StarRocks的數(shù)據(jù)模型:Table, Partition, Segment StarRocks的查詢語(yǔ)言:SQL StarRocks的索引技術(shù):Bitmap Index, Inverted Index, Prefix Index StarRocks的存儲(chǔ)引擎:列式存儲(chǔ)引擎 動(dòng)手實(shí)踐:使用StarRocks存儲(chǔ)和查詢實(shí)時(shí)數(shù)據(jù) |
模塊 6:StarRocks的性能優(yōu)化與管理 (上午) |
StarRocks的數(shù)據(jù)導(dǎo)入方式:Stream Load, Broker Load, Routine Load StarRocks的查詢優(yōu)化:查詢重寫(xiě), 索引選擇, 執(zhí)行計(jì)劃 StarRocks的集群管理:擴(kuò)容, 縮容, 故障恢復(fù) StarRocks的監(jiān)控與報(bào)警 動(dòng)手實(shí)踐:對(duì)StarRocks進(jìn)行性能調(diào)優(yōu) |
模塊 7:復(fù)雜事件處理 (CEP) 技術(shù) (下午) |
CEP的定義與應(yīng)用場(chǎng)景 CEP的模式語(yǔ)言:定義事件模式、條件、時(shí)間約束 CEP的常用引擎:Apache Flink CEP, Esper CEP的應(yīng)用案例:欺詐檢測(cè)、異常監(jiān)控、智能推薦 動(dòng)手實(shí)踐:使用Flink CEP分析數(shù)據(jù)并進(jìn)行復(fù)雜事件處理 |
模塊 8:StarRocks 與 Flink 的集成 (下午) |
使用 Flink CDC 實(shí)時(shí)同步數(shù)據(jù)庫(kù)數(shù)據(jù)到 StarRocks 使用 Flink 連接器將 Flink 計(jì)算結(jié)果寫(xiě)入 StarRocks 利用 StarRocks 的高性能分析能力加速 Flink 的計(jì)算結(jié)果查詢 動(dòng)手實(shí)踐:配置 Flink CDC 同步數(shù)據(jù)到 StarRocks |
第三天:實(shí)時(shí)數(shù)據(jù)分析應(yīng)用與最佳實(shí)踐 模塊 9:實(shí)時(shí)數(shù)據(jù)分析的應(yīng)用場(chǎng)景 (上午) |
實(shí)時(shí)監(jiān)控與報(bào)警:系統(tǒng)監(jiān)控、安全監(jiān)控、業(yè)務(wù)監(jiān)控 實(shí)時(shí)推薦:個(gè)性化推薦、內(nèi)容推送、廣告投放 實(shí)時(shí)欺詐檢測(cè):信用卡欺詐、網(wǎng)絡(luò)攻擊、交易風(fēng)險(xiǎn) 實(shí)時(shí)數(shù)據(jù)可視化:儀表盤、報(bào)表、大屏展示 實(shí)時(shí)決策:智能定價(jià)、庫(kù)存優(yōu)化、供應(yīng)鏈管理 |
模塊 10:構(gòu)建實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)的最佳實(shí)踐 (上午) |
選擇合適的流計(jì)算引擎和實(shí)時(shí)數(shù)據(jù)庫(kù) 設(shè)計(jì)高效的數(shù)據(jù)模型和查詢模式 優(yōu)化數(shù)據(jù)攝取和處理性能 保障數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全 實(shí)施監(jiān)控和報(bào)警機(jī)制 |
模塊 11:實(shí)時(shí)數(shù)據(jù)分析的架構(gòu)模式 (下午) |
Lambda架構(gòu):結(jié)合批處理和流處理 Kappa架構(gòu):簡(jiǎn)化架構(gòu),只依賴流處理 流式數(shù)據(jù)湖架構(gòu):利用數(shù)據(jù)湖的低成本存儲(chǔ)和靈活分析能力 選擇合適的架構(gòu)模式:根據(jù)業(yè)務(wù)需求和技術(shù)棧 |
模塊 12:實(shí)時(shí)數(shù)據(jù)分析的未來(lái)趨勢(shì) (下午) |
AI驅(qū)動(dòng)的實(shí)時(shí)數(shù)據(jù)分析:利用機(jī)器學(xué)習(xí)進(jìn)行智能異常檢測(cè)和預(yù)測(cè) 云原生實(shí)時(shí)數(shù)據(jù)分析:基于云平臺(tái)構(gòu)建彈性伸縮的實(shí)時(shí)分析系統(tǒng) Serverless實(shí)時(shí)數(shù)據(jù)分析:利用Serverless計(jì)算降低成本和運(yùn)維復(fù)雜性 開(kāi)放討論:學(xué)員分享對(duì)實(shí)時(shí)數(shù)據(jù)分析未來(lái)發(fā)展的看法 |
可選模塊 (根據(jù)客戶需求調(diào)整) |
高級(jí)流計(jì)算技術(shù): Exactly-Once語(yǔ)義、狀態(tài)管理、窗口函數(shù)優(yōu)化 StarRocks高級(jí)技術(shù): 數(shù)據(jù)分片、索引優(yōu)化、查詢優(yōu)化 特定行業(yè)實(shí)時(shí)數(shù)據(jù)分析案例: 金融、零售、電商、物聯(lián)網(wǎng) |
工具與技術(shù): |
流計(jì)算引擎:Apache Flink, Apache Kafka Streams 實(shí)時(shí)數(shù)據(jù)庫(kù): StarRocks 消息隊(duì)列:Apache Kafka, RabbitMQ 數(shù)據(jù)可視化:Tableau, Power BI, Grafana 云平臺(tái):AWS, Azure, Google Cloud |
第一天:實(shí)時(shí)數(shù)據(jù)分析基礎(chǔ)與流計(jì)算引擎 模塊 1:實(shí)時(shí)數(shù)據(jù)分析概述 (上午) 實(shí)時(shí)數(shù)據(jù)的定義、特點(diǎn)和應(yīng)用場(chǎng)景 傳統(tǒng)數(shù)據(jù)分析與實(shí)時(shí)數(shù)據(jù)分析的對(duì)比 實(shí)時(shí)數(shù)據(jù)分析的價(jià)值與挑戰(zhàn) 實(shí)時(shí)數(shù)據(jù)分析的架構(gòu)與核心組件:數(shù)據(jù)源、流計(jì)算引擎、存儲(chǔ)系統(tǒng)、可視化工具 |
模塊 2:流計(jì)算引擎基礎(chǔ) (上午) 流計(jì)算引擎的定義與特點(diǎn) 有狀態(tài)計(jì)算與無(wú)狀態(tài)計(jì)算 Exactly-Once語(yǔ)義與容錯(cuò)機(jī)制 窗口函數(shù) (Windowing) 的概念與類型:滾動(dòng)窗口、滑動(dòng)窗口、會(huì)話窗口 水印 (Watermark) 的作用:處理亂序數(shù)據(jù)和延遲數(shù)據(jù) |
模塊 3:Apache Flink技術(shù)詳解 (下午) Apache Flink的架構(gòu)與核心組件:DataStream API, Table API, CEP Flink的數(shù)據(jù)模型:Stream, DataSet, Table Flink的窗口函數(shù):Time-based Windows, Count-based Windows, Session Windows Flink的容錯(cuò)機(jī)制:Checkpoint, Savepoint 動(dòng)手實(shí)踐:使用Flink DataStream API構(gòu)建簡(jiǎn)單的流式數(shù)據(jù)處理程序 |
模塊 4:Apache Kafka Streams技術(shù)詳解 (下午) Apache Kafka Streams的架構(gòu)與核心組件:Topology, Processor, State Store Kafka Streams的數(shù)據(jù)模型:KStream, KTable, GlobalKTable Kafka Streams的窗口函數(shù):Time Windows, Session Windows, Hopping Windows Kafka Streams的容錯(cuò)機(jī)制:Changelog Topic 動(dòng)手實(shí)踐:使用Kafka Streams構(gòu)建簡(jiǎn)單的流式數(shù)據(jù)處理程序 |
第二天:StarRocks 實(shí)時(shí)數(shù)據(jù)庫(kù)與高級(jí)分析技術(shù) 模塊 5:StarRocks技術(shù)詳解 (上午) StarRocks的架構(gòu)與核心組件:FE, BE StarRocks的數(shù)據(jù)模型:Table, Partition, Segment StarRocks的查詢語(yǔ)言:SQL StarRocks的索引技術(shù):Bitmap Index, Inverted Index, Prefix Index StarRocks的存儲(chǔ)引擎:列式存儲(chǔ)引擎 動(dòng)手實(shí)踐:使用StarRocks存儲(chǔ)和查詢實(shí)時(shí)數(shù)據(jù) |
模塊 6:StarRocks的性能優(yōu)化與管理 (上午) StarRocks的數(shù)據(jù)導(dǎo)入方式:Stream Load, Broker Load, Routine Load StarRocks的查詢優(yōu)化:查詢重寫(xiě), 索引選擇, 執(zhí)行計(jì)劃 StarRocks的集群管理:擴(kuò)容, 縮容, 故障恢復(fù) StarRocks的監(jiān)控與報(bào)警 動(dòng)手實(shí)踐:對(duì)StarRocks進(jìn)行性能調(diào)優(yōu) |
模塊 7:復(fù)雜事件處理 (CEP) 技術(shù) (下午) CEP的定義與應(yīng)用場(chǎng)景 CEP的模式語(yǔ)言:定義事件模式、條件、時(shí)間約束 CEP的常用引擎:Apache Flink CEP, Esper CEP的應(yīng)用案例:欺詐檢測(cè)、異常監(jiān)控、智能推薦 動(dòng)手實(shí)踐:使用Flink CEP分析數(shù)據(jù)并進(jìn)行復(fù)雜事件處理 |
模塊 8:StarRocks 與 Flink 的集成 (下午) 使用 Flink CDC 實(shí)時(shí)同步數(shù)據(jù)庫(kù)數(shù)據(jù)到 StarRocks 使用 Flink 連接器將 Flink 計(jì)算結(jié)果寫(xiě)入 StarRocks 利用 StarRocks 的高性能分析能力加速 Flink 的計(jì)算結(jié)果查詢 動(dòng)手實(shí)踐:配置 Flink CDC 同步數(shù)據(jù)到 StarRocks |
第三天:實(shí)時(shí)數(shù)據(jù)分析應(yīng)用與最佳實(shí)踐 模塊 9:實(shí)時(shí)數(shù)據(jù)分析的應(yīng)用場(chǎng)景 (上午) 實(shí)時(shí)監(jiān)控與報(bào)警:系統(tǒng)監(jiān)控、安全監(jiān)控、業(yè)務(wù)監(jiān)控 實(shí)時(shí)推薦:個(gè)性化推薦、內(nèi)容推送、廣告投放 實(shí)時(shí)欺詐檢測(cè):信用卡欺詐、網(wǎng)絡(luò)攻擊、交易風(fēng)險(xiǎn) 實(shí)時(shí)數(shù)據(jù)可視化:儀表盤、報(bào)表、大屏展示 實(shí)時(shí)決策:智能定價(jià)、庫(kù)存優(yōu)化、供應(yīng)鏈管理 |
模塊 10:構(gòu)建實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)的最佳實(shí)踐 (上午) 選擇合適的流計(jì)算引擎和實(shí)時(shí)數(shù)據(jù)庫(kù) 設(shè)計(jì)高效的數(shù)據(jù)模型和查詢模式 優(yōu)化數(shù)據(jù)攝取和處理性能 保障數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全 實(shí)施監(jiān)控和報(bào)警機(jī)制 |
模塊 11:實(shí)時(shí)數(shù)據(jù)分析的架構(gòu)模式 (下午) Lambda架構(gòu):結(jié)合批處理和流處理 Kappa架構(gòu):簡(jiǎn)化架構(gòu),只依賴流處理 流式數(shù)據(jù)湖架構(gòu):利用數(shù)據(jù)湖的低成本存儲(chǔ)和靈活分析能力 選擇合適的架構(gòu)模式:根據(jù)業(yè)務(wù)需求和技術(shù)棧 |
模塊 12:實(shí)時(shí)數(shù)據(jù)分析的未來(lái)趨勢(shì) (下午) AI驅(qū)動(dòng)的實(shí)時(shí)數(shù)據(jù)分析:利用機(jī)器學(xué)習(xí)進(jìn)行智能異常檢測(cè)和預(yù)測(cè) 云原生實(shí)時(shí)數(shù)據(jù)分析:基于云平臺(tái)構(gòu)建彈性伸縮的實(shí)時(shí)分析系統(tǒng) Serverless實(shí)時(shí)數(shù)據(jù)分析:利用Serverless計(jì)算降低成本和運(yùn)維復(fù)雜性 開(kāi)放討論:學(xué)員分享對(duì)實(shí)時(shí)數(shù)據(jù)分析未來(lái)發(fā)展的看法 |
可選模塊 (根據(jù)客戶需求調(diào)整) 高級(jí)流計(jì)算技術(shù): Exactly-Once語(yǔ)義、狀態(tài)管理、窗口函數(shù)優(yōu)化 StarRocks高級(jí)技術(shù): 數(shù)據(jù)分片、索引優(yōu)化、查詢優(yōu)化 特定行業(yè)實(shí)時(shí)數(shù)據(jù)分析案例: 金融、零售、電商、物聯(lián)網(wǎng) |
工具與技術(shù): 流計(jì)算引擎:Apache Flink, Apache Kafka Streams 實(shí)時(shí)數(shù)據(jù)庫(kù): StarRocks 消息隊(duì)列:Apache Kafka, RabbitMQ 數(shù)據(jù)可視化:Tableau, Power BI, Grafana 云平臺(tái):AWS, Azure, Google Cloud |