課程簡(jiǎn)介
通過(guò)本課程您將深入學(xué)習(xí)湖倉(cāng)一體架構(gòu)的核心概念、優(yōu)勢(shì)以及典型架構(gòu)設(shè)計(jì),包括數(shù)據(jù)攝取、存儲(chǔ)、計(jì)算、治理和應(yīng)用等各層的關(guān)鍵組件與作用。通過(guò)對(duì)比數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的局限性,理解湖倉(cāng)一體如何簡(jiǎn)化架構(gòu)、降低成本并實(shí)現(xiàn)統(tǒng)一分析。在數(shù)據(jù)湖存儲(chǔ)技術(shù)方面,課程將詳細(xì)介紹 Apache Paimon、Apache Iceberg 和 Apache Hudi 等主流技術(shù)的特點(diǎn)、優(yōu)勢(shì)和劣勢(shì),并指導(dǎo)您進(jìn)行技術(shù)選型。您將通過(guò)動(dòng)手實(shí)踐,學(xué)會(huì)部署和配置這些存儲(chǔ)技術(shù),創(chuàng)建數(shù)據(jù)表、導(dǎo)入數(shù)據(jù)并執(zhí)行基本查詢(xún)。通過(guò)案例分析,您將了解湖倉(cāng)一體架構(gòu)在金融、電商等行業(yè)的實(shí)際應(yīng)用案例,學(xué)習(xí)架構(gòu)設(shè)計(jì)思路和最佳實(shí)踐,為實(shí)際項(xiàng)目提供有力參考。本課程將幫助您全面提升在數(shù)據(jù)管理和分析領(lǐng)域的專(zhuān)業(yè)技能,為企業(yè)的數(shù)字化轉(zhuǎn)型提供有力支持。
目標(biāo)收益
1,學(xué)員將掌握構(gòu)建湖倉(cāng)一體架構(gòu)的關(guān)鍵技術(shù)和組件,包括數(shù)據(jù)湖存儲(chǔ)、元數(shù)據(jù)管理、數(shù)據(jù)處理引擎等;
2,學(xué)員將掌握構(gòu)建湖倉(cāng)一體的數(shù)據(jù)湖存儲(chǔ)技術(shù),包括 Apache Paimon、Apache Iceberg 和 Apache Hudi,并能進(jìn)行技術(shù)選型;
3,學(xué)習(xí)如何在湖倉(cāng)一體架構(gòu)中進(jìn)行數(shù)據(jù)治理、安全和優(yōu)化;
4,掌握在湖倉(cāng)一體平臺(tái)上進(jìn)行數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和實(shí)時(shí)處理的方法;
5,掌握 StarRocks、Doris、ClickHouse 作為查詢(xún)加速引擎在湖倉(cāng)一體架構(gòu)中的應(yīng)用,并能進(jìn)行技術(shù)選型.
培訓(xùn)對(duì)象
本課程主要面向 數(shù)據(jù)工程師、數(shù)據(jù)架構(gòu)師、數(shù)據(jù)科學(xué)家、BI工程師、對(duì)數(shù)據(jù)管理和分析感興趣的技術(shù)人員。
課程內(nèi)容
第一天:湖倉(cāng)一體核心概念、架構(gòu)與數(shù)據(jù)湖存儲(chǔ)技術(shù)
模塊 1:湖倉(cāng)一體:概念與優(yōu)勢(shì) (上午)
1. 數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的局限性分析。
2. 傳統(tǒng)數(shù)據(jù)架構(gòu)面臨的挑戰(zhàn):數(shù)據(jù)孤島、數(shù)據(jù)冗余、ETL 復(fù)雜性。
3. 湖倉(cāng)一體的定義、核心原則與目標(biāo):簡(jiǎn)化架構(gòu)、降低成本、統(tǒng)一分析。
4. 湖倉(cāng)一體的核心特性:ACID事務(wù)、Schema Evolution、統(tǒng)一治理、BI/ML支持。
5. 湖倉(cāng)一體的應(yīng)用場(chǎng)景:實(shí)時(shí)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)。
6. 案例分析:成功應(yīng)用湖倉(cāng)一體架構(gòu)的企業(yè)案例。
模塊 2:湖倉(cāng)一體架構(gòu)設(shè)計(jì) (上午)
1. 湖倉(cāng)一體的典型架構(gòu):數(shù)據(jù)攝取層、存儲(chǔ)層、計(jì)算層、治理層、應(yīng)用層。
2. 湖倉(cāng)一體的數(shù)據(jù)組織方式:分層存儲(chǔ)、數(shù)據(jù)分區(qū)、數(shù)據(jù)分桶。
3. 元數(shù)據(jù)管理在湖倉(cāng)一體中的作用。
4. 湖倉(cāng)一體架構(gòu)的核心組件:數(shù)據(jù)湖存儲(chǔ)、元數(shù)據(jù)管理、數(shù)據(jù)處理引擎、數(shù)據(jù)訪問(wèn)層、數(shù)據(jù)安全與治理。
5. 湖倉(cāng)一體與數(shù)據(jù)網(wǎng)格的結(jié)合。
6. 查詢(xún)加速引擎在湖倉(cāng)一體架構(gòu)中的作用 (引入 StarRocks, Doris, ClickHouse)
7. 動(dòng)手實(shí)踐:設(shè)計(jì)符合特定場(chǎng)景的湖倉(cāng)一體架構(gòu),并考慮查詢(xún)加速引擎的選擇。
模塊 3:數(shù)據(jù)湖存儲(chǔ)技術(shù)選型與實(shí)踐 (下午)
1. 數(shù)據(jù)湖存儲(chǔ)技術(shù):Apache Paimon, Apache Iceberg, Apache Hudi。
2. 各種技術(shù)的特點(diǎn)、優(yōu)勢(shì)和劣勢(shì)對(duì)比。
3. 不同場(chǎng)景下的技術(shù)選型考量。
4. 動(dòng)手實(shí)踐:
?選擇一種數(shù)據(jù)湖存儲(chǔ)技術(shù) (Paimon, Iceberg, Hudi) 進(jìn)行部署和配置。
?創(chuàng)建數(shù)據(jù)表、導(dǎo)入數(shù)據(jù)、執(zhí)行基本查詢(xún)。
模塊 4:Apache Paimon 技術(shù)詳解 (下午)
1. Apache Paimon 的架構(gòu)與核心特性:ACID 事務(wù)、Schema Evolution、流批一體。
2. Apache Paimon 的數(shù)據(jù)存儲(chǔ)格式:Columnar & Row-based options.
3. Apache Paimon 的 changelog 特性: 支持增量消費(fèi).
4. Apache Paimon 的性能優(yōu)化:數(shù)據(jù)壓縮、數(shù)據(jù)分區(qū)、索引.
5. 動(dòng)手實(shí)踐:使用 Apache Paimon 創(chuàng)建數(shù)據(jù)表、進(jìn)行數(shù)據(jù)更新和查詢(xún).
第二天:湖倉(cāng)一體高級(jí)特性、查詢(xún)加速與應(yīng)用
模塊 5:Apache Iceberg 與 Apache Hudi 技術(shù)詳解 (上午)
1. Apache Iceberg 的架構(gòu)與核心特性:高性能查詢(xún)、Schema Evolution、隱藏分區(qū)。
2. Iceberg 的數(shù)據(jù)存儲(chǔ)格式:Metadata Table, Data File。
3. Iceberg 的快照隔離 (Snapshot Isolation) 功能:數(shù)據(jù)一致性。
4. Iceberg 的 Compaction 機(jī)制:優(yōu)化存儲(chǔ)空間、提升查詢(xún)性能。
5. Apache Hudi 的架構(gòu)與核心特性:增量處理、Upsert/Delete、時(shí)間線。
6. Hudi 的數(shù)據(jù)存儲(chǔ)格式:Copy-on-Write, Merge-on-Read。
7. Hudi 的索引技術(shù):Bloom Filter, Range Pruning。
8. Hudi 的 Compaction 策略:異步清理、性能優(yōu)化。
9. 動(dòng)手實(shí)踐:使用 Iceberg 和 Hudi 創(chuàng)建數(shù)據(jù)表、進(jìn)行數(shù)據(jù)更新和查詢(xún)。
模塊 6:湖倉(cāng)一體的數(shù)據(jù)治理與安全 (上午)
1. 數(shù)據(jù)質(zhì)量管理:定義數(shù)據(jù)質(zhì)量規(guī)則、監(jiān)控?cái)?shù)據(jù)質(zhì)量、修復(fù)數(shù)據(jù)質(zhì)量問(wèn)題。
2. 數(shù)據(jù)安全管理:身份驗(yàn)證、授權(quán)、加密、數(shù)據(jù)脫敏。
3. 數(shù)據(jù)血緣分析:追蹤數(shù)據(jù)的來(lái)源和轉(zhuǎn)換過(guò)程。
4. 數(shù)據(jù)合規(guī):GDPR, CCPA, HIPAA。
5. 元數(shù)據(jù)管理:使用 Apache Atlas, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog。
6. 動(dòng)手實(shí)踐:在湖倉(cāng)一體平臺(tái)上實(shí)施數(shù)據(jù)治理策略。
模塊 7:查詢(xún)加速引擎 (StarRocks, Doris, ClickHouse) 技術(shù)詳解 (下午)
1. StarRocks、Doris、ClickHouse 的架構(gòu)和核心特性對(duì)比。
2. StarRocks 的特點(diǎn): 全鏈路加速、支持多種數(shù)據(jù)源。
3. Doris 的特點(diǎn): 高并發(fā)、高可用、易于使用。
4. ClickHouse 的特點(diǎn): 列式存儲(chǔ)、向量化執(zhí)行、高性能分析。
5. 查詢(xún)加速引擎的技術(shù)選型:根據(jù)查詢(xún)模式、數(shù)據(jù)量、并發(fā)需求等進(jìn)行選擇。
6. 與其他計(jì)算引擎 (Spark, Flink) 的集成。
7. 動(dòng)手實(shí)踐:選擇一種查詢(xún)加速引擎進(jìn)行部署和配置,并進(jìn)行查詢(xún)測(cè)試
模塊 8:湖倉(cāng)一體的數(shù)據(jù)分析與應(yīng)用 (下午)
1. 數(shù)據(jù)查詢(xún):使用 SQL 引擎 (StarRocks SQL, Doris SQL, ClickHouse SQL, Spark SQL, Presto, Trino) 進(jìn)行交互式查詢(xún)和分析。
2. 數(shù)據(jù)可視化:使用 BI 工具 (Tableau, Power BI, Looker) 構(gòu)建可視化報(bào)表。
3. 數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的結(jié)合:
?使用 StarRocks/Doris/ClickHouse 加速數(shù)據(jù)倉(cāng)庫(kù)中的查詢(xún)。
?使用 Spark/Flink 處理數(shù)據(jù)湖中的數(shù)據(jù),并將結(jié)果加載到StarRocks/Doris/ClickHouse 中進(jìn)行查詢(xún)。
4. 機(jī)器學(xué)習(xí)應(yīng)用:使用 Spark MLlib, TensorFlow, PyTorch 構(gòu)建機(jī)器學(xué)習(xí)模型 (可選)。
5. 案例分析:湖倉(cāng)一體架構(gòu)在金融、電商等行業(yè)的實(shí)際應(yīng)用案例。
工具與技術(shù):
1. 數(shù)據(jù)湖存儲(chǔ):Apache Paimon, Apache Iceberg, Apache Hudi
2. 查詢(xún)加速引擎:StarRocks, Apache Doris, ClickHouse
3. 數(shù)據(jù)計(jì)算:Apache Spark, Presto, Trino, Apache Flink
4. 元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
5. BI工具:Tableau, Power BI, Looker
6. 機(jī)器學(xué)習(xí):Spark MLlib, TensorFlow, PyTorch (可選)
7. 流處理:Apache Kafka, AWS Kinesis, Apache Flink, Spark Streaming
8. 云平臺(tái):AWS, Azure, Google Cloud