課程簡介
通過本課程您將深入學習湖倉一體架構(gòu)的核心概念、優(yōu)勢以及典型架構(gòu)設計,包括數(shù)據(jù)攝取、存儲、計算、治理和應用等各層的關(guān)鍵組件與作用。通過對比數(shù)據(jù)湖和數(shù)據(jù)倉庫的局限性,理解湖倉一體如何簡化架構(gòu)、降低成本并實現(xiàn)統(tǒng)一分析。在數(shù)據(jù)湖存儲技術(shù)方面,課程將詳細介紹 Apache Paimon、Apache Iceberg 和 Apache Hudi 等主流技術(shù)的特點、優(yōu)勢和劣勢,并指導您進行技術(shù)選型。您將通過動手實踐,學會部署和配置這些存儲技術(shù),創(chuàng)建數(shù)據(jù)表、導入數(shù)據(jù)并執(zhí)行基本查詢。通過案例分析,您將了解湖倉一體架構(gòu)在金融、電商等行業(yè)的實際應用案例,學習架構(gòu)設計思路和最佳實踐,為實際項目提供有力參考。本課程將幫助您全面提升在數(shù)據(jù)管理和分析領(lǐng)域的專業(yè)技能,為企業(yè)的數(shù)字化轉(zhuǎn)型提供有力支持。
目標收益
1,學員將掌握構(gòu)建湖倉一體架構(gòu)的關(guān)鍵技術(shù)和組件,包括數(shù)據(jù)湖存儲、元數(shù)據(jù)管理、數(shù)據(jù)處理引擎等;
2,學員將掌握構(gòu)建湖倉一體的數(shù)據(jù)湖存儲技術(shù),包括 Apache Paimon、Apache Iceberg 和 Apache Hudi,并能進行技術(shù)選型;
3,學習如何在湖倉一體架構(gòu)中進行數(shù)據(jù)治理、安全和優(yōu)化;
4,掌握在湖倉一體平臺上進行數(shù)據(jù)分析、機器學習和實時處理的方法;
5,掌握 StarRocks、Doris、ClickHouse 作為查詢加速引擎在湖倉一體架構(gòu)中的應用,并能進行技術(shù)選型.
培訓對象
本課程主要面向 數(shù)據(jù)工程師、數(shù)據(jù)架構(gòu)師、數(shù)據(jù)科學家、BI工程師、對數(shù)據(jù)管理和分析感興趣的技術(shù)人員。
課程內(nèi)容
第一天:湖倉一體核心概念、架構(gòu)與數(shù)據(jù)湖存儲技術(shù)
模塊 1:湖倉一體:概念與優(yōu)勢 (上午)
1. 數(shù)據(jù)湖和數(shù)據(jù)倉庫的局限性分析。
2. 傳統(tǒng)數(shù)據(jù)架構(gòu)面臨的挑戰(zhàn):數(shù)據(jù)孤島、數(shù)據(jù)冗余、ETL 復雜性。
3. 湖倉一體的定義、核心原則與目標:簡化架構(gòu)、降低成本、統(tǒng)一分析。
4. 湖倉一體的核心特性:ACID事務、Schema Evolution、統(tǒng)一治理、BI/ML支持。
5. 湖倉一體的應用場景:實時分析、機器學習、數(shù)據(jù)科學。
6. 案例分析:成功應用湖倉一體架構(gòu)的企業(yè)案例。
模塊 2:湖倉一體架構(gòu)設計 (上午)
1. 湖倉一體的典型架構(gòu):數(shù)據(jù)攝取層、存儲層、計算層、治理層、應用層。
2. 湖倉一體的數(shù)據(jù)組織方式:分層存儲、數(shù)據(jù)分區(qū)、數(shù)據(jù)分桶。
3. 元數(shù)據(jù)管理在湖倉一體中的作用。
4. 湖倉一體架構(gòu)的核心組件:數(shù)據(jù)湖存儲、元數(shù)據(jù)管理、數(shù)據(jù)處理引擎、數(shù)據(jù)訪問層、數(shù)據(jù)安全與治理。
5. 湖倉一體與數(shù)據(jù)網(wǎng)格的結(jié)合。
6. 查詢加速引擎在湖倉一體架構(gòu)中的作用 (引入 StarRocks, Doris, ClickHouse)
7. 動手實踐:設計符合特定場景的湖倉一體架構(gòu),并考慮查詢加速引擎的選擇。
模塊 3:數(shù)據(jù)湖存儲技術(shù)選型與實踐 (下午)
1. 數(shù)據(jù)湖存儲技術(shù):Apache Paimon, Apache Iceberg, Apache Hudi。
2. 各種技術(shù)的特點、優(yōu)勢和劣勢對比。
3. 不同場景下的技術(shù)選型考量。
4. 動手實踐:
?選擇一種數(shù)據(jù)湖存儲技術(shù) (Paimon, Iceberg, Hudi) 進行部署和配置。
?創(chuàng)建數(shù)據(jù)表、導入數(shù)據(jù)、執(zhí)行基本查詢。
模塊 4:Apache Paimon 技術(shù)詳解 (下午)
1. Apache Paimon 的架構(gòu)與核心特性:ACID 事務、Schema Evolution、流批一體。
2. Apache Paimon 的數(shù)據(jù)存儲格式:Columnar & Row-based options.
3. Apache Paimon 的 changelog 特性: 支持增量消費.
4. Apache Paimon 的性能優(yōu)化:數(shù)據(jù)壓縮、數(shù)據(jù)分區(qū)、索引.
5. 動手實踐:使用 Apache Paimon 創(chuàng)建數(shù)據(jù)表、進行數(shù)據(jù)更新和查詢.
第二天:湖倉一體高級特性、查詢加速與應用
模塊 5:Apache Iceberg 與 Apache Hudi 技術(shù)詳解 (上午)
1. Apache Iceberg 的架構(gòu)與核心特性:高性能查詢、Schema Evolution、隱藏分區(qū)。
2. Iceberg 的數(shù)據(jù)存儲格式:Metadata Table, Data File。
3. Iceberg 的快照隔離 (Snapshot Isolation) 功能:數(shù)據(jù)一致性。
4. Iceberg 的 Compaction 機制:優(yōu)化存儲空間、提升查詢性能。
5. Apache Hudi 的架構(gòu)與核心特性:增量處理、Upsert/Delete、時間線。
6. Hudi 的數(shù)據(jù)存儲格式:Copy-on-Write, Merge-on-Read。
7. Hudi 的索引技術(shù):Bloom Filter, Range Pruning。
8. Hudi 的 Compaction 策略:異步清理、性能優(yōu)化。
9. 動手實踐:使用 Iceberg 和 Hudi 創(chuàng)建數(shù)據(jù)表、進行數(shù)據(jù)更新和查詢。
模塊 6:湖倉一體的數(shù)據(jù)治理與安全 (上午)
1. 數(shù)據(jù)質(zhì)量管理:定義數(shù)據(jù)質(zhì)量規(guī)則、監(jiān)控數(shù)據(jù)質(zhì)量、修復數(shù)據(jù)質(zhì)量問題。
2. 數(shù)據(jù)安全管理:身份驗證、授權(quán)、加密、數(shù)據(jù)脫敏。
3. 數(shù)據(jù)血緣分析:追蹤數(shù)據(jù)的來源和轉(zhuǎn)換過程。
4. 數(shù)據(jù)合規(guī):GDPR, CCPA, HIPAA。
5. 元數(shù)據(jù)管理:使用 Apache Atlas, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog。
6. 動手實踐:在湖倉一體平臺上實施數(shù)據(jù)治理策略。
模塊 7:查詢加速引擎 (StarRocks, Doris, ClickHouse) 技術(shù)詳解 (下午)
1. StarRocks、Doris、ClickHouse 的架構(gòu)和核心特性對比。
2. StarRocks 的特點: 全鏈路加速、支持多種數(shù)據(jù)源。
3. Doris 的特點: 高并發(fā)、高可用、易于使用。
4. ClickHouse 的特點: 列式存儲、向量化執(zhí)行、高性能分析。
5. 查詢加速引擎的技術(shù)選型:根據(jù)查詢模式、數(shù)據(jù)量、并發(fā)需求等進行選擇。
6. 與其他計算引擎 (Spark, Flink) 的集成。
7. 動手實踐:選擇一種查詢加速引擎進行部署和配置,并進行查詢測試
模塊 8:湖倉一體的數(shù)據(jù)分析與應用 (下午)
1. 數(shù)據(jù)查詢:使用 SQL 引擎 (StarRocks SQL, Doris SQL, ClickHouse SQL, Spark SQL, Presto, Trino) 進行交互式查詢和分析。
2. 數(shù)據(jù)可視化:使用 BI 工具 (Tableau, Power BI, Looker) 構(gòu)建可視化報表。
3. 數(shù)據(jù)湖與數(shù)據(jù)倉庫的結(jié)合:
?使用 StarRocks/Doris/ClickHouse 加速數(shù)據(jù)倉庫中的查詢。
?使用 Spark/Flink 處理數(shù)據(jù)湖中的數(shù)據(jù),并將結(jié)果加載到StarRocks/Doris/ClickHouse 中進行查詢。
4. 機器學習應用:使用 Spark MLlib, TensorFlow, PyTorch 構(gòu)建機器學習模型 (可選)。
5. 案例分析:湖倉一體架構(gòu)在金融、電商等行業(yè)的實際應用案例。
工具與技術(shù):
1. 數(shù)據(jù)湖存儲:Apache Paimon, Apache Iceberg, Apache Hudi
2. 查詢加速引擎:StarRocks, Apache Doris, ClickHouse
3. 數(shù)據(jù)計算:Apache Spark, Presto, Trino, Apache Flink
4. 元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
5. BI工具:Tableau, Power BI, Looker
6. 機器學習:Spark MLlib, TensorFlow, PyTorch (可選)
7. 流處理:Apache Kafka, AWS Kinesis, Apache Flink, Spark Streaming
8. 云平臺:AWS, Azure, Google Cloud