課程簡介
深入理解流存儲技術(shù)的發(fā)展背景和趨勢。
掌握Fluss的核心設(shè)計理念、架構(gòu)和關(guān)鍵特性。
熟悉Fluss與流計算引擎的集成方式。
了解如何使用Fluss構(gòu)建流式數(shù)據(jù)湖。
掌握基于Fluss的流分析應(yīng)用開發(fā)。
了解Apache Paimon等相關(guān)技術(shù),并比較其優(yōu)劣。
目標(biāo)收益
培訓(xùn)對象
數(shù)據(jù)工程師、流計算工程師、數(shù)據(jù)架構(gòu)師、以及對新一代流存儲技術(shù)感興趣的技術(shù)人員
課程大綱
第一天:流存儲技術(shù)概覽與Fluss核心原理 模塊 1:流數(shù)據(jù)處理背景與挑戰(zhàn) (上午) |
流數(shù)據(jù)的定義、特點和應(yīng)用場景 傳統(tǒng)流數(shù)據(jù)處理架構(gòu)的局限性:高延遲、低可靠性、難擴(kuò)展 流存儲技術(shù)的發(fā)展趨勢:實時化、湖倉一體化、云原生化 新一代流存儲技術(shù)的關(guān)鍵需求:高吞吐、低延遲、強一致性、易擴(kuò)展 |
模塊 2:Fluss核心設(shè)計理念與架構(gòu) (上午) |
Fluss的設(shè)計目標(biāo):構(gòu)建高性能、高可靠、低成本的流存儲系統(tǒng) Fluss的核心設(shè)計理念:Log-structured Merge Tree (LSM Tree) 的優(yōu)化與改進(jìn) Fluss的整體架構(gòu):存儲層、索引層、元數(shù)據(jù)層、API層 Fluss的關(guān)鍵組件:Write Buffer、SSTable、Compaction、WAL (Write-Ahead Log) 動手實踐:分析Fluss架構(gòu)圖,理解各組件之間的交互關(guān)系 |
模塊 3:Fluss關(guān)鍵特性解析 (下午) |
Fluss的高吞吐寫入優(yōu)化:多線程并發(fā)寫入、WAL機制、零拷貝技術(shù) Fluss的低延遲讀取優(yōu)化:Bloom Filter、索引技術(shù)、Compaction策略 Fluss的數(shù)據(jù)一致性保證:ACID事務(wù)、Snapshot Isolation Fluss的可擴(kuò)展性設(shè)計:分片、副本、自動負(fù)載均衡 Fluss的容錯性機制:數(shù)據(jù)備份、故障恢復(fù) 動手實踐:討論并設(shè)計針對特定場景的Fluss配置參數(shù) |
模塊 4:Fluss安裝部署與基本使用 (下午) |
Fluss的安裝部署方式:本地部署、集群部署、云端部署 Fluss的配置參數(shù)詳解:存儲路徑、緩存大小、線程數(shù) Fluss的基本API使用:寫入數(shù)據(jù)、讀取數(shù)據(jù)、刪除數(shù)據(jù) Fluss的監(jiān)控與運維:日志分析、性能指標(biāo)、故障診斷 動手實踐:搭建Fluss本地環(huán)境,并進(jìn)行簡單的數(shù)據(jù)讀寫操作 |
第二天:Fluss與流計算引擎集成及流式數(shù)據(jù)湖構(gòu)建 模塊 5:Fluss與主流流計算引擎集成 (上午) |
Fluss與Apache Flink的集成:Connector開發(fā)、數(shù)據(jù)格式轉(zhuǎn)換 Fluss與Apache Spark Streaming的集成:RDD轉(zhuǎn)換、數(shù)據(jù)源適配 Fluss與其他流計算引擎的集成:Kafka Streams, Apache Beam 集成模式選擇:根據(jù)業(yè)務(wù)需求和技術(shù)棧 動手實踐:使用Flink消費Fluss中的數(shù)據(jù)并進(jìn)行簡單處理 |
模塊 6:使用Fluss構(gòu)建流式數(shù)據(jù)湖 (上午) |
流式數(shù)據(jù)湖的概念與優(yōu)勢:實時數(shù)據(jù)集成、低成本存儲、靈活分析 基于Fluss的流式數(shù)據(jù)湖架構(gòu)設(shè)計:數(shù)據(jù)攝取、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析 Fluss在流式數(shù)據(jù)湖中的角色:提供高性能、高可靠的流存儲 數(shù)據(jù)湖元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog 數(shù)據(jù)湖安全與治理:權(quán)限控制、數(shù)據(jù)加密、數(shù)據(jù)血緣 動手實踐:設(shè)計基于Fluss的流式數(shù)據(jù)湖架構(gòu),并討論關(guān)鍵技術(shù)選型 |
模塊 7:流式數(shù)據(jù)湖架構(gòu)設(shè)計與演進(jìn) (下午) |
Lambda架構(gòu):實時與離線并存,數(shù)據(jù)一致性挑戰(zhàn) Kappa架構(gòu):簡化架構(gòu),依賴強一致性流存儲 湖倉一體架構(gòu):Delta Lake, Apache Iceberg, Apache Hudi,提供事務(wù)性更新與查詢 基于Fluss的湖倉一體架構(gòu):利用Fluss作為實時數(shù)據(jù)源 動手實踐:比較不同架構(gòu)的優(yōu)缺點,并討論適用于特定場景的架構(gòu)方案 |
模塊 8:基于Fluss的流分析應(yīng)用開發(fā) (下午) |
流分析的應(yīng)用場景:實時監(jiān)控、異常檢測、趨勢預(yù)測 流分析的技術(shù)選型:CEP (Complex Event Processing), Time Series Database 使用CEP引擎分析Fluss中的數(shù)據(jù):Apache Flink CEP, Esper 使用時序數(shù)據(jù)庫存儲和分析Fluss中的數(shù)據(jù):InfluxDB, TimescaleDB 動手實踐:使用Flink CEP分析Fluss中的數(shù)據(jù)并進(jìn)行異常檢測 |
第三天:Fluss與其他流存儲技術(shù)對比及高級應(yīng)用 模塊 9:Apache Paimon技術(shù)解析 (上午) |
Apache Paimon的介紹:統(tǒng)一流式和批量處理的數(shù)據(jù)湖存儲 Paimon的核心特性:Schema Evolution, Upsert/Delete, Change Data Capture (CDC) Paimon的架構(gòu)設(shè)計:Catalog, Table Format, File System Paimon與Flink的集成:Streaming Sink, Source, Lookup Join 動手實踐:部署Paimon環(huán)境,并體驗其核心功能 |
模塊 10:Fluss vs. Paimon vs. 其他流存儲技術(shù) (上午) |
Fluss、Paimon、Kafka Streams、Apache Hudi等技術(shù)的對比分析 對比維度:性能、一致性、可擴(kuò)展性、易用性、社區(qū)活躍度 選擇合適的流存儲技術(shù):根據(jù)業(yè)務(wù)需求和技術(shù)棧 技術(shù)選型建議:針對不同應(yīng)用場景給出具體建議 |
模塊 11:Fluss高級特性與調(diào)優(yōu) (下午) |
Fluss的Compaction策略優(yōu)化:Tiered Compaction, Leveled Compaction Fluss的內(nèi)存管理優(yōu)化:Write Buffer大小、Cache策略 Fluss的IO調(diào)度優(yōu)化:磁盤調(diào)度算法、IO優(yōu)先級 Fluss的監(jiān)控與報警:Prometheus, Grafana 性能測試與基準(zhǔn)測試:JMH, YCSB 動手實踐:對Fluss進(jìn)行性能調(diào)優(yōu),并使用基準(zhǔn)測試工具評估效果 |
模塊 12:Fluss在實際場景中的應(yīng)用 (下午) |
案例1:構(gòu)建高吞吐的日志收集系統(tǒng) 案例2:構(gòu)建實時風(fēng)控系統(tǒng) 案例3:構(gòu)建流式推薦系統(tǒng) 案例分析:技術(shù)架構(gòu)、實施步驟、挑戰(zhàn)與解決方案 Fluss的未來發(fā)展趨勢:云原生、智能化、多模態(tài) 開放討論:學(xué)員分享實際工作中的流數(shù)據(jù)處理需求,探討如何使用Fluss解決問題 |
可選模塊 (根據(jù)客戶需求調(diào)整) Fluss源碼分析 |
深入剖析Fluss的源碼實現(xiàn) 理解關(guān)鍵組件的內(nèi)部邏輯 學(xué)習(xí)如何貢獻(xiàn)代碼到Fluss社區(qū) |
Fluss與云原生技術(shù)集成 |
在Kubernetes上部署Fluss 使用Docker容器化Fluss應(yīng)用 使用服務(wù)網(wǎng)格管理Fluss流量 |
Fluss安全與治理高級議題 |
數(shù)據(jù)加密與訪問控制 數(shù)據(jù)血緣與數(shù)據(jù)質(zhì)量 符合GDPR等合規(guī)要求 |
第一天:流存儲技術(shù)概覽與Fluss核心原理 模塊 1:流數(shù)據(jù)處理背景與挑戰(zhàn) (上午) 流數(shù)據(jù)的定義、特點和應(yīng)用場景 傳統(tǒng)流數(shù)據(jù)處理架構(gòu)的局限性:高延遲、低可靠性、難擴(kuò)展 流存儲技術(shù)的發(fā)展趨勢:實時化、湖倉一體化、云原生化 新一代流存儲技術(shù)的關(guān)鍵需求:高吞吐、低延遲、強一致性、易擴(kuò)展 |
模塊 2:Fluss核心設(shè)計理念與架構(gòu) (上午) Fluss的設(shè)計目標(biāo):構(gòu)建高性能、高可靠、低成本的流存儲系統(tǒng) Fluss的核心設(shè)計理念:Log-structured Merge Tree (LSM Tree) 的優(yōu)化與改進(jìn) Fluss的整體架構(gòu):存儲層、索引層、元數(shù)據(jù)層、API層 Fluss的關(guān)鍵組件:Write Buffer、SSTable、Compaction、WAL (Write-Ahead Log) 動手實踐:分析Fluss架構(gòu)圖,理解各組件之間的交互關(guān)系 |
模塊 3:Fluss關(guān)鍵特性解析 (下午) Fluss的高吞吐寫入優(yōu)化:多線程并發(fā)寫入、WAL機制、零拷貝技術(shù) Fluss的低延遲讀取優(yōu)化:Bloom Filter、索引技術(shù)、Compaction策略 Fluss的數(shù)據(jù)一致性保證:ACID事務(wù)、Snapshot Isolation Fluss的可擴(kuò)展性設(shè)計:分片、副本、自動負(fù)載均衡 Fluss的容錯性機制:數(shù)據(jù)備份、故障恢復(fù) 動手實踐:討論并設(shè)計針對特定場景的Fluss配置參數(shù) |
模塊 4:Fluss安裝部署與基本使用 (下午) Fluss的安裝部署方式:本地部署、集群部署、云端部署 Fluss的配置參數(shù)詳解:存儲路徑、緩存大小、線程數(shù) Fluss的基本API使用:寫入數(shù)據(jù)、讀取數(shù)據(jù)、刪除數(shù)據(jù) Fluss的監(jiān)控與運維:日志分析、性能指標(biāo)、故障診斷 動手實踐:搭建Fluss本地環(huán)境,并進(jìn)行簡單的數(shù)據(jù)讀寫操作 |
第二天:Fluss與流計算引擎集成及流式數(shù)據(jù)湖構(gòu)建 模塊 5:Fluss與主流流計算引擎集成 (上午) Fluss與Apache Flink的集成:Connector開發(fā)、數(shù)據(jù)格式轉(zhuǎn)換 Fluss與Apache Spark Streaming的集成:RDD轉(zhuǎn)換、數(shù)據(jù)源適配 Fluss與其他流計算引擎的集成:Kafka Streams, Apache Beam 集成模式選擇:根據(jù)業(yè)務(wù)需求和技術(shù)棧 動手實踐:使用Flink消費Fluss中的數(shù)據(jù)并進(jìn)行簡單處理 |
模塊 6:使用Fluss構(gòu)建流式數(shù)據(jù)湖 (上午) 流式數(shù)據(jù)湖的概念與優(yōu)勢:實時數(shù)據(jù)集成、低成本存儲、靈活分析 基于Fluss的流式數(shù)據(jù)湖架構(gòu)設(shè)計:數(shù)據(jù)攝取、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析 Fluss在流式數(shù)據(jù)湖中的角色:提供高性能、高可靠的流存儲 數(shù)據(jù)湖元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog 數(shù)據(jù)湖安全與治理:權(quán)限控制、數(shù)據(jù)加密、數(shù)據(jù)血緣 動手實踐:設(shè)計基于Fluss的流式數(shù)據(jù)湖架構(gòu),并討論關(guān)鍵技術(shù)選型 |
模塊 7:流式數(shù)據(jù)湖架構(gòu)設(shè)計與演進(jìn) (下午) Lambda架構(gòu):實時與離線并存,數(shù)據(jù)一致性挑戰(zhàn) Kappa架構(gòu):簡化架構(gòu),依賴強一致性流存儲 湖倉一體架構(gòu):Delta Lake, Apache Iceberg, Apache Hudi,提供事務(wù)性更新與查詢 基于Fluss的湖倉一體架構(gòu):利用Fluss作為實時數(shù)據(jù)源 動手實踐:比較不同架構(gòu)的優(yōu)缺點,并討論適用于特定場景的架構(gòu)方案 |
模塊 8:基于Fluss的流分析應(yīng)用開發(fā) (下午) 流分析的應(yīng)用場景:實時監(jiān)控、異常檢測、趨勢預(yù)測 流分析的技術(shù)選型:CEP (Complex Event Processing), Time Series Database 使用CEP引擎分析Fluss中的數(shù)據(jù):Apache Flink CEP, Esper 使用時序數(shù)據(jù)庫存儲和分析Fluss中的數(shù)據(jù):InfluxDB, TimescaleDB 動手實踐:使用Flink CEP分析Fluss中的數(shù)據(jù)并進(jìn)行異常檢測 |
第三天:Fluss與其他流存儲技術(shù)對比及高級應(yīng)用 模塊 9:Apache Paimon技術(shù)解析 (上午) Apache Paimon的介紹:統(tǒng)一流式和批量處理的數(shù)據(jù)湖存儲 Paimon的核心特性:Schema Evolution, Upsert/Delete, Change Data Capture (CDC) Paimon的架構(gòu)設(shè)計:Catalog, Table Format, File System Paimon與Flink的集成:Streaming Sink, Source, Lookup Join 動手實踐:部署Paimon環(huán)境,并體驗其核心功能 |
模塊 10:Fluss vs. Paimon vs. 其他流存儲技術(shù) (上午) Fluss、Paimon、Kafka Streams、Apache Hudi等技術(shù)的對比分析 對比維度:性能、一致性、可擴(kuò)展性、易用性、社區(qū)活躍度 選擇合適的流存儲技術(shù):根據(jù)業(yè)務(wù)需求和技術(shù)棧 技術(shù)選型建議:針對不同應(yīng)用場景給出具體建議 |
模塊 11:Fluss高級特性與調(diào)優(yōu) (下午) Fluss的Compaction策略優(yōu)化:Tiered Compaction, Leveled Compaction Fluss的內(nèi)存管理優(yōu)化:Write Buffer大小、Cache策略 Fluss的IO調(diào)度優(yōu)化:磁盤調(diào)度算法、IO優(yōu)先級 Fluss的監(jiān)控與報警:Prometheus, Grafana 性能測試與基準(zhǔn)測試:JMH, YCSB 動手實踐:對Fluss進(jìn)行性能調(diào)優(yōu),并使用基準(zhǔn)測試工具評估效果 |
模塊 12:Fluss在實際場景中的應(yīng)用 (下午) 案例1:構(gòu)建高吞吐的日志收集系統(tǒng) 案例2:構(gòu)建實時風(fēng)控系統(tǒng) 案例3:構(gòu)建流式推薦系統(tǒng) 案例分析:技術(shù)架構(gòu)、實施步驟、挑戰(zhàn)與解決方案 Fluss的未來發(fā)展趨勢:云原生、智能化、多模態(tài) 開放討論:學(xué)員分享實際工作中的流數(shù)據(jù)處理需求,探討如何使用Fluss解決問題 |
可選模塊 (根據(jù)客戶需求調(diào)整) Fluss源碼分析 深入剖析Fluss的源碼實現(xiàn) 理解關(guān)鍵組件的內(nèi)部邏輯 學(xué)習(xí)如何貢獻(xiàn)代碼到Fluss社區(qū) |
Fluss與云原生技術(shù)集成 在Kubernetes上部署Fluss 使用Docker容器化Fluss應(yīng)用 使用服務(wù)網(wǎng)格管理Fluss流量 |
Fluss安全與治理高級議題 數(shù)據(jù)加密與訪問控制 數(shù)據(jù)血緣與數(shù)據(jù)質(zhì)量 符合GDPR等合規(guī)要求 |