課程費用

6800.00 /人

課程時長

4

成為教練

課程簡介

深入理解流存儲技術(shù)的發(fā)展背景和趨勢。
掌握Fluss的核心設(shè)計理念、架構(gòu)和關(guān)鍵特性。
熟悉Fluss與流計算引擎的集成方式。
了解如何使用Fluss構(gòu)建流式數(shù)據(jù)湖。
掌握基于Fluss的流分析應(yīng)用開發(fā)。
了解Apache Paimon等相關(guān)技術(shù),并比較其優(yōu)劣。

目標(biāo)收益

培訓(xùn)對象

數(shù)據(jù)工程師、流計算工程師、數(shù)據(jù)架構(gòu)師、以及對新一代流存儲技術(shù)感興趣的技術(shù)人員

課程大綱

第一天:流存儲技術(shù)概覽與Fluss核心原理
模塊 1:流數(shù)據(jù)處理背景與挑戰(zhàn) (上午)
流數(shù)據(jù)的定義、特點和應(yīng)用場景
傳統(tǒng)流數(shù)據(jù)處理架構(gòu)的局限性:高延遲、低可靠性、難擴(kuò)展
流存儲技術(shù)的發(fā)展趨勢:實時化、湖倉一體化、云原生化
新一代流存儲技術(shù)的關(guān)鍵需求:高吞吐、低延遲、強一致性、易擴(kuò)展
模塊 2:Fluss核心設(shè)計理念與架構(gòu) (上午) Fluss的設(shè)計目標(biāo):構(gòu)建高性能、高可靠、低成本的流存儲系統(tǒng)
Fluss的核心設(shè)計理念:Log-structured Merge Tree (LSM Tree) 的優(yōu)化與改進(jìn)
Fluss的整體架構(gòu):存儲層、索引層、元數(shù)據(jù)層、API層
Fluss的關(guān)鍵組件:Write Buffer、SSTable、Compaction、WAL (Write-Ahead Log)
動手實踐:分析Fluss架構(gòu)圖,理解各組件之間的交互關(guān)系
模塊 3:Fluss關(guān)鍵特性解析 (下午) Fluss的高吞吐寫入優(yōu)化:多線程并發(fā)寫入、WAL機制、零拷貝技術(shù)
Fluss的低延遲讀取優(yōu)化:Bloom Filter、索引技術(shù)、Compaction策略
Fluss的數(shù)據(jù)一致性保證:ACID事務(wù)、Snapshot Isolation
Fluss的可擴(kuò)展性設(shè)計:分片、副本、自動負(fù)載均衡
Fluss的容錯性機制:數(shù)據(jù)備份、故障恢復(fù)
動手實踐:討論并設(shè)計針對特定場景的Fluss配置參數(shù)
模塊 4:Fluss安裝部署與基本使用 (下午) Fluss的安裝部署方式:本地部署、集群部署、云端部署
Fluss的配置參數(shù)詳解:存儲路徑、緩存大小、線程數(shù)
Fluss的基本API使用:寫入數(shù)據(jù)、讀取數(shù)據(jù)、刪除數(shù)據(jù)
Fluss的監(jiān)控與運維:日志分析、性能指標(biāo)、故障診斷
動手實踐:搭建Fluss本地環(huán)境,并進(jìn)行簡單的數(shù)據(jù)讀寫操作
第二天:Fluss與流計算引擎集成及流式數(shù)據(jù)湖構(gòu)建
模塊 5:Fluss與主流流計算引擎集成 (上午)
Fluss與Apache Flink的集成:Connector開發(fā)、數(shù)據(jù)格式轉(zhuǎn)換
Fluss與Apache Spark Streaming的集成:RDD轉(zhuǎn)換、數(shù)據(jù)源適配
Fluss與其他流計算引擎的集成:Kafka Streams, Apache Beam
集成模式選擇:根據(jù)業(yè)務(wù)需求和技術(shù)棧
動手實踐:使用Flink消費Fluss中的數(shù)據(jù)并進(jìn)行簡單處理
模塊 6:使用Fluss構(gòu)建流式數(shù)據(jù)湖 (上午) 流式數(shù)據(jù)湖的概念與優(yōu)勢:實時數(shù)據(jù)集成、低成本存儲、靈活分析
基于Fluss的流式數(shù)據(jù)湖架構(gòu)設(shè)計:數(shù)據(jù)攝取、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析
Fluss在流式數(shù)據(jù)湖中的角色:提供高性能、高可靠的流存儲
數(shù)據(jù)湖元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog
數(shù)據(jù)湖安全與治理:權(quán)限控制、數(shù)據(jù)加密、數(shù)據(jù)血緣
動手實踐:設(shè)計基于Fluss的流式數(shù)據(jù)湖架構(gòu),并討論關(guān)鍵技術(shù)選型
模塊 7:流式數(shù)據(jù)湖架構(gòu)設(shè)計與演進(jìn) (下午) Lambda架構(gòu):實時與離線并存,數(shù)據(jù)一致性挑戰(zhàn)
Kappa架構(gòu):簡化架構(gòu),依賴強一致性流存儲
湖倉一體架構(gòu):Delta Lake, Apache Iceberg, Apache Hudi,提供事務(wù)性更新與查詢
基于Fluss的湖倉一體架構(gòu):利用Fluss作為實時數(shù)據(jù)源
動手實踐:比較不同架構(gòu)的優(yōu)缺點,并討論適用于特定場景的架構(gòu)方案
模塊 8:基于Fluss的流分析應(yīng)用開發(fā) (下午) 流分析的應(yīng)用場景:實時監(jiān)控、異常檢測、趨勢預(yù)測
流分析的技術(shù)選型:CEP (Complex Event Processing), Time Series Database
使用CEP引擎分析Fluss中的數(shù)據(jù):Apache Flink CEP, Esper
使用時序數(shù)據(jù)庫存儲和分析Fluss中的數(shù)據(jù):InfluxDB, TimescaleDB
動手實踐:使用Flink CEP分析Fluss中的數(shù)據(jù)并進(jìn)行異常檢測
第三天:Fluss與其他流存儲技術(shù)對比及高級應(yīng)用
模塊 9:Apache Paimon技術(shù)解析 (上午)
Apache Paimon的介紹:統(tǒng)一流式和批量處理的數(shù)據(jù)湖存儲
Paimon的核心特性:Schema Evolution, Upsert/Delete, Change Data Capture (CDC)
Paimon的架構(gòu)設(shè)計:Catalog, Table Format, File System
Paimon與Flink的集成:Streaming Sink, Source, Lookup Join
動手實踐:部署Paimon環(huán)境,并體驗其核心功能
模塊 10:Fluss vs. Paimon vs. 其他流存儲技術(shù) (上午) Fluss、Paimon、Kafka Streams、Apache Hudi等技術(shù)的對比分析
對比維度:性能、一致性、可擴(kuò)展性、易用性、社區(qū)活躍度
選擇合適的流存儲技術(shù):根據(jù)業(yè)務(wù)需求和技術(shù)棧
技術(shù)選型建議:針對不同應(yīng)用場景給出具體建議
模塊 11:Fluss高級特性與調(diào)優(yōu) (下午) Fluss的Compaction策略優(yōu)化:Tiered Compaction, Leveled Compaction
Fluss的內(nèi)存管理優(yōu)化:Write Buffer大小、Cache策略
Fluss的IO調(diào)度優(yōu)化:磁盤調(diào)度算法、IO優(yōu)先級
Fluss的監(jiān)控與報警:Prometheus, Grafana
性能測試與基準(zhǔn)測試:JMH, YCSB
動手實踐:對Fluss進(jìn)行性能調(diào)優(yōu),并使用基準(zhǔn)測試工具評估效果
模塊 12:Fluss在實際場景中的應(yīng)用 (下午) 案例1:構(gòu)建高吞吐的日志收集系統(tǒng)
案例2:構(gòu)建實時風(fēng)控系統(tǒng)
案例3:構(gòu)建流式推薦系統(tǒng)
案例分析:技術(shù)架構(gòu)、實施步驟、挑戰(zhàn)與解決方案
Fluss的未來發(fā)展趨勢:云原生、智能化、多模態(tài)
開放討論:學(xué)員分享實際工作中的流數(shù)據(jù)處理需求,探討如何使用Fluss解決問題
可選模塊 (根據(jù)客戶需求調(diào)整)
Fluss源碼分析
深入剖析Fluss的源碼實現(xiàn)
理解關(guān)鍵組件的內(nèi)部邏輯
學(xué)習(xí)如何貢獻(xiàn)代碼到Fluss社區(qū)
Fluss與云原生技術(shù)集成 在Kubernetes上部署Fluss
使用Docker容器化Fluss應(yīng)用
使用服務(wù)網(wǎng)格管理Fluss流量
Fluss安全與治理高級議題 數(shù)據(jù)加密與訪問控制
數(shù)據(jù)血緣與數(shù)據(jù)質(zhì)量
符合GDPR等合規(guī)要求
第一天:流存儲技術(shù)概覽與Fluss核心原理
模塊 1:流數(shù)據(jù)處理背景與挑戰(zhàn) (上午)
流數(shù)據(jù)的定義、特點和應(yīng)用場景
傳統(tǒng)流數(shù)據(jù)處理架構(gòu)的局限性:高延遲、低可靠性、難擴(kuò)展
流存儲技術(shù)的發(fā)展趨勢:實時化、湖倉一體化、云原生化
新一代流存儲技術(shù)的關(guān)鍵需求:高吞吐、低延遲、強一致性、易擴(kuò)展
模塊 2:Fluss核心設(shè)計理念與架構(gòu) (上午)
Fluss的設(shè)計目標(biāo):構(gòu)建高性能、高可靠、低成本的流存儲系統(tǒng)
Fluss的核心設(shè)計理念:Log-structured Merge Tree (LSM Tree) 的優(yōu)化與改進(jìn)
Fluss的整體架構(gòu):存儲層、索引層、元數(shù)據(jù)層、API層
Fluss的關(guān)鍵組件:Write Buffer、SSTable、Compaction、WAL (Write-Ahead Log)
動手實踐:分析Fluss架構(gòu)圖,理解各組件之間的交互關(guān)系
模塊 3:Fluss關(guān)鍵特性解析 (下午)
Fluss的高吞吐寫入優(yōu)化:多線程并發(fā)寫入、WAL機制、零拷貝技術(shù)
Fluss的低延遲讀取優(yōu)化:Bloom Filter、索引技術(shù)、Compaction策略
Fluss的數(shù)據(jù)一致性保證:ACID事務(wù)、Snapshot Isolation
Fluss的可擴(kuò)展性設(shè)計:分片、副本、自動負(fù)載均衡
Fluss的容錯性機制:數(shù)據(jù)備份、故障恢復(fù)
動手實踐:討論并設(shè)計針對特定場景的Fluss配置參數(shù)
模塊 4:Fluss安裝部署與基本使用 (下午)
Fluss的安裝部署方式:本地部署、集群部署、云端部署
Fluss的配置參數(shù)詳解:存儲路徑、緩存大小、線程數(shù)
Fluss的基本API使用:寫入數(shù)據(jù)、讀取數(shù)據(jù)、刪除數(shù)據(jù)
Fluss的監(jiān)控與運維:日志分析、性能指標(biāo)、故障診斷
動手實踐:搭建Fluss本地環(huán)境,并進(jìn)行簡單的數(shù)據(jù)讀寫操作
第二天:Fluss與流計算引擎集成及流式數(shù)據(jù)湖構(gòu)建
模塊 5:Fluss與主流流計算引擎集成 (上午)
Fluss與Apache Flink的集成:Connector開發(fā)、數(shù)據(jù)格式轉(zhuǎn)換
Fluss與Apache Spark Streaming的集成:RDD轉(zhuǎn)換、數(shù)據(jù)源適配
Fluss與其他流計算引擎的集成:Kafka Streams, Apache Beam
集成模式選擇:根據(jù)業(yè)務(wù)需求和技術(shù)棧
動手實踐:使用Flink消費Fluss中的數(shù)據(jù)并進(jìn)行簡單處理
模塊 6:使用Fluss構(gòu)建流式數(shù)據(jù)湖 (上午)
流式數(shù)據(jù)湖的概念與優(yōu)勢:實時數(shù)據(jù)集成、低成本存儲、靈活分析
基于Fluss的流式數(shù)據(jù)湖架構(gòu)設(shè)計:數(shù)據(jù)攝取、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析
Fluss在流式數(shù)據(jù)湖中的角色:提供高性能、高可靠的流存儲
數(shù)據(jù)湖元數(shù)據(jù)管理:Apache Hive Metastore, AWS Glue Data Catalog
數(shù)據(jù)湖安全與治理:權(quán)限控制、數(shù)據(jù)加密、數(shù)據(jù)血緣
動手實踐:設(shè)計基于Fluss的流式數(shù)據(jù)湖架構(gòu),并討論關(guān)鍵技術(shù)選型
模塊 7:流式數(shù)據(jù)湖架構(gòu)設(shè)計與演進(jìn) (下午)
Lambda架構(gòu):實時與離線并存,數(shù)據(jù)一致性挑戰(zhàn)
Kappa架構(gòu):簡化架構(gòu),依賴強一致性流存儲
湖倉一體架構(gòu):Delta Lake, Apache Iceberg, Apache Hudi,提供事務(wù)性更新與查詢
基于Fluss的湖倉一體架構(gòu):利用Fluss作為實時數(shù)據(jù)源
動手實踐:比較不同架構(gòu)的優(yōu)缺點,并討論適用于特定場景的架構(gòu)方案
模塊 8:基于Fluss的流分析應(yīng)用開發(fā) (下午)
流分析的應(yīng)用場景:實時監(jiān)控、異常檢測、趨勢預(yù)測
流分析的技術(shù)選型:CEP (Complex Event Processing), Time Series Database
使用CEP引擎分析Fluss中的數(shù)據(jù):Apache Flink CEP, Esper
使用時序數(shù)據(jù)庫存儲和分析Fluss中的數(shù)據(jù):InfluxDB, TimescaleDB
動手實踐:使用Flink CEP分析Fluss中的數(shù)據(jù)并進(jìn)行異常檢測
第三天:Fluss與其他流存儲技術(shù)對比及高級應(yīng)用
模塊 9:Apache Paimon技術(shù)解析 (上午)
Apache Paimon的介紹:統(tǒng)一流式和批量處理的數(shù)據(jù)湖存儲
Paimon的核心特性:Schema Evolution, Upsert/Delete, Change Data Capture (CDC)
Paimon的架構(gòu)設(shè)計:Catalog, Table Format, File System
Paimon與Flink的集成:Streaming Sink, Source, Lookup Join
動手實踐:部署Paimon環(huán)境,并體驗其核心功能
模塊 10:Fluss vs. Paimon vs. 其他流存儲技術(shù) (上午)
Fluss、Paimon、Kafka Streams、Apache Hudi等技術(shù)的對比分析
對比維度:性能、一致性、可擴(kuò)展性、易用性、社區(qū)活躍度
選擇合適的流存儲技術(shù):根據(jù)業(yè)務(wù)需求和技術(shù)棧
技術(shù)選型建議:針對不同應(yīng)用場景給出具體建議
模塊 11:Fluss高級特性與調(diào)優(yōu) (下午)
Fluss的Compaction策略優(yōu)化:Tiered Compaction, Leveled Compaction
Fluss的內(nèi)存管理優(yōu)化:Write Buffer大小、Cache策略
Fluss的IO調(diào)度優(yōu)化:磁盤調(diào)度算法、IO優(yōu)先級
Fluss的監(jiān)控與報警:Prometheus, Grafana
性能測試與基準(zhǔn)測試:JMH, YCSB
動手實踐:對Fluss進(jìn)行性能調(diào)優(yōu),并使用基準(zhǔn)測試工具評估效果
模塊 12:Fluss在實際場景中的應(yīng)用 (下午)
案例1:構(gòu)建高吞吐的日志收集系統(tǒng)
案例2:構(gòu)建實時風(fēng)控系統(tǒng)
案例3:構(gòu)建流式推薦系統(tǒng)
案例分析:技術(shù)架構(gòu)、實施步驟、挑戰(zhàn)與解決方案
Fluss的未來發(fā)展趨勢:云原生、智能化、多模態(tài)
開放討論:學(xué)員分享實際工作中的流數(shù)據(jù)處理需求,探討如何使用Fluss解決問題
可選模塊 (根據(jù)客戶需求調(diào)整)
Fluss源碼分析
深入剖析Fluss的源碼實現(xiàn)
理解關(guān)鍵組件的內(nèi)部邏輯
學(xué)習(xí)如何貢獻(xiàn)代碼到Fluss社區(qū)
Fluss與云原生技術(shù)集成
在Kubernetes上部署Fluss
使用Docker容器化Fluss應(yīng)用
使用服務(wù)網(wǎng)格管理Fluss流量
Fluss安全與治理高級議題
數(shù)據(jù)加密與訪問控制
數(shù)據(jù)血緣與數(shù)據(jù)質(zhì)量
符合GDPR等合規(guī)要求

活動詳情

提交需求