課程簡介
理解實時數(shù)據(jù)分析的核心概念、架構(gòu)和優(yōu)勢。
掌握主流流計算引擎(Apache Flink、Apache Kafka Streams)的使用方法。
掌握 StarRocks 實時數(shù)據(jù)庫的設(shè)計和應(yīng)用。
學(xué)習(xí)使用窗口函數(shù)和復(fù)雜事件處理(CEP)技術(shù)進(jìn)行高級實時分析。
了解實時數(shù)據(jù)分析的應(yīng)用場景和最佳實踐。
能夠構(gòu)建自己的實時數(shù)據(jù)分析原型系統(tǒng)。
目標(biāo)收益
培訓(xùn)對象
數(shù)據(jù)工程師、流計算工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、以及對實時數(shù)據(jù)處理感興趣的技術(shù)人員。
課程大綱
第一天:實時數(shù)據(jù)分析基礎(chǔ)與流計算引擎 模塊 1:實時數(shù)據(jù)分析概述 (上午) |
實時數(shù)據(jù)的定義、特點和應(yīng)用場景 傳統(tǒng)數(shù)據(jù)分析與實時數(shù)據(jù)分析的對比 實時數(shù)據(jù)分析的價值與挑戰(zhàn) 實時數(shù)據(jù)分析的架構(gòu)與核心組件:數(shù)據(jù)源、流計算引擎、存儲系統(tǒng)、可視化工具 |
模塊 2:流計算引擎基礎(chǔ) (上午) |
流計算引擎的定義與特點 有狀態(tài)計算與無狀態(tài)計算 Exactly-Once語義與容錯機(jī)制 窗口函數(shù) (Windowing) 的概念與類型:滾動窗口、滑動窗口、會話窗口 水印 (Watermark) 的作用:處理亂序數(shù)據(jù)和延遲數(shù)據(jù) |
模塊 3:Apache Flink技術(shù)詳解 (下午) |
Apache Flink的架構(gòu)與核心組件:DataStream API, Table API, CEP Flink的數(shù)據(jù)模型:Stream, DataSet, Table Flink的窗口函數(shù):Time-based Windows, Count-based Windows, Session Windows Flink的容錯機(jī)制:Checkpoint, Savepoint 動手實踐:使用Flink DataStream API構(gòu)建簡單的流式數(shù)據(jù)處理程序 |
模塊 4:Apache Kafka Streams技術(shù)詳解 (下午) |
Apache Kafka Streams的架構(gòu)與核心組件:Topology, Processor, State Store Kafka Streams的數(shù)據(jù)模型:KStream, KTable, GlobalKTable Kafka Streams的窗口函數(shù):Time Windows, Session Windows, Hopping Windows Kafka Streams的容錯機(jī)制:Changelog Topic 動手實踐:使用Kafka Streams構(gòu)建簡單的流式數(shù)據(jù)處理程序 |
第二天:StarRocks 實時數(shù)據(jù)庫與高級分析技術(shù) 模塊 5:StarRocks技術(shù)詳解 (上午) |
StarRocks的架構(gòu)與核心組件:FE, BE StarRocks的數(shù)據(jù)模型:Table, Partition, Segment StarRocks的查詢語言:SQL StarRocks的索引技術(shù):Bitmap Index, Inverted Index, Prefix Index StarRocks的存儲引擎:列式存儲引擎 動手實踐:使用StarRocks存儲和查詢實時數(shù)據(jù) |
模塊 6:StarRocks的性能優(yōu)化與管理 (上午) |
StarRocks的數(shù)據(jù)導(dǎo)入方式:Stream Load, Broker Load, Routine Load StarRocks的查詢優(yōu)化:查詢重寫, 索引選擇, 執(zhí)行計劃 StarRocks的集群管理:擴(kuò)容, 縮容, 故障恢復(fù) StarRocks的監(jiān)控與報警 動手實踐:對StarRocks進(jìn)行性能調(diào)優(yōu) |
模塊 7:復(fù)雜事件處理 (CEP) 技術(shù) (下午) |
CEP的定義與應(yīng)用場景 CEP的模式語言:定義事件模式、條件、時間約束 CEP的常用引擎:Apache Flink CEP, Esper CEP的應(yīng)用案例:欺詐檢測、異常監(jiān)控、智能推薦 動手實踐:使用Flink CEP分析數(shù)據(jù)并進(jìn)行復(fù)雜事件處理 |
模塊 8:StarRocks 與 Flink 的集成 (下午) |
使用 Flink CDC 實時同步數(shù)據(jù)庫數(shù)據(jù)到 StarRocks 使用 Flink 連接器將 Flink 計算結(jié)果寫入 StarRocks 利用 StarRocks 的高性能分析能力加速 Flink 的計算結(jié)果查詢 動手實踐:配置 Flink CDC 同步數(shù)據(jù)到 StarRocks |
第三天:實時數(shù)據(jù)分析應(yīng)用與最佳實踐 模塊 9:實時數(shù)據(jù)分析的應(yīng)用場景 (上午) |
實時監(jiān)控與報警:系統(tǒng)監(jiān)控、安全監(jiān)控、業(yè)務(wù)監(jiān)控 實時推薦:個性化推薦、內(nèi)容推送、廣告投放 實時欺詐檢測:信用卡欺詐、網(wǎng)絡(luò)攻擊、交易風(fēng)險 實時數(shù)據(jù)可視化:儀表盤、報表、大屏展示 實時決策:智能定價、庫存優(yōu)化、供應(yīng)鏈管理 |
模塊 10:構(gòu)建實時數(shù)據(jù)分析系統(tǒng)的最佳實踐 (上午) |
選擇合適的流計算引擎和實時數(shù)據(jù)庫 設(shè)計高效的數(shù)據(jù)模型和查詢模式 優(yōu)化數(shù)據(jù)攝取和處理性能 保障數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全 實施監(jiān)控和報警機(jī)制 |
模塊 11:實時數(shù)據(jù)分析的架構(gòu)模式 (下午) |
Lambda架構(gòu):結(jié)合批處理和流處理 Kappa架構(gòu):簡化架構(gòu),只依賴流處理 流式數(shù)據(jù)湖架構(gòu):利用數(shù)據(jù)湖的低成本存儲和靈活分析能力 選擇合適的架構(gòu)模式:根據(jù)業(yè)務(wù)需求和技術(shù)棧 |
模塊 12:實時數(shù)據(jù)分析的未來趨勢 (下午) |
AI驅(qū)動的實時數(shù)據(jù)分析:利用機(jī)器學(xué)習(xí)進(jìn)行智能異常檢測和預(yù)測 云原生實時數(shù)據(jù)分析:基于云平臺構(gòu)建彈性伸縮的實時分析系統(tǒng) Serverless實時數(shù)據(jù)分析:利用Serverless計算降低成本和運維復(fù)雜性 開放討論:學(xué)員分享對實時數(shù)據(jù)分析未來發(fā)展的看法 |
可選模塊 (根據(jù)客戶需求調(diào)整) |
高級流計算技術(shù): Exactly-Once語義、狀態(tài)管理、窗口函數(shù)優(yōu)化 StarRocks高級技術(shù): 數(shù)據(jù)分片、索引優(yōu)化、查詢優(yōu)化 特定行業(yè)實時數(shù)據(jù)分析案例: 金融、零售、電商、物聯(lián)網(wǎng) |
工具與技術(shù): |
流計算引擎:Apache Flink, Apache Kafka Streams 實時數(shù)據(jù)庫: StarRocks 消息隊列:Apache Kafka, RabbitMQ 數(shù)據(jù)可視化:Tableau, Power BI, Grafana 云平臺:AWS, Azure, Google Cloud |
第一天:實時數(shù)據(jù)分析基礎(chǔ)與流計算引擎 模塊 1:實時數(shù)據(jù)分析概述 (上午) 實時數(shù)據(jù)的定義、特點和應(yīng)用場景 傳統(tǒng)數(shù)據(jù)分析與實時數(shù)據(jù)分析的對比 實時數(shù)據(jù)分析的價值與挑戰(zhàn) 實時數(shù)據(jù)分析的架構(gòu)與核心組件:數(shù)據(jù)源、流計算引擎、存儲系統(tǒng)、可視化工具 |
模塊 2:流計算引擎基礎(chǔ) (上午) 流計算引擎的定義與特點 有狀態(tài)計算與無狀態(tài)計算 Exactly-Once語義與容錯機(jī)制 窗口函數(shù) (Windowing) 的概念與類型:滾動窗口、滑動窗口、會話窗口 水印 (Watermark) 的作用:處理亂序數(shù)據(jù)和延遲數(shù)據(jù) |
模塊 3:Apache Flink技術(shù)詳解 (下午) Apache Flink的架構(gòu)與核心組件:DataStream API, Table API, CEP Flink的數(shù)據(jù)模型:Stream, DataSet, Table Flink的窗口函數(shù):Time-based Windows, Count-based Windows, Session Windows Flink的容錯機(jī)制:Checkpoint, Savepoint 動手實踐:使用Flink DataStream API構(gòu)建簡單的流式數(shù)據(jù)處理程序 |
模塊 4:Apache Kafka Streams技術(shù)詳解 (下午) Apache Kafka Streams的架構(gòu)與核心組件:Topology, Processor, State Store Kafka Streams的數(shù)據(jù)模型:KStream, KTable, GlobalKTable Kafka Streams的窗口函數(shù):Time Windows, Session Windows, Hopping Windows Kafka Streams的容錯機(jī)制:Changelog Topic 動手實踐:使用Kafka Streams構(gòu)建簡單的流式數(shù)據(jù)處理程序 |
第二天:StarRocks 實時數(shù)據(jù)庫與高級分析技術(shù) 模塊 5:StarRocks技術(shù)詳解 (上午) StarRocks的架構(gòu)與核心組件:FE, BE StarRocks的數(shù)據(jù)模型:Table, Partition, Segment StarRocks的查詢語言:SQL StarRocks的索引技術(shù):Bitmap Index, Inverted Index, Prefix Index StarRocks的存儲引擎:列式存儲引擎 動手實踐:使用StarRocks存儲和查詢實時數(shù)據(jù) |
模塊 6:StarRocks的性能優(yōu)化與管理 (上午) StarRocks的數(shù)據(jù)導(dǎo)入方式:Stream Load, Broker Load, Routine Load StarRocks的查詢優(yōu)化:查詢重寫, 索引選擇, 執(zhí)行計劃 StarRocks的集群管理:擴(kuò)容, 縮容, 故障恢復(fù) StarRocks的監(jiān)控與報警 動手實踐:對StarRocks進(jìn)行性能調(diào)優(yōu) |
模塊 7:復(fù)雜事件處理 (CEP) 技術(shù) (下午) CEP的定義與應(yīng)用場景 CEP的模式語言:定義事件模式、條件、時間約束 CEP的常用引擎:Apache Flink CEP, Esper CEP的應(yīng)用案例:欺詐檢測、異常監(jiān)控、智能推薦 動手實踐:使用Flink CEP分析數(shù)據(jù)并進(jìn)行復(fù)雜事件處理 |
模塊 8:StarRocks 與 Flink 的集成 (下午) 使用 Flink CDC 實時同步數(shù)據(jù)庫數(shù)據(jù)到 StarRocks 使用 Flink 連接器將 Flink 計算結(jié)果寫入 StarRocks 利用 StarRocks 的高性能分析能力加速 Flink 的計算結(jié)果查詢 動手實踐:配置 Flink CDC 同步數(shù)據(jù)到 StarRocks |
第三天:實時數(shù)據(jù)分析應(yīng)用與最佳實踐 模塊 9:實時數(shù)據(jù)分析的應(yīng)用場景 (上午) 實時監(jiān)控與報警:系統(tǒng)監(jiān)控、安全監(jiān)控、業(yè)務(wù)監(jiān)控 實時推薦:個性化推薦、內(nèi)容推送、廣告投放 實時欺詐檢測:信用卡欺詐、網(wǎng)絡(luò)攻擊、交易風(fēng)險 實時數(shù)據(jù)可視化:儀表盤、報表、大屏展示 實時決策:智能定價、庫存優(yōu)化、供應(yīng)鏈管理 |
模塊 10:構(gòu)建實時數(shù)據(jù)分析系統(tǒng)的最佳實踐 (上午) 選擇合適的流計算引擎和實時數(shù)據(jù)庫 設(shè)計高效的數(shù)據(jù)模型和查詢模式 優(yōu)化數(shù)據(jù)攝取和處理性能 保障數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全 實施監(jiān)控和報警機(jī)制 |
模塊 11:實時數(shù)據(jù)分析的架構(gòu)模式 (下午) Lambda架構(gòu):結(jié)合批處理和流處理 Kappa架構(gòu):簡化架構(gòu),只依賴流處理 流式數(shù)據(jù)湖架構(gòu):利用數(shù)據(jù)湖的低成本存儲和靈活分析能力 選擇合適的架構(gòu)模式:根據(jù)業(yè)務(wù)需求和技術(shù)棧 |
模塊 12:實時數(shù)據(jù)分析的未來趨勢 (下午) AI驅(qū)動的實時數(shù)據(jù)分析:利用機(jī)器學(xué)習(xí)進(jìn)行智能異常檢測和預(yù)測 云原生實時數(shù)據(jù)分析:基于云平臺構(gòu)建彈性伸縮的實時分析系統(tǒng) Serverless實時數(shù)據(jù)分析:利用Serverless計算降低成本和運維復(fù)雜性 開放討論:學(xué)員分享對實時數(shù)據(jù)分析未來發(fā)展的看法 |
可選模塊 (根據(jù)客戶需求調(diào)整) 高級流計算技術(shù): Exactly-Once語義、狀態(tài)管理、窗口函數(shù)優(yōu)化 StarRocks高級技術(shù): 數(shù)據(jù)分片、索引優(yōu)化、查詢優(yōu)化 特定行業(yè)實時數(shù)據(jù)分析案例: 金融、零售、電商、物聯(lián)網(wǎng) |
工具與技術(shù): 流計算引擎:Apache Flink, Apache Kafka Streams 實時數(shù)據(jù)庫: StarRocks 消息隊列:Apache Kafka, RabbitMQ 數(shù)據(jù)可視化:Tableau, Power BI, Grafana 云平臺:AWS, Azure, Google Cloud |