課程簡(jiǎn)介
結(jié)合講師在阿里大數(shù)據(jù)平臺(tái)十年的工作經(jīng)驗(yàn)和在阿里計(jì)算平臺(tái)實(shí)時(shí)計(jì)算組三年的工作經(jīng)驗(yàn),通過(guò)實(shí)踐和工程角度出發(fā),介紹不一樣的實(shí)時(shí)計(jì)算。計(jì)算從基礎(chǔ)到深入,并結(jié)合真實(shí)案例和客戶自己的問(wèn)題,全程干貨。
目標(biāo)收益
通過(guò)培訓(xùn),可以讓學(xué)員對(duì)實(shí)時(shí)數(shù)據(jù)處理有更深入和全面的理解,掌握實(shí)時(shí)數(shù)據(jù)平臺(tái)建設(shè)思路,了解實(shí)時(shí)數(shù)據(jù)處理技術(shù),并能夠在實(shí)際應(yīng)用中解決實(shí)時(shí)計(jì)算預(yù)到的工程問(wèn)題。
熟悉互聯(lián)網(wǎng)公司(如阿里巴巴、Uber、華為)的所面臨的問(wèn)題和工程實(shí)踐經(jīng)驗(yàn)。
培訓(xùn)對(duì)象
了解大數(shù)據(jù)的軟件架構(gòu)師。
中級(jí)和高級(jí)軟件工程師。
課程大綱
實(shí)時(shí)計(jì)算現(xiàn)狀和分析 |
實(shí)時(shí)計(jì)算相關(guān)概念 實(shí)時(shí)數(shù)據(jù)特點(diǎn) 實(shí)時(shí)計(jì)算相關(guān)技術(shù)介紹 國(guó)內(nèi)外企業(yè)典型實(shí)時(shí)計(jì)算架構(gòu) 實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景總結(jié) 1. EL(Extract Load):異構(gòu)系統(tǒng)數(shù)據(jù)同步、增量數(shù)據(jù)歸集 2. ETL(Extract Transform Load):數(shù)據(jù)預(yù)處理(清洗、集成、轉(zhuǎn)換) 3. EMT(Extract Match Trigger):CEP、SQL 4. EAT(Extract Algorithm Trigger) |
實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景總結(jié) |
實(shí)時(shí)計(jì)算平臺(tái)應(yīng)該具備功能 1. 數(shù)據(jù)采集 2. 數(shù)據(jù)加工 3. 數(shù)據(jù)寫入 4. 運(yùn)維監(jiān)控 5. 可視化操作 6. 數(shù)據(jù)安全 7. 多租戶 數(shù)據(jù)加工能做什么 1. 預(yù)處理 (1) SQL (2) UDF (3) 插件 2. 規(guī)則匹配 (1) UDAF (2) CEP (3) SQL (4) 插件 3. 多個(gè)流上數(shù)據(jù)關(guān)聯(lián) 4. 流上數(shù)據(jù)與外部數(shù)據(jù)關(guān)聯(lián)(Lookup) 實(shí)時(shí)計(jì)算平臺(tái)建設(shè)痛點(diǎn) 1. 技術(shù)問(wèn)題 2. 人才問(wèn)題 3. 投入產(chǎn)出效率問(wèn)題 |
實(shí)時(shí)計(jì)算平臺(tái)落地實(shí)踐 |
實(shí)時(shí)計(jì)算平臺(tái)設(shè)計(jì)思想 1. 實(shí)時(shí)計(jì)算平臺(tái)設(shè)計(jì)目標(biāo) 2. 實(shí)時(shí)計(jì)算平臺(tái)設(shè)計(jì)規(guī)范 實(shí)時(shí)計(jì)算平臺(tái)架構(gòu)設(shè)計(jì) 數(shù)據(jù)采集平臺(tái) 1. 數(shù)據(jù)采集平臺(tái)架構(gòu)設(shè)計(jì) 2. 數(shù)據(jù)采集平臺(tái)功能設(shè)計(jì) (1) 全量數(shù)據(jù)拉取設(shè)計(jì):MYSQL、ORACLE (2) 增量數(shù)據(jù)拉取方案:MYSQL數(shù)據(jù)接入、ORACLE數(shù)據(jù)接入 3. 數(shù)據(jù)采集平臺(tái)特性解析 (1) ORACLE表結(jié)構(gòu)變更 (2) 全量拉取分片策略 (3) 數(shù)據(jù)追源ums_id_ (4) 數(shù)據(jù)鏈路心跳 數(shù)據(jù)計(jì)算平臺(tái) 1. 數(shù)據(jù)計(jì)算平臺(tái)架構(gòu)設(shè)計(jì) 2. 數(shù)據(jù)計(jì)算平臺(tái)功能設(shè)計(jì) (1) 平臺(tái)管理 (2) 數(shù)據(jù)安全 (3) 運(yùn)維監(jiān)控 (4) 數(shù)據(jù)解析 (5) 數(shù)據(jù)加工 (6) 數(shù)據(jù)寫入 3. 數(shù)據(jù)計(jì)算平臺(tái)特性解析 (1) 冪等寫入 (2) 多Flow支持(Spark/Flink) (3) 動(dòng)態(tài)Flow指令(Spark/Flink) (4) 監(jiān)控?cái)?shù)據(jù)采集(Spark/Flink)(Error和統(tǒng)計(jì)) (5) HDFS小文件(Spark) (6) 業(yè)務(wù)時(shí)間策略(Spark)(流上Join和Lookup) (7) Flow漂移(Spark) (8) 熱加載Topic變化(Spark) (9) Lookup性能優(yōu)化(Spark) (10) UDF熱加載(Spark) (11) 自定義數(shù)據(jù)格式(Spark/Flink?) (12) CEP可視化(Flink) (13) 啟動(dòng)加載數(shù)據(jù)Schema (Flink) 案例解析 1. 阿里案例 2. 華為案例 3. Uber案例 |
流批一體化 |
流批一體化產(chǎn)品 1. 阿里流批一體化產(chǎn)品 2. 華為流批一體化產(chǎn)品 3. Uber流批一體化產(chǎn)品 4. Apache Pulsar 5. Delta Lake 流批一體化總結(jié) |
實(shí)時(shí)數(shù)據(jù)湖 |
數(shù)據(jù)湖的概念 數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)中臺(tái)區(qū)別 實(shí)時(shí)數(shù)據(jù)湖實(shí)踐 實(shí)時(shí)數(shù)據(jù)湖總結(jié) |
實(shí)時(shí)計(jì)算現(xiàn)狀和分析 實(shí)時(shí)計(jì)算相關(guān)概念 實(shí)時(shí)數(shù)據(jù)特點(diǎn) 實(shí)時(shí)計(jì)算相關(guān)技術(shù)介紹 國(guó)內(nèi)外企業(yè)典型實(shí)時(shí)計(jì)算架構(gòu) 實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景總結(jié) 1. EL(Extract Load):異構(gòu)系統(tǒng)數(shù)據(jù)同步、增量數(shù)據(jù)歸集 2. ETL(Extract Transform Load):數(shù)據(jù)預(yù)處理(清洗、集成、轉(zhuǎn)換) 3. EMT(Extract Match Trigger):CEP、SQL 4. EAT(Extract Algorithm Trigger) |
實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景總結(jié) 實(shí)時(shí)計(jì)算平臺(tái)應(yīng)該具備功能 1. 數(shù)據(jù)采集 2. 數(shù)據(jù)加工 3. 數(shù)據(jù)寫入 4. 運(yùn)維監(jiān)控 5. 可視化操作 6. 數(shù)據(jù)安全 7. 多租戶 數(shù)據(jù)加工能做什么 1. 預(yù)處理 (1) SQL (2) UDF (3) 插件 2. 規(guī)則匹配 (1) UDAF (2) CEP (3) SQL (4) 插件 3. 多個(gè)流上數(shù)據(jù)關(guān)聯(lián) 4. 流上數(shù)據(jù)與外部數(shù)據(jù)關(guān)聯(lián)(Lookup) 實(shí)時(shí)計(jì)算平臺(tái)建設(shè)痛點(diǎn) 1. 技術(shù)問(wèn)題 2. 人才問(wèn)題 3. 投入產(chǎn)出效率問(wèn)題 |
實(shí)時(shí)計(jì)算平臺(tái)落地實(shí)踐 實(shí)時(shí)計(jì)算平臺(tái)設(shè)計(jì)思想 1. 實(shí)時(shí)計(jì)算平臺(tái)設(shè)計(jì)目標(biāo) 2. 實(shí)時(shí)計(jì)算平臺(tái)設(shè)計(jì)規(guī)范 實(shí)時(shí)計(jì)算平臺(tái)架構(gòu)設(shè)計(jì) 數(shù)據(jù)采集平臺(tái) 1. 數(shù)據(jù)采集平臺(tái)架構(gòu)設(shè)計(jì) 2. 數(shù)據(jù)采集平臺(tái)功能設(shè)計(jì) (1) 全量數(shù)據(jù)拉取設(shè)計(jì):MYSQL、ORACLE (2) 增量數(shù)據(jù)拉取方案:MYSQL數(shù)據(jù)接入、ORACLE數(shù)據(jù)接入 3. 數(shù)據(jù)采集平臺(tái)特性解析 (1) ORACLE表結(jié)構(gòu)變更 (2) 全量拉取分片策略 (3) 數(shù)據(jù)追源ums_id_ (4) 數(shù)據(jù)鏈路心跳 數(shù)據(jù)計(jì)算平臺(tái) 1. 數(shù)據(jù)計(jì)算平臺(tái)架構(gòu)設(shè)計(jì) 2. 數(shù)據(jù)計(jì)算平臺(tái)功能設(shè)計(jì) (1) 平臺(tái)管理 (2) 數(shù)據(jù)安全 (3) 運(yùn)維監(jiān)控 (4) 數(shù)據(jù)解析 (5) 數(shù)據(jù)加工 (6) 數(shù)據(jù)寫入 3. 數(shù)據(jù)計(jì)算平臺(tái)特性解析 (1) 冪等寫入 (2) 多Flow支持(Spark/Flink) (3) 動(dòng)態(tài)Flow指令(Spark/Flink) (4) 監(jiān)控?cái)?shù)據(jù)采集(Spark/Flink)(Error和統(tǒng)計(jì)) (5) HDFS小文件(Spark) (6) 業(yè)務(wù)時(shí)間策略(Spark)(流上Join和Lookup) (7) Flow漂移(Spark) (8) 熱加載Topic變化(Spark) (9) Lookup性能優(yōu)化(Spark) (10) UDF熱加載(Spark) (11) 自定義數(shù)據(jù)格式(Spark/Flink?) (12) CEP可視化(Flink) (13) 啟動(dòng)加載數(shù)據(jù)Schema (Flink) 案例解析 1. 阿里案例 2. 華為案例 3. Uber案例 |
流批一體化 流批一體化產(chǎn)品 1. 阿里流批一體化產(chǎn)品 2. 華為流批一體化產(chǎn)品 3. Uber流批一體化產(chǎn)品 4. Apache Pulsar 5. Delta Lake 流批一體化總結(jié) |
實(shí)時(shí)數(shù)據(jù)湖 數(shù)據(jù)湖的概念 數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)中臺(tái)區(qū)別 實(shí)時(shí)數(shù)據(jù)湖實(shí)踐 實(shí)時(shí)數(shù)據(jù)湖總結(jié) |