課程簡(jiǎn)介
本課程是基于金融行業(yè)技術(shù)實(shí)踐和業(yè)務(wù)應(yīng)用場(chǎng)景,結(jié)合當(dāng)前企業(yè)級(jí)應(yīng)用場(chǎng)景進(jìn)行綜合性課程設(shè)計(jì)。從專(zhuān)業(yè)知識(shí),專(zhuān)業(yè)技能,通用技能多維度全面培養(yǎng)數(shù)據(jù)庫(kù)優(yōu)化人才的綜合能力。
目標(biāo)收益
培訓(xùn)對(duì)象
課程大綱
流批一體以及數(shù)據(jù)湖技術(shù)講解 4小時(shí) |
1.Flink流批一體架構(gòu)、原理與實(shí)踐 (1)讀寫(xiě)模型 2.數(shù)據(jù)湖數(shù)據(jù)湖理念介紹 3.Hudi批流一體架構(gòu)、原理與實(shí)踐 4.Hudi核心組件 (1)有序的時(shí)間軸元數(shù)據(jù) (2)分層布局的數(shù)據(jù)文件 (3)索引(多種實(shí)現(xiàn)方式) 5.Hudi表設(shè)計(jì) (1)Timeline (2)數(shù)據(jù)文件--Hoodie key (3)索引 6.Hudi表類(lèi)型(讀寫(xiě)時(shí)模式區(qū)分) (1)Copy-On-Write 寫(xiě)時(shí)復(fù)制表 (2)Merge-On-Read 讀時(shí)合并表 7.數(shù)據(jù)湖Iceberg對(duì)比和技術(shù)實(shí)現(xiàn) 8.Trino技術(shù)和方案實(shí)踐 9.presto查詢(xún)引擎應(yīng)用 10.多庫(kù)多表實(shí)時(shí)入湖最佳實(shí)踐 11.數(shù)據(jù)湖并發(fā)控制實(shí)踐 12.數(shù)據(jù)湖最佳實(shí)踐 |
實(shí)戰(zhàn)案例 4小時(shí) |
1.金融行業(yè)Top客戶(hù)應(yīng)用場(chǎng)景、規(guī)模建設(shè)等情況 2.OLAP實(shí)時(shí)化業(yè)務(wù)場(chǎng)景實(shí)踐(深度講解) (1)大數(shù)據(jù)金融信貸項(xiàng)目 ①項(xiàng)目需求分析 1)用戶(hù)信用卡持卡用戶(hù)特征分析 2)信用卡用戶(hù)消費(fèi)行為分析 3)用戶(hù)信用卡管理行為分析 4)頁(yè)面訪(fǎng)問(wèn)Top實(shí)時(shí) 5)動(dòng)賬管理行為分析 6)…… (2)系統(tǒng)架構(gòu)設(shè)計(jì) (3)數(shù)據(jù)流程設(shè)計(jì) (4)離線(xiàn)分析 (5)實(shí)時(shí)分析 (6)實(shí)時(shí)化探索 3.某行基于hudi的數(shù)據(jù)湖構(gòu)建實(shí)踐 (1)業(yè)務(wù)痛點(diǎn) ①當(dāng)前數(shù)倉(cāng)架構(gòu):批流雙鏈路對(duì)應(yīng)不同的存儲(chǔ)和計(jì)算組件,維護(hù)和資源成本高 ②痛點(diǎn):數(shù)據(jù)調(diào)度、數(shù)據(jù)同步和修復(fù)回刷等場(chǎng)景 (2)為什么選擇數(shù)據(jù)湖Hudi (3)方案:技術(shù)選型(實(shí)時(shí)化、離線(xiàn)) ①如何使用Hudi解決業(yè)務(wù)問(wèn)題 ②Hudi模型設(shè)計(jì)與傳統(tǒng)的離線(xiàn)數(shù)倉(cāng)模型設(shè)計(jì) ③基于Hudi的模式設(shè)計(jì)(寫(xiě)模型設(shè)計(jì)) ④確定合適的分區(qū)和文件大小來(lái)解決數(shù)據(jù)更新中毛刺問(wèn)題 (4)應(yīng)用場(chǎng)景:數(shù)據(jù)一鍵入湖、流量日志分流、物化查詢(xún)加速、實(shí)時(shí)數(shù)倉(cāng)演進(jìn) (5)生產(chǎn)環(huán)境最優(yōu)選擇 ①表類(lèi)型選擇 1)存儲(chǔ)類(lèi)型 2)索引類(lèi)型:支持多索引 3)Bucket數(shù)量:bucket index設(shè)計(jì)實(shí)踐 4)主鍵列 5)索引列 (6)數(shù)據(jù)寫(xiě)入方式:通過(guò)數(shù)據(jù)寫(xiě)入的瓶頸進(jìn)行綜合分析以及Flink On Hudi 的更新瓶頸 (7)數(shù)據(jù)查詢(xún)方式:無(wú)法使用數(shù)據(jù)時(shí)間進(jìn)行快照查詢(xún)以及異步物化視圖、數(shù)據(jù)緩存等 (8)合并寬表能力不足解決、維表 JOIN延長(zhǎng) (9)優(yōu)化文件布局 (10)數(shù)據(jù)湖并發(fā)控制缺陷解決 (11)多流合并優(yōu)化實(shí)踐 (12)實(shí)時(shí)數(shù)倉(cāng)并進(jìn):基于Kafka的ETL到基于視圖的ETL、Flink、Hudi、Trino應(yīng)用; 4.某銀行借鑒某互聯(lián)網(wǎng)數(shù)據(jù)湖應(yīng)用案例剖析 |
使用經(jīng)驗(yàn)(針對(duì)源碼缺陷進(jìn)行分析) 1小時(shí) |
1.Hudi Pipelines模塊,支持流寫(xiě)Hudi在線(xiàn)同步源碼schema變更 2.Hudi項(xiàng)目對(duì)Timestamp字段類(lèi)型的支持,使Presto能正常查詢(xún)Hudi表 3.確保Presto查詢(xún)Hudi MOR多分區(qū)表查詢(xún)正常 4.確保FlinkSQL增刪改查Hudi多分區(qū)表功能正常 5.hudi-common模塊,解決TaskManager NPE異常 |
流批一體以及數(shù)據(jù)湖技術(shù)講解 4小時(shí) 1.Flink流批一體架構(gòu)、原理與實(shí)踐 (1)讀寫(xiě)模型 2.數(shù)據(jù)湖數(shù)據(jù)湖理念介紹 3.Hudi批流一體架構(gòu)、原理與實(shí)踐 4.Hudi核心組件 (1)有序的時(shí)間軸元數(shù)據(jù) (2)分層布局的數(shù)據(jù)文件 (3)索引(多種實(shí)現(xiàn)方式) 5.Hudi表設(shè)計(jì) (1)Timeline (2)數(shù)據(jù)文件--Hoodie key (3)索引 6.Hudi表類(lèi)型(讀寫(xiě)時(shí)模式區(qū)分) (1)Copy-On-Write 寫(xiě)時(shí)復(fù)制表 (2)Merge-On-Read 讀時(shí)合并表 7.數(shù)據(jù)湖Iceberg對(duì)比和技術(shù)實(shí)現(xiàn) 8.Trino技術(shù)和方案實(shí)踐 9.presto查詢(xún)引擎應(yīng)用 10.多庫(kù)多表實(shí)時(shí)入湖最佳實(shí)踐 11.數(shù)據(jù)湖并發(fā)控制實(shí)踐 12.數(shù)據(jù)湖最佳實(shí)踐 |
實(shí)戰(zhàn)案例 4小時(shí) 1.金融行業(yè)Top客戶(hù)應(yīng)用場(chǎng)景、規(guī)模建設(shè)等情況 2.OLAP實(shí)時(shí)化業(yè)務(wù)場(chǎng)景實(shí)踐(深度講解) (1)大數(shù)據(jù)金融信貸項(xiàng)目 ①項(xiàng)目需求分析 1)用戶(hù)信用卡持卡用戶(hù)特征分析 2)信用卡用戶(hù)消費(fèi)行為分析 3)用戶(hù)信用卡管理行為分析 4)頁(yè)面訪(fǎng)問(wèn)Top實(shí)時(shí) 5)動(dòng)賬管理行為分析 6)…… (2)系統(tǒng)架構(gòu)設(shè)計(jì) (3)數(shù)據(jù)流程設(shè)計(jì) (4)離線(xiàn)分析 (5)實(shí)時(shí)分析 (6)實(shí)時(shí)化探索 3.某行基于hudi的數(shù)據(jù)湖構(gòu)建實(shí)踐 (1)業(yè)務(wù)痛點(diǎn) ①當(dāng)前數(shù)倉(cāng)架構(gòu):批流雙鏈路對(duì)應(yīng)不同的存儲(chǔ)和計(jì)算組件,維護(hù)和資源成本高 ②痛點(diǎn):數(shù)據(jù)調(diào)度、數(shù)據(jù)同步和修復(fù)回刷等場(chǎng)景 (2)為什么選擇數(shù)據(jù)湖Hudi (3)方案:技術(shù)選型(實(shí)時(shí)化、離線(xiàn)) ①如何使用Hudi解決業(yè)務(wù)問(wèn)題 ②Hudi模型設(shè)計(jì)與傳統(tǒng)的離線(xiàn)數(shù)倉(cāng)模型設(shè)計(jì) ③基于Hudi的模式設(shè)計(jì)(寫(xiě)模型設(shè)計(jì)) ④確定合適的分區(qū)和文件大小來(lái)解決數(shù)據(jù)更新中毛刺問(wèn)題 (4)應(yīng)用場(chǎng)景:數(shù)據(jù)一鍵入湖、流量日志分流、物化查詢(xún)加速、實(shí)時(shí)數(shù)倉(cāng)演進(jìn) (5)生產(chǎn)環(huán)境最優(yōu)選擇 ①表類(lèi)型選擇 1)存儲(chǔ)類(lèi)型 2)索引類(lèi)型:支持多索引 3)Bucket數(shù)量:bucket index設(shè)計(jì)實(shí)踐 4)主鍵列 5)索引列 (6)數(shù)據(jù)寫(xiě)入方式:通過(guò)數(shù)據(jù)寫(xiě)入的瓶頸進(jìn)行綜合分析以及Flink On Hudi 的更新瓶頸 (7)數(shù)據(jù)查詢(xún)方式:無(wú)法使用數(shù)據(jù)時(shí)間進(jìn)行快照查詢(xún)以及異步物化視圖、數(shù)據(jù)緩存等 (8)合并寬表能力不足解決、維表 JOIN延長(zhǎng) (9)優(yōu)化文件布局 (10)數(shù)據(jù)湖并發(fā)控制缺陷解決 (11)多流合并優(yōu)化實(shí)踐 (12)實(shí)時(shí)數(shù)倉(cāng)并進(jìn):基于Kafka的ETL到基于視圖的ETL、Flink、Hudi、Trino應(yīng)用; 4.某銀行借鑒某互聯(lián)網(wǎng)數(shù)據(jù)湖應(yīng)用案例剖析 |
使用經(jīng)驗(yàn)(針對(duì)源碼缺陷進(jìn)行分析) 1小時(shí) 1.Hudi Pipelines模塊,支持流寫(xiě)Hudi在線(xiàn)同步源碼schema變更 2.Hudi項(xiàng)目對(duì)Timestamp字段類(lèi)型的支持,使Presto能正常查詢(xún)Hudi表 3.確保Presto查詢(xún)Hudi MOR多分區(qū)表查詢(xún)正常 4.確保FlinkSQL增刪改查Hudi多分區(qū)表功能正常 5.hudi-common模塊,解決TaskManager NPE異常 |