課程簡介
Flink SQL 是基于流處理和批處理的強(qiáng)大工具,通過多表關(guān)聯(lián)、自定義 TableSource 和 Table Sink 等實(shí)戰(zhàn),實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計分析。同時,結(jié)合 Watermark 和窗口函數(shù)處理時間序列數(shù)據(jù)。此外,F(xiàn)link 還與 Hive、RDBMS、Kafka、CDC、ES 等集成,滿足各種數(shù)據(jù)源需求。項目實(shí)戰(zhàn)涵蓋了流批一體、Kafka、Elasticsearch、Docker 演示等環(huán)境,提供完整的解決方案。
目標(biāo)收益
培訓(xùn)對象
課程大綱
主流大數(shù)據(jù)的整體技術(shù)架構(gòu) |
?開源大數(shù)據(jù)技術(shù)架構(gòu) ?開源大數(shù)據(jù)常用組件之間的依賴關(guān)系 ?離線計算框架介紹 —Mapreduce、Hive、Tez、Impala、Presto ?實(shí)時查詢框架介紹 —NoSQL、Hbase ?實(shí)時計算框架介紹 —Kafka、Flink、Spark Streaming ?內(nèi)存計算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR ?實(shí)時OLAP技術(shù)介紹 —Clickhouse、StarRocks等 ?海量日志快速檢索架構(gòu) —ELK(Elasticsearch、Logstash、Kibana)等 ?數(shù)據(jù)湖工具介紹 Hudi、IceBerg |
大數(shù)據(jù)平臺的架構(gòu)演變 |
?數(shù)據(jù)湖架構(gòu)案例實(shí)戰(zhàn) ?離線計算大數(shù)據(jù)平臺架構(gòu) ?實(shí)時計算應(yīng)用場景介紹 ?新一代湖倉一體架構(gòu) ?基于Flink實(shí)時數(shù)倉數(shù)倉解決方案 —Kafka+Flink+clickhouse —Flink CDC+Flink+StarRocks 基于Flink CDC+Flink+Hudi流批一體數(shù)據(jù)架構(gòu)解決方案 |
實(shí)時數(shù)倉和湖倉一體數(shù)據(jù)架構(gòu)實(shí)戰(zhàn)解析 |
?數(shù)據(jù)接入大數(shù)據(jù)平臺 -離線數(shù)據(jù)接入 -實(shí)時的數(shù)據(jù)接入 ?數(shù)據(jù)處理過程 -數(shù)據(jù)的ETL -數(shù)據(jù)分層(ODS、DW和DM等) -數(shù)據(jù)建模 -數(shù)據(jù)校驗 ?數(shù)據(jù)應(yīng)用 -數(shù)據(jù)離線應(yīng)用 -數(shù)據(jù)實(shí)時應(yīng)用 -數(shù)據(jù)實(shí)驗室 數(shù)據(jù)展示工具(BI工具) |
Hadoop開發(fā)實(shí)戰(zhàn) |
?HDFS架構(gòu)介紹 ?HDFS原理介紹 ?NameNode功能詳解 ?DataNode功能詳 ?HDFS HA功能詳解 ?HSFD的fsimage和editslog詳解 ?HDFS的block詳解 ?HDFS的block的備份策略 ?Mapreduce原理 ?MapReduce流程 ?剖析一個MapReduce程序 ?Mapper和Reducer抽象類詳解 ?Combiner詳解 Partitioner詳解 |
Hive數(shù)倉工具開發(fā)實(shí)戰(zhàn) |
?Hive的作用和原理說明 ?Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系 ?Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流 ?Hive的MetaStore詳解 ?Hive的基本用法 ?Hive的server啟動 ?HQL基本語法 ?Hive的加載數(shù)據(jù)本地加載和HDFS加載 ?Hive的partition詳解 ?Hive的存儲方式詳解 RCFILE、TEXTFILE和SEQUEUEFILE |
Hbase原理和開發(fā)實(shí)戰(zhàn) |
?NoSQL介紹 ?NoSQL應(yīng)用場景 ?Hbase的架構(gòu)原理 ?Hbase核心概念詳解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore) ?Hbase自帶的namesapce和Meta表詳解 ?HBase邏輯視圖介紹 ?HBase物理視圖介紹 ?HBase的RowKey設(shè)計原則 ?HBase BloomFilter的介紹 ?手動設(shè)置Split和Compaction操作 ?Pre-Split的介紹 ?HBase使用場景介紹 Hbase shell增刪改查實(shí)戰(zhàn) |
Spark原理和開發(fā)實(shí)戰(zhàn) |
?Spark的編程模型 ?Spark編程模型解析 ?Partition實(shí)現(xiàn)機(jī)制 ?RDD的特點(diǎn)、操作、依賴關(guān)系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark容錯機(jī)制 ?lineage和checkpoint詳解 ?Spark的運(yùn)行方式 ?Spark DataFrame和DateSet介紹 ?Spark SQL原理 ?Spark SQL和Hive連接 ?DataFrame和DataSet架構(gòu) ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實(shí)戰(zhàn) Spark SQL開發(fā) |
Flink原理和開發(fā)實(shí)戰(zhàn) |
?DataStream API介紹與使用 ?DataStream編程模型 ?DataStream類型與轉(zhuǎn)換 ?Pipeline與StreamGraph轉(zhuǎn)換 ?Transformation ?時間概念與Watermark ?Windows窗口計算和多流合并 ?Flink table API原理和使用 ?Flink SQL原理和使用 ?TimeStamp與Watermark原理和實(shí)戰(zhàn) ?多表關(guān)聯(lián)實(shí)戰(zhàn) ?與Hive的集成實(shí)戰(zhàn) ?自定義TableSource、Table Sink和Table Factory實(shí)戰(zhàn) 項目實(shí)戰(zhàn):基于Flink SQL實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計分析 |
流批一體項目實(shí)戰(zhàn)RDBMS +Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實(shí)戰(zhàn) |
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實(shí)戰(zhàn): ?Docker演示環(huán)境介紹 ?項目需求分析和解決方案設(shè)計 ?流式數(shù)倉分層模型設(shè)計 ?Flink CDC mysql實(shí)戰(zhàn) ?Flink CDC postgres實(shí)戰(zhàn) ?Flink CDC Kafka實(shí)戰(zhàn) ?Flink CDC ES實(shí)現(xiàn) ?Kibana結(jié)果展示 ?RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項目實(shí)戰(zhàn) 實(shí)操:老師演練項目 |
大數(shù)據(jù)平臺實(shí)施和運(yùn)維 |
?大數(shù)據(jù)平臺規(guī)劃 ?大數(shù)據(jù)平臺實(shí)施的步驟及構(gòu)建 ?大數(shù)據(jù)平臺權(quán)限認(rèn)證和授權(quán)解決方案 ?Kerberos+Openldap+sssd+knox+Ranger實(shí)現(xiàn)企業(yè)級大數(shù)據(jù)平臺安全控制和實(shí)操 ?Yarn資源分配策略詳解和實(shí)操 ?yarn replacement rules權(quán)限控制和實(shí)操 ?Yarn 隊列+Ranger控制詳解和實(shí)操 ?HDFS+Ranger權(quán)限控制和實(shí)操 ?跨集群數(shù)據(jù)訪問的安全和資源控制案例分享 某大型銀行大數(shù)據(jù)平臺深度解析 |
主流大數(shù)據(jù)的整體技術(shù)架構(gòu) ?開源大數(shù)據(jù)技術(shù)架構(gòu) ?開源大數(shù)據(jù)常用組件之間的依賴關(guān)系 ?離線計算框架介紹 —Mapreduce、Hive、Tez、Impala、Presto ?實(shí)時查詢框架介紹 —NoSQL、Hbase ?實(shí)時計算框架介紹 —Kafka、Flink、Spark Streaming ?內(nèi)存計算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR ?實(shí)時OLAP技術(shù)介紹 —Clickhouse、StarRocks等 ?海量日志快速檢索架構(gòu) —ELK(Elasticsearch、Logstash、Kibana)等 ?數(shù)據(jù)湖工具介紹 Hudi、IceBerg |
大數(shù)據(jù)平臺的架構(gòu)演變 ?數(shù)據(jù)湖架構(gòu)案例實(shí)戰(zhàn) ?離線計算大數(shù)據(jù)平臺架構(gòu) ?實(shí)時計算應(yīng)用場景介紹 ?新一代湖倉一體架構(gòu) ?基于Flink實(shí)時數(shù)倉數(shù)倉解決方案 —Kafka+Flink+clickhouse —Flink CDC+Flink+StarRocks 基于Flink CDC+Flink+Hudi流批一體數(shù)據(jù)架構(gòu)解決方案 |
實(shí)時數(shù)倉和湖倉一體數(shù)據(jù)架構(gòu)實(shí)戰(zhàn)解析 ?數(shù)據(jù)接入大數(shù)據(jù)平臺 -離線數(shù)據(jù)接入 -實(shí)時的數(shù)據(jù)接入 ?數(shù)據(jù)處理過程 -數(shù)據(jù)的ETL -數(shù)據(jù)分層(ODS、DW和DM等) -數(shù)據(jù)建模 -數(shù)據(jù)校驗 ?數(shù)據(jù)應(yīng)用 -數(shù)據(jù)離線應(yīng)用 -數(shù)據(jù)實(shí)時應(yīng)用 -數(shù)據(jù)實(shí)驗室 數(shù)據(jù)展示工具(BI工具) |
Hadoop開發(fā)實(shí)戰(zhàn) ?HDFS架構(gòu)介紹 ?HDFS原理介紹 ?NameNode功能詳解 ?DataNode功能詳 ?HDFS HA功能詳解 ?HSFD的fsimage和editslog詳解 ?HDFS的block詳解 ?HDFS的block的備份策略 ?Mapreduce原理 ?MapReduce流程 ?剖析一個MapReduce程序 ?Mapper和Reducer抽象類詳解 ?Combiner詳解 Partitioner詳解 |
Hive數(shù)倉工具開發(fā)實(shí)戰(zhàn) ?Hive的作用和原理說明 ?Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系 ?Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流 ?Hive的MetaStore詳解 ?Hive的基本用法 ?Hive的server啟動 ?HQL基本語法 ?Hive的加載數(shù)據(jù)本地加載和HDFS加載 ?Hive的partition詳解 ?Hive的存儲方式詳解 RCFILE、TEXTFILE和SEQUEUEFILE |
Hbase原理和開發(fā)實(shí)戰(zhàn) ?NoSQL介紹 ?NoSQL應(yīng)用場景 ?Hbase的架構(gòu)原理 ?Hbase核心概念詳解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore) ?Hbase自帶的namesapce和Meta表詳解 ?HBase邏輯視圖介紹 ?HBase物理視圖介紹 ?HBase的RowKey設(shè)計原則 ?HBase BloomFilter的介紹 ?手動設(shè)置Split和Compaction操作 ?Pre-Split的介紹 ?HBase使用場景介紹 Hbase shell增刪改查實(shí)戰(zhàn) |
Spark原理和開發(fā)實(shí)戰(zhàn) ?Spark的編程模型 ?Spark編程模型解析 ?Partition實(shí)現(xiàn)機(jī)制 ?RDD的特點(diǎn)、操作、依賴關(guān)系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark容錯機(jī)制 ?lineage和checkpoint詳解 ?Spark的運(yùn)行方式 ?Spark DataFrame和DateSet介紹 ?Spark SQL原理 ?Spark SQL和Hive連接 ?DataFrame和DataSet架構(gòu) ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實(shí)戰(zhàn) Spark SQL開發(fā) |
Flink原理和開發(fā)實(shí)戰(zhàn) ?DataStream API介紹與使用 ?DataStream編程模型 ?DataStream類型與轉(zhuǎn)換 ?Pipeline與StreamGraph轉(zhuǎn)換 ?Transformation ?時間概念與Watermark ?Windows窗口計算和多流合并 ?Flink table API原理和使用 ?Flink SQL原理和使用 ?TimeStamp與Watermark原理和實(shí)戰(zhàn) ?多表關(guān)聯(lián)實(shí)戰(zhàn) ?與Hive的集成實(shí)戰(zhàn) ?自定義TableSource、Table Sink和Table Factory實(shí)戰(zhàn) 項目實(shí)戰(zhàn):基于Flink SQL實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計分析 |
流批一體項目實(shí)戰(zhàn)RDBMS +Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實(shí)戰(zhàn) RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項目實(shí)戰(zhàn): ?Docker演示環(huán)境介紹 ?項目需求分析和解決方案設(shè)計 ?流式數(shù)倉分層模型設(shè)計 ?Flink CDC mysql實(shí)戰(zhàn) ?Flink CDC postgres實(shí)戰(zhàn) ?Flink CDC Kafka實(shí)戰(zhàn) ?Flink CDC ES實(shí)現(xiàn) ?Kibana結(jié)果展示 ?RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項目實(shí)戰(zhàn) 實(shí)操:老師演練項目 |
大數(shù)據(jù)平臺實(shí)施和運(yùn)維 ?大數(shù)據(jù)平臺規(guī)劃 ?大數(shù)據(jù)平臺實(shí)施的步驟及構(gòu)建 ?大數(shù)據(jù)平臺權(quán)限認(rèn)證和授權(quán)解決方案 ?Kerberos+Openldap+sssd+knox+Ranger實(shí)現(xiàn)企業(yè)級大數(shù)據(jù)平臺安全控制和實(shí)操 ?Yarn資源分配策略詳解和實(shí)操 ?yarn replacement rules權(quán)限控制和實(shí)操 ?Yarn 隊列+Ranger控制詳解和實(shí)操 ?HDFS+Ranger權(quán)限控制和實(shí)操 ?跨集群數(shù)據(jù)訪問的安全和資源控制案例分享 某大型銀行大數(shù)據(jù)平臺深度解析 |