工程師
其他
大數(shù)據(jù)
數(shù)據(jù)分析
大數(shù)據(jù)平臺
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

基于Hadoop、Spark數(shù)據(jù)分析和挖掘?qū)崙?zhàn)

劉老師

某知名咨詢公司 云平臺系統(tǒng)架構(gòu)師

畢業(yè)于?連理??學(xué)
簡介:
精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。
有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù)
據(jù)中臺項?架構(gòu)實施經(jīng)驗,
?前任職國內(nèi)知名咨詢公司,先后服務(wù)于北京?學(xué)軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術(shù)
棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構(gòu)咨詢和實施、數(shù)據(jù)中臺的咨詢和設(shè)施
最近主要項?介紹:
某移動?數(shù)據(jù)平臺架構(gòu)設(shè)計和設(shè)施 (Hadoop、Spark)
四??之?的數(shù)據(jù)湖咨詢和實施
某?型商業(yè)銀?數(shù)據(jù)中臺咨詢
某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺的咨詢和實施
某航空公司數(shù)據(jù)平臺流批?體解決?案和實施
特長:
在?數(shù)據(jù)架構(gòu)、開發(fā)、運(yùn)維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)、數(shù)據(jù)
中臺等??有豐富經(jīng) 驗。

畢業(yè)于?連理??學(xué) 簡介: 精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。 有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù) 據(jù)中臺項?架構(gòu)實施經(jīng)驗, ?前任職國內(nèi)知名咨詢公司,先后服務(wù)于北京?學(xué)軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術(shù) 棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構(gòu)咨詢和實施、數(shù)據(jù)中臺的咨詢和設(shè)施 最近主要項?介紹: 某移動?數(shù)據(jù)平臺架構(gòu)設(shè)計和設(shè)施 (Hadoop、Spark) 四??之?的數(shù)據(jù)湖咨詢和實施 某?型商業(yè)銀?數(shù)據(jù)中臺咨詢 某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺的咨詢和實施 某航空公司數(shù)據(jù)平臺流批?體解決?案和實施 特長: 在?數(shù)據(jù)架構(gòu)、開發(fā)、運(yùn)維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)、數(shù)據(jù) 中臺等??有豐富經(jīng) 驗。

課程費(fèi)用

6800.00 /人

課程時長

2

成為教練

課程簡介

基于開源大數(shù)據(jù)平臺數(shù)據(jù)分析和挖掘?qū)嵱?xùn)課程,該是一個理論與實踐相結(jié)合的課程,闡述大數(shù)據(jù)主流的系統(tǒng)架構(gòu),數(shù)據(jù)分析和挖掘的技術(shù)、流程。
本課程包含了兩個真實數(shù)據(jù)分析和挖掘?qū)崙?zhàn)案例,通過具體的案例了解大數(shù)據(jù)平臺常用的數(shù)據(jù)分析和挖掘技術(shù)。
本課程是目前基于大數(shù)據(jù)平臺數(shù)據(jù)分析和挖掘的主流課程,涵蓋了基于大數(shù)據(jù)平臺數(shù)據(jù)分析和挖掘的整個流程和技術(shù)

目標(biāo)收益

深度了解主流大數(shù)據(jù)系統(tǒng)的系統(tǒng)架構(gòu),組件交互,及其內(nèi)核工作與運(yùn)行機(jī)制;
了解大數(shù)據(jù)平臺常用的以希望數(shù)據(jù)分析和挖掘的技術(shù),如:Hadoop、Hive、Spark等
深度了解機(jī)器學(xué)習(xí)算法,及其Spark MLlib基本算法原理,以及機(jī)器學(xué)習(xí)算法實踐與優(yōu)化。
了解目前主流的數(shù)據(jù)分析和挖掘平臺
了解基于Python數(shù)據(jù)分析和挖掘的技術(shù)棧
能夠使用Python基于Spark額mllib上面進(jìn)行數(shù)據(jù)分析和挖掘。

培訓(xùn)對象

具有1年及以上工作經(jīng)驗,并期望掌握大數(shù)據(jù)系統(tǒng)與機(jī)器學(xué)習(xí)算法,大數(shù)據(jù)系統(tǒng)架構(gòu),機(jī)器學(xué)習(xí)算法運(yùn)行機(jī)制的研發(fā)工程師,算法工程師,及其架構(gòu)師。
利用大數(shù)據(jù)平臺數(shù)據(jù)分析挖掘的同學(xué)
了解基于大數(shù)據(jù)平臺常用數(shù)據(jù)分析和挖掘的流程和方法

課程大綱

第一天
Spark技術(shù)棧介紹
Spark-Core介紹
Spark SQL介紹
Spark Streaming介紹
Spark mllib介紹
Spark GraphX介紹
PySpark介紹
SparkR介紹
Spark3.0重要特性介紹
Spark編程模型和解析 Spark的編程模型
Spark編程模型解析
Partition實現(xiàn)機(jī)制
RDD的特點、操作、依賴關(guān)系
Transformation RDD詳解
Action RDD詳解
Spark的累加器詳解
Spark的廣播變量詳解
Spark容錯機(jī)制
—lineage和checkpoint詳解
Spark的運(yùn)行方式
Spark的Shuffle原理詳解
—Sort-Based原理
—Hash-Based原理
Spark Partition詳解
Spark SQL原理和實踐 Spark SQL原理
Spark SQL的Catalyst優(yōu)化器
Spark SQL內(nèi)核
Spark SQL和Hive連接
DataFrame和DataSet架構(gòu)
Fataframe、DataSet和Spark SQL的比較
SparkSQL parquet格式實戰(zhàn)
Spark SQL的實例和編程
Spark SQL的實例操作demo
Spark SQL的編程
Spark SQL學(xué)員實操訓(xùn)練
Spark Streaming詳解 Spark Streaming原理
Spark Streaming的應(yīng)用場景
Windows 窗口操作
DStream詳解
Spark SQL on Spark Streaming詳解
Structured Streaming介紹
Structured Streaming的水印操作
Structured Streaming+kafka應(yīng)用實戰(zhàn)
流式任務(wù)的痛點和注意點
流式任務(wù)數(shù)據(jù)延遲問題
流式任務(wù)作業(yè)性能問題
流式任務(wù)任務(wù)常見的處理方式
Day2 上午
Spark優(yōu)化實戰(zhàn)
Spark DAG原理和優(yōu)化
GC垃圾回收分析
減少任務(wù)使用內(nèi)存
廣播大變量
數(shù)據(jù)本地化
Spark shuffle原理和優(yōu)化
Spark內(nèi)存模型設(shè)計原理
Spark堆內(nèi)內(nèi)存管理
Spark堆外內(nèi)存管理
Spark任務(wù)執(zhí)行過程分析和資源占用詳解
sparkSQL核心配置參數(shù)詳解
Day2 下午
數(shù)據(jù)分析和數(shù)據(jù)挖掘方法論和Spark數(shù)據(jù)分析實戰(zhàn)
數(shù)據(jù)分析和挖掘技術(shù)介紹
數(shù)據(jù)分析和挖掘挖掘應(yīng)用場景介紹
數(shù)據(jù)分析和挖掘挖掘常用的算法介紹
數(shù)據(jù)分析和挖掘挖掘應(yīng)用架構(gòu)
數(shù)據(jù)分析和挖掘挖掘流程CRISP-DM模型介紹
數(shù)據(jù)分析和挖掘挖掘流程方法論介紹
數(shù)據(jù)特征工程構(gòu)建方法論
第一天
Spark技術(shù)棧介紹
Spark-Core介紹
Spark SQL介紹
Spark Streaming介紹
Spark mllib介紹
Spark GraphX介紹
PySpark介紹
SparkR介紹
Spark3.0重要特性介紹
Spark編程模型和解析
Spark的編程模型
Spark編程模型解析
Partition實現(xiàn)機(jī)制
RDD的特點、操作、依賴關(guān)系
Transformation RDD詳解
Action RDD詳解
Spark的累加器詳解
Spark的廣播變量詳解
Spark容錯機(jī)制
—lineage和checkpoint詳解
Spark的運(yùn)行方式
Spark的Shuffle原理詳解
—Sort-Based原理
—Hash-Based原理
Spark Partition詳解
Spark SQL原理和實踐
Spark SQL原理
Spark SQL的Catalyst優(yōu)化器
Spark SQL內(nèi)核
Spark SQL和Hive連接
DataFrame和DataSet架構(gòu)
Fataframe、DataSet和Spark SQL的比較
SparkSQL parquet格式實戰(zhàn)
Spark SQL的實例和編程
Spark SQL的實例操作demo
Spark SQL的編程
Spark SQL學(xué)員實操訓(xùn)練
Spark Streaming詳解
Spark Streaming原理
Spark Streaming的應(yīng)用場景
Windows 窗口操作
DStream詳解
Spark SQL on Spark Streaming詳解
Structured Streaming介紹
Structured Streaming的水印操作
Structured Streaming+kafka應(yīng)用實戰(zhàn)
流式任務(wù)的痛點和注意點
流式任務(wù)數(shù)據(jù)延遲問題
流式任務(wù)作業(yè)性能問題
流式任務(wù)任務(wù)常見的處理方式
Day2 上午
Spark優(yōu)化實戰(zhàn)
Spark DAG原理和優(yōu)化
GC垃圾回收分析
減少任務(wù)使用內(nèi)存
廣播大變量
數(shù)據(jù)本地化
Spark shuffle原理和優(yōu)化
Spark內(nèi)存模型設(shè)計原理
Spark堆內(nèi)內(nèi)存管理
Spark堆外內(nèi)存管理
Spark任務(wù)執(zhí)行過程分析和資源占用詳解
sparkSQL核心配置參數(shù)詳解
Day2 下午
數(shù)據(jù)分析和數(shù)據(jù)挖掘方法論和Spark數(shù)據(jù)分析實戰(zhàn)
數(shù)據(jù)分析和挖掘技術(shù)介紹
數(shù)據(jù)分析和挖掘挖掘應(yīng)用場景介紹
數(shù)據(jù)分析和挖掘挖掘常用的算法介紹
數(shù)據(jù)分析和挖掘挖掘應(yīng)用架構(gòu)
數(shù)據(jù)分析和挖掘挖掘流程CRISP-DM模型介紹
數(shù)據(jù)分析和挖掘挖掘流程方法論介紹
數(shù)據(jù)特征工程構(gòu)建方法論

活動詳情

提交需求