課程簡介
通過介紹大數(shù)據(jù)的核心計(jì)算和存儲(chǔ)組件,以及整個(gè)完整的大數(shù)據(jù)平臺(tái)架構(gòu),結(jié)合具體的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)案例分析,讓大家了解和掌握大數(shù)據(jù)平臺(tái)、機(jī)器學(xué)習(xí)和數(shù)據(jù)分析相關(guān)知識(shí)、最新的發(fā)展趨勢(shì)和如何應(yīng)用到實(shí)際項(xiàng)目實(shí)踐中。
目標(biāo)收益
通過介紹大數(shù)據(jù)的核心計(jì)算和存儲(chǔ)組件,以及整個(gè)完整的大數(shù)據(jù)平臺(tái)架構(gòu),結(jié)合具體的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)案例分析,讓大家了解和掌握大數(shù)據(jù)平臺(tái)、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)相關(guān)知識(shí)、最新的發(fā)展趨勢(shì),以及如何應(yīng)用到實(shí)際項(xiàng)目實(shí)踐中。
培訓(xùn)對(duì)象
課程大綱
大數(shù)據(jù)和大數(shù)據(jù)平臺(tái)概念 |
1. 大數(shù)據(jù)技術(shù)的發(fā)展歷程和應(yīng)用背景、大數(shù)據(jù)產(chǎn)業(yè)鏈概況,以及大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)等行業(yè)中的應(yīng)用實(shí)踐; 2. 數(shù)據(jù)平臺(tái)的基本概念和架構(gòu):數(shù)據(jù)平臺(tái)的組成部分,功能和作用:包括數(shù)據(jù)存儲(chǔ)、計(jì)算、傳輸(輸入/輸出)、任務(wù)調(diào)度系統(tǒng)、開發(fā)者平臺(tái)、數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng)等。以某知名互聯(lián)網(wǎng)公司數(shù)據(jù)平臺(tái)架構(gòu)為例進(jìn)行分享,節(jié)點(diǎn)2000+,存儲(chǔ)50PB 3. 大數(shù)據(jù)在企業(yè)運(yùn)營中的應(yīng)用 |
Hadoop分布式存儲(chǔ)HDFS介紹 |
1. Hadoop大數(shù)據(jù)存儲(chǔ)系統(tǒng)HDFS的技術(shù)原理及應(yīng)用實(shí)戰(zhàn),以及分布式文件系統(tǒng)HDFS概述、功能、作用、優(yōu)勢(shì)、應(yīng)用現(xiàn)狀和發(fā)展趨勢(shì) 2. HDFS分布式存儲(chǔ)系統(tǒng)的核心關(guān)鍵技術(shù)、設(shè)計(jì)精髓、基本工作原理、系統(tǒng)架構(gòu)、文件存儲(chǔ)模式、工作機(jī)制、存儲(chǔ)擴(kuò)容與吞吐性能擴(kuò)展 |
MapReduce計(jì)算執(zhí)行框架 |
1. 大數(shù)據(jù)平臺(tái)中的并行計(jì)算處理與函數(shù)式編程技術(shù)原理,以及數(shù)據(jù)并行技術(shù)—MapReduce技術(shù)的工作機(jī)制、工作原理、性能調(diào)優(yōu)和大數(shù)據(jù)處理架構(gòu),以及MapReduce技術(shù)的發(fā)展趨勢(shì) 2. Hadoop MapReduce并行處理平臺(tái)的系統(tǒng)架構(gòu)、核心功能模塊、MapReduce編程應(yīng)用開發(fā)實(shí)踐 |
資源調(diào)度框架YARN介紹 |
1. YARN 集群的架構(gòu) 2. 資源分配和故障恢復(fù) 3. 使用 YARN Web 用戶界面 4. 管理正在運(yùn)行的作業(yè) 5. 配置公平調(diào)度器 6. 實(shí)現(xiàn)多租戶架構(gòu) |
Hadoop集群的高級(jí)特性、集群建設(shè)和運(yùn)維實(shí)踐 |
1. Namenode\DataNode節(jié)點(diǎn)硬件以及網(wǎng)絡(luò)選擇 2. 集群高可用配置 3. 集群機(jī)房實(shí)際部署拓?fù)渫扑]——PB級(jí)別容量集群的實(shí)際配置方案 4. 集群監(jiān)控和自動(dòng)化運(yùn)維實(shí)踐 5. 常見的 Hadoop Clusters 的故障排除 |
數(shù)據(jù)倉庫和數(shù)據(jù)分析實(shí)踐 |
1. Hive基本介紹和Hive在數(shù)據(jù)倉庫中的使用 2. Hive的配置和使用 3. Hive的HQL擴(kuò)展開發(fā) 數(shù)據(jù)倉庫建設(shè)經(jīng)驗(yàn)分享——以知名互聯(lián)網(wǎng)公司倉庫建設(shè)實(shí)踐經(jīng)驗(yàn):表數(shù)量2萬+、分析師200+、模型和任務(wù)數(shù)量2萬+ |
Spark分享和實(shí)踐 |
1. Spark的基礎(chǔ)概念 2. Spark安裝和配置 3. RDD 基本概念 4. Spark SQL和DataFrames介紹 5. Spark Streaming開發(fā)實(shí)踐 Spark SQL和Hive在數(shù)據(jù)分析中的整合實(shí)踐 |
實(shí)時(shí)和流計(jì)算 |
1. 介紹Flink相關(guān)概念和基礎(chǔ)知識(shí),以及如何使用Flink等。 2. 以流量實(shí)時(shí)化和實(shí)時(shí)推薦為例,介紹實(shí)時(shí)系統(tǒng)的使用場(chǎng)景、系統(tǒng)架構(gòu)和最佳實(shí)踐 3. Spark相關(guān)介紹和基礎(chǔ)知識(shí) 4. Spark/Spark SQL/Spark Streaming的使用場(chǎng)景和特點(diǎn) 5. 在流處理方向Spark Stream和Flink的區(qū)別和使用特點(diǎn) 案例分享:實(shí)時(shí)和離線融合在互聯(lián)網(wǎng)公司的實(shí)踐 |
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)知識(shí)原理 |
1. 機(jī)器學(xué)習(xí)知識(shí)與人工智能、深度學(xué)習(xí)關(guān)系; 2. 機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景是什么; 3. 機(jī)器學(xué)習(xí)分類和算法基本介紹:監(jiān)督學(xué)習(xí)算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等); 4. 機(jī)器學(xué)習(xí)分類和算法基本介紹:無監(jiān)督學(xué)習(xí)算法(K-Means、PCA、LDA等); 5. 機(jī)器學(xué)習(xí)評(píng)估指標(biāo); 6. 機(jī)器學(xué)習(xí)常用數(shù)學(xué)知識(shí); |
特征工程和模型訓(xùn)練 |
1. 特征工程(特征提取,特征離散化,特征交叉等); 2. 3.如何大規(guī)模實(shí)時(shí)&離線訓(xùn)練模型(訓(xùn)練集、測(cè)試集、驗(yàn)證集/評(píng)估指標(biāo)AUC、ABTest 等) |
大規(guī)模機(jī)器學(xué)習(xí)平臺(tái) |
1. 模型開發(fā)(如何支持Python、Spark ML、R、TensorFlow、PyTorch等機(jī)器學(xué)習(xí)和深度學(xué)習(xí)框架開發(fā)) 2. 數(shù)據(jù)存儲(chǔ):實(shí)時(shí)特征+離線歷史數(shù)據(jù) 3. 大規(guī)模分布式計(jì)算:CPU + GPU 4. 模型發(fā)布和上線 5. 我們的大規(guī)模機(jī)器學(xué)習(xí)平臺(tái)分享(支持200+ 算法和模型開發(fā)人員) |
用戶畫像在個(gè)性化性化推薦系統(tǒng)領(lǐng)域 |
案例簡介:用戶畫像數(shù)據(jù)體系建設(shè),以及基于用戶畫像數(shù)據(jù)、用戶實(shí)時(shí)行為數(shù)據(jù)的個(gè)性化推薦系統(tǒng)介紹 1. 用戶畫像體系介紹 2. 用戶特征抽取 3. 用戶特征存儲(chǔ)和應(yīng)用 4. 個(gè)性化推薦系統(tǒng)和用戶畫像的結(jié)合 |
推薦系統(tǒng)實(shí)踐 |
案例簡介:我們的推薦系統(tǒng)如何支持每天上億用戶訪問;以及億級(jí)別的銷售額提升 1. 推薦系統(tǒng)整體架構(gòu) 2. 算法和模型支持 3. 算法評(píng)估和灰度 4. ABT效果檢驗(yàn) |
知名互聯(lián)網(wǎng)公司的數(shù)據(jù)驅(qū)動(dòng)精準(zhǔn)化營銷實(shí)踐 |
案例簡介:結(jié)合用戶畫像數(shù)據(jù),給不同用戶人群發(fā)送PUSH(短信)的營銷效果分析 1. 用戶寬表建設(shè) 2. 根據(jù)特征選擇用戶群體 3. PUSH系統(tǒng)和用戶數(shù)據(jù)整合 4. PUSH效果分析(根據(jù)用戶行為數(shù)據(jù)分析營銷效果、用戶留存以及活動(dòng)ROI) |
實(shí)時(shí)數(shù)據(jù)看板分享(雙十一大屏) |
案例簡介:雙十一大促銷售額、轉(zhuǎn)化率、UV、漏斗等核心數(shù)據(jù)實(shí)時(shí)大屏展示 1. 訂單和用戶行為數(shù)據(jù)實(shí)時(shí)接入 2. 使用Flink(Spark)做實(shí)時(shí)數(shù)據(jù)計(jì)算 3. HBase存儲(chǔ)計(jì)算指標(biāo) 4. 數(shù)據(jù)Service提供訪問接口 5. 前端大屏動(dòng)態(tài)秒級(jí)更新數(shù)據(jù) |
數(shù)據(jù)運(yùn)營平臺(tái)介紹 |
數(shù)據(jù)運(yùn)營平臺(tái)支持商務(wù)、運(yùn)營等對(duì)公司日常銷售、轉(zhuǎn)換率、用戶訪問、品牌等的售賣詳細(xì)情況分析;分為固定產(chǎn)品、自助分析系統(tǒng)等,挖掘深層次的商業(yè)機(jī)會(huì) 1. 運(yùn)營看板實(shí)例分享 2. 自助分析系統(tǒng)建設(shè)經(jīng)驗(yàn)分享 |
大數(shù)據(jù)和大數(shù)據(jù)平臺(tái)概念 1. 大數(shù)據(jù)技術(shù)的發(fā)展歷程和應(yīng)用背景、大數(shù)據(jù)產(chǎn)業(yè)鏈概況,以及大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)等行業(yè)中的應(yīng)用實(shí)踐; 2. 數(shù)據(jù)平臺(tái)的基本概念和架構(gòu):數(shù)據(jù)平臺(tái)的組成部分,功能和作用:包括數(shù)據(jù)存儲(chǔ)、計(jì)算、傳輸(輸入/輸出)、任務(wù)調(diào)度系統(tǒng)、開發(fā)者平臺(tái)、數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng)等。以某知名互聯(lián)網(wǎng)公司數(shù)據(jù)平臺(tái)架構(gòu)為例進(jìn)行分享,節(jié)點(diǎn)2000+,存儲(chǔ)50PB 3. 大數(shù)據(jù)在企業(yè)運(yùn)營中的應(yīng)用 |
Hadoop分布式存儲(chǔ)HDFS介紹 1. Hadoop大數(shù)據(jù)存儲(chǔ)系統(tǒng)HDFS的技術(shù)原理及應(yīng)用實(shí)戰(zhàn),以及分布式文件系統(tǒng)HDFS概述、功能、作用、優(yōu)勢(shì)、應(yīng)用現(xiàn)狀和發(fā)展趨勢(shì) 2. HDFS分布式存儲(chǔ)系統(tǒng)的核心關(guān)鍵技術(shù)、設(shè)計(jì)精髓、基本工作原理、系統(tǒng)架構(gòu)、文件存儲(chǔ)模式、工作機(jī)制、存儲(chǔ)擴(kuò)容與吞吐性能擴(kuò)展 |
MapReduce計(jì)算執(zhí)行框架 1. 大數(shù)據(jù)平臺(tái)中的并行計(jì)算處理與函數(shù)式編程技術(shù)原理,以及數(shù)據(jù)并行技術(shù)—MapReduce技術(shù)的工作機(jī)制、工作原理、性能調(diào)優(yōu)和大數(shù)據(jù)處理架構(gòu),以及MapReduce技術(shù)的發(fā)展趨勢(shì) 2. Hadoop MapReduce并行處理平臺(tái)的系統(tǒng)架構(gòu)、核心功能模塊、MapReduce編程應(yīng)用開發(fā)實(shí)踐 |
資源調(diào)度框架YARN介紹 1. YARN 集群的架構(gòu) 2. 資源分配和故障恢復(fù) 3. 使用 YARN Web 用戶界面 4. 管理正在運(yùn)行的作業(yè) 5. 配置公平調(diào)度器 6. 實(shí)現(xiàn)多租戶架構(gòu) |
Hadoop集群的高級(jí)特性、集群建設(shè)和運(yùn)維實(shí)踐 1. Namenode\DataNode節(jié)點(diǎn)硬件以及網(wǎng)絡(luò)選擇 2. 集群高可用配置 3. 集群機(jī)房實(shí)際部署拓?fù)渫扑]——PB級(jí)別容量集群的實(shí)際配置方案 4. 集群監(jiān)控和自動(dòng)化運(yùn)維實(shí)踐 5. 常見的 Hadoop Clusters 的故障排除 |
數(shù)據(jù)倉庫和數(shù)據(jù)分析實(shí)踐 1. Hive基本介紹和Hive在數(shù)據(jù)倉庫中的使用 2. Hive的配置和使用 3. Hive的HQL擴(kuò)展開發(fā) 數(shù)據(jù)倉庫建設(shè)經(jīng)驗(yàn)分享——以知名互聯(lián)網(wǎng)公司倉庫建設(shè)實(shí)踐經(jīng)驗(yàn):表數(shù)量2萬+、分析師200+、模型和任務(wù)數(shù)量2萬+ |
Spark分享和實(shí)踐 1. Spark的基礎(chǔ)概念 2. Spark安裝和配置 3. RDD 基本概念 4. Spark SQL和DataFrames介紹 5. Spark Streaming開發(fā)實(shí)踐 Spark SQL和Hive在數(shù)據(jù)分析中的整合實(shí)踐 |
實(shí)時(shí)和流計(jì)算 1. 介紹Flink相關(guān)概念和基礎(chǔ)知識(shí),以及如何使用Flink等。 2. 以流量實(shí)時(shí)化和實(shí)時(shí)推薦為例,介紹實(shí)時(shí)系統(tǒng)的使用場(chǎng)景、系統(tǒng)架構(gòu)和最佳實(shí)踐 3. Spark相關(guān)介紹和基礎(chǔ)知識(shí) 4. Spark/Spark SQL/Spark Streaming的使用場(chǎng)景和特點(diǎn) 5. 在流處理方向Spark Stream和Flink的區(qū)別和使用特點(diǎn) 案例分享:實(shí)時(shí)和離線融合在互聯(lián)網(wǎng)公司的實(shí)踐 |
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)知識(shí)原理 1. 機(jī)器學(xué)習(xí)知識(shí)與人工智能、深度學(xué)習(xí)關(guān)系; 2. 機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景是什么; 3. 機(jī)器學(xué)習(xí)分類和算法基本介紹:監(jiān)督學(xué)習(xí)算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等); 4. 機(jī)器學(xué)習(xí)分類和算法基本介紹:無監(jiān)督學(xué)習(xí)算法(K-Means、PCA、LDA等); 5. 機(jī)器學(xué)習(xí)評(píng)估指標(biāo); 6. 機(jī)器學(xué)習(xí)常用數(shù)學(xué)知識(shí); |
特征工程和模型訓(xùn)練 1. 特征工程(特征提取,特征離散化,特征交叉等); 2. 3.如何大規(guī)模實(shí)時(shí)&離線訓(xùn)練模型(訓(xùn)練集、測(cè)試集、驗(yàn)證集/評(píng)估指標(biāo)AUC、ABTest 等) |
大規(guī)模機(jī)器學(xué)習(xí)平臺(tái) 1. 模型開發(fā)(如何支持Python、Spark ML、R、TensorFlow、PyTorch等機(jī)器學(xué)習(xí)和深度學(xué)習(xí)框架開發(fā)) 2. 數(shù)據(jù)存儲(chǔ):實(shí)時(shí)特征+離線歷史數(shù)據(jù) 3. 大規(guī)模分布式計(jì)算:CPU + GPU 4. 模型發(fā)布和上線 5. 我們的大規(guī)模機(jī)器學(xué)習(xí)平臺(tái)分享(支持200+ 算法和模型開發(fā)人員) |
用戶畫像在個(gè)性化性化推薦系統(tǒng)領(lǐng)域 案例簡介:用戶畫像數(shù)據(jù)體系建設(shè),以及基于用戶畫像數(shù)據(jù)、用戶實(shí)時(shí)行為數(shù)據(jù)的個(gè)性化推薦系統(tǒng)介紹 1. 用戶畫像體系介紹 2. 用戶特征抽取 3. 用戶特征存儲(chǔ)和應(yīng)用 4. 個(gè)性化推薦系統(tǒng)和用戶畫像的結(jié)合 |
推薦系統(tǒng)實(shí)踐 案例簡介:我們的推薦系統(tǒng)如何支持每天上億用戶訪問;以及億級(jí)別的銷售額提升 1. 推薦系統(tǒng)整體架構(gòu) 2. 算法和模型支持 3. 算法評(píng)估和灰度 4. ABT效果檢驗(yàn) |
知名互聯(lián)網(wǎng)公司的數(shù)據(jù)驅(qū)動(dòng)精準(zhǔn)化營銷實(shí)踐 案例簡介:結(jié)合用戶畫像數(shù)據(jù),給不同用戶人群發(fā)送PUSH(短信)的營銷效果分析 1. 用戶寬表建設(shè) 2. 根據(jù)特征選擇用戶群體 3. PUSH系統(tǒng)和用戶數(shù)據(jù)整合 4. PUSH效果分析(根據(jù)用戶行為數(shù)據(jù)分析營銷效果、用戶留存以及活動(dòng)ROI) |
實(shí)時(shí)數(shù)據(jù)看板分享(雙十一大屏) 案例簡介:雙十一大促銷售額、轉(zhuǎn)化率、UV、漏斗等核心數(shù)據(jù)實(shí)時(shí)大屏展示 1. 訂單和用戶行為數(shù)據(jù)實(shí)時(shí)接入 2. 使用Flink(Spark)做實(shí)時(shí)數(shù)據(jù)計(jì)算 3. HBase存儲(chǔ)計(jì)算指標(biāo) 4. 數(shù)據(jù)Service提供訪問接口 5. 前端大屏動(dòng)態(tài)秒級(jí)更新數(shù)據(jù) |
數(shù)據(jù)運(yùn)營平臺(tái)介紹 數(shù)據(jù)運(yùn)營平臺(tái)支持商務(wù)、運(yùn)營等對(duì)公司日常銷售、轉(zhuǎn)換率、用戶訪問、品牌等的售賣詳細(xì)情況分析;分為固定產(chǎn)品、自助分析系統(tǒng)等,挖掘深層次的商業(yè)機(jī)會(huì) 1. 運(yùn)營看板實(shí)例分享 2. 自助分析系統(tǒng)建設(shè)經(jīng)驗(yàn)分享 |