課程簡(jiǎn)介
大數(shù)據(jù)分析和挖掘在互聯(lián)網(wǎng)公司中已經(jīng)得到實(shí)質(zhì)性的推進(jìn)和應(yīng)用,典型的應(yīng)用場(chǎng)景包括搜索引擎的搜索結(jié)果和搜索廣告排序、電商網(wǎng)站的商品推薦和虛假信息檢測(cè)、電子郵件服務(wù)中垃圾郵件檢測(cè)、互聯(lián)網(wǎng)安全公司的病毒和木馬檢測(cè)、視頻和新聞分享網(wǎng)站中視頻和新聞推薦、互聯(lián)網(wǎng)金融服務(wù)中的用戶信譽(yù)評(píng)估等。
特別的場(chǎng)景包裹,社交網(wǎng)絡(luò)的火爆可以看成是促使大數(shù)據(jù)技術(shù)迅猛發(fā)展的直接驅(qū)動(dòng)原因。社交網(wǎng)絡(luò)的數(shù)據(jù)呈現(xiàn)大規(guī)模、異構(gòu)、網(wǎng)狀相連的特征,為大數(shù)據(jù)挖掘提供了更復(fù)雜、更有挑戰(zhàn)的案例。在社交網(wǎng)絡(luò)中,大數(shù)據(jù)挖掘的應(yīng)用更是覆蓋了70%左右的場(chǎng)景。經(jīng)典的使用場(chǎng)景諸如好友新鮮事(tweets)智能排序、好友推薦、好友搜索、社交廣告等。
當(dāng)前,本地生活服務(wù)、O2O、互聯(lián)網(wǎng)金融、企業(yè)級(jí)服務(wù)等的火爆,更是大數(shù)據(jù)的用武之地,成為成為助推業(yè)務(wù)發(fā)展最有效的技術(shù)利器和產(chǎn)品設(shè)計(jì)及運(yùn)營(yíng)的思維。
大數(shù)據(jù)受到廣泛認(rèn)可,究其原因,主要是如果大數(shù)據(jù)相關(guān)技術(shù)得到較好的使用,會(huì)帶來(lái)從服務(wù)的訪問(wèn)量到收入變現(xiàn)能力等關(guān)鍵數(shù)據(jù)指標(biāo)的實(shí)質(zhì)提升。以講師親身項(xiàng)目經(jīng)驗(yàn)為例:一個(gè)新的好友推薦算法的上線可能帶來(lái)80%以上的“關(guān)注量”或者“加好友申請(qǐng)量”的提高;對(duì)手機(jī)通訊錄匹配算法的優(yōu)化升級(jí),可使手機(jī)號(hào)對(duì)應(yīng)的社交網(wǎng)絡(luò)的用戶帳號(hào)匹配量增加55%以上;社交廣告中用戶定向和廣告排序算法的引入,可使廣告收入暴漲100%以上。又如,用戶社交圈智能劃分算法的上線,使很多用戶的三四百個(gè)好友被自動(dòng)合理分到合適的社交圈中,免去他們手動(dòng)逐個(gè)操作的麻煩,提升了用戶體驗(yàn),他們?cè)u(píng)價(jià)“真心覺(jué)得做到了我的心里”、“給數(shù)據(jù)挖掘跪了”。
目標(biāo)收益
本課程將圍繞大數(shù)據(jù)最本質(zhì)的特點(diǎn)—智能化為主線,從大數(shù)據(jù)的產(chǎn)品思維、數(shù)據(jù)分析重要工具、數(shù)據(jù)挖掘核心技術(shù)等層面深入講述
數(shù)據(jù)挖掘的高階話題,包括有偏數(shù)據(jù)挖掘、數(shù)據(jù)流挖掘、在線學(xué)習(xí)、高級(jí)數(shù)據(jù)預(yù)處理技術(shù)等。同時(shí)課程案例豐富,重點(diǎn)從社交網(wǎng)絡(luò)圖譜挖掘、推薦引擎等做實(shí)站案例講解。該課程使學(xué)員:
理解大數(shù)據(jù)基本概率、理解大數(shù)據(jù)產(chǎn)品設(shè)計(jì)思維、理解大數(shù)據(jù)基礎(chǔ)技術(shù)架構(gòu)
掌握社交圖譜挖掘的一到兩個(gè)經(jīng)典數(shù)據(jù)挖掘案例的解決方案
掌握社交好友推薦中一到兩個(gè)經(jīng)典案例的解決方案
掌握如何搭建一個(gè)實(shí)用的推薦引擎的方法;
掌握數(shù)據(jù)挖掘的經(jīng)典方法論:數(shù)據(jù)挖掘過(guò)程、模型評(píng)估標(biāo)準(zhǔn)等
側(cè)重掌握最普遍使用的分類預(yù)測(cè)技術(shù)的方法,
培訓(xùn)對(duì)象
重點(diǎn)面向產(chǎn)品和技術(shù)人員,包括數(shù)據(jù)挖掘工程師、數(shù)據(jù)分析師、大數(shù)據(jù)工程師、算法專家、項(xiàng)目經(jīng)理、技術(shù)經(jīng)理、數(shù)據(jù)產(chǎn)品經(jīng)理以及其他具有一定數(shù)據(jù)挖掘經(jīng)驗(yàn)的人員。
課程大綱
1.大數(shù)據(jù)時(shí)代概述 |
1.1 大數(shù)據(jù)解決的問(wèn)題是什么? 1.2 大數(shù)據(jù)公司(部門)的都在做什么? 1.3 如何建立自己的大數(shù)據(jù)能力? |
2.數(shù)據(jù)挖掘過(guò)程和實(shí)用工具使用 |
2.1 數(shù)據(jù)挖掘過(guò)程的方法及其思想介紹 2.1.1 常見(jiàn)的數(shù)據(jù)收集途徑和方式 2.1.2 數(shù)據(jù)探索與可視化技巧 2.1.3 數(shù)據(jù)準(zhǔn)備 2.1.4 特征選擇 2.1.5 樣本選擇 2.1.6 機(jī)器學(xué)習(xí)實(shí)用算法羅列與思想介紹(側(cè)重分類算法) 2.1.7 提高模型準(zhǔn)確率方法 2.1.8 模型評(píng)估和比較 2.1.9 如何選擇合適的評(píng)估指標(biāo) 2.1.10 模型可視化 2.2 挖掘工具Weka使用實(shí)踐 2.2.1 數(shù)據(jù)挖掘常用工具介紹及優(yōu)缺點(diǎn)對(duì)比 2.2.2 Weka使用介紹 2.2.3 Weka使用舉例:金融服務(wù)中用戶信譽(yù)評(píng)估 |
3.深入分類挖掘新技術(shù) |
3.1 產(chǎn)業(yè)實(shí)戰(zhàn)中如何研發(fā)一個(gè)新的數(shù)據(jù)挖掘算法 3.1.1 算法建模的思路 3.1.1.1 需求驅(qū)動(dòng)的算法建模 3.1.1.2 理論驅(qū)動(dòng)的算法建模 3.1.2 產(chǎn)業(yè)實(shí)戰(zhàn)一個(gè)新算法的通用流程 3.2 機(jī)器學(xué)習(xí)算法理論深入 3.2.1 Bias Variance困境 3.2.2 Under fitting, Over fitting 3.3 常用多模型算法詳解 3.3.1 Ensemble Selection 3.3.2 Bagging 3.3.3 Boosting 3.3.4 Stacking 3.3.5 Meta-learning 3.3.6 Random Forest 3.3.7 Random Trees 3.3.8 Error-Correcting Output Codes(ECOC) 3.4 Dynamic Data Mining(DDM):分而治之的多模型框架研發(fā)過(guò)程 3.4.1 理論驅(qū)動(dòng) 3.4.2 DMM建模研發(fā) 3.4.3 算法驗(yàn)證及上線 3.5 模型評(píng)估高級(jí)話題 3.5.1 模型評(píng)估方法 3.5.2 模型評(píng)估指標(biāo)深入討論 3.5.2.1 Accuracy, Errorrate 3.5.2.2 Recall, Precision, F-?‐measure 3.5.2.3 Specificity, Sensitivity, G-?‐mean 3.5.2.3 ROC,AUC |
4.深入常用實(shí)戰(zhàn)數(shù)據(jù)預(yù)處理與有偏挖掘技術(shù) |
4.1 有偏數(shù)據(jù)挖掘 4.1.1 有偏數(shù)據(jù)挖掘的場(chǎng)景 4.1.2 有偏數(shù)據(jù)挖掘的問(wèn)題根源 4.1.3 有偏數(shù)據(jù)挖掘的解決方案 4.1.3.1 Under sampling, Oversampling 4.1.3.2 Weighting 4.1.3.3 Data Synthesis 4.1.3.4 Cost-sensitive learning 4.2 高級(jí)數(shù)據(jù)預(yù)處理實(shí)戰(zhàn)策略 4.2.1 重視Missing Values 4.2.2 合理抽取特征 4.2.3 數(shù)據(jù)清洗:數(shù)據(jù)一致性檢測(cè) 4.2.4 噪聲平滑 4.2.5 特征泛化 |
5.深入在線學(xué)習(xí)與數(shù)據(jù)流挖掘 |
5.1 在線數(shù)據(jù)流挖掘基本概念 5.1.1 Batch Learningvs. Online Mining 5.2 數(shù)據(jù)流挖掘的關(guān)鍵挑戰(zhàn) 5.2.1 概念、概念漂移、數(shù)據(jù)規(guī)模Stream Mining, Online 5.3 兩類經(jīng)典在線流挖掘算法匯總 5.3.1 基于概念漂移主動(dòng)監(jiān)測(cè)的算法 5.3.2 基于概念漂移自適應(yīng)的算法 5.3.3 個(gè)人創(chuàng)新性方法:DDM-T,DDM-P 5.4 進(jìn)階:有偏在線數(shù)據(jù)流挖掘的解決方案 5.4.1 DDM-T的有偏流挖掘的改進(jìn) 5.5 在線數(shù)據(jù)流挖掘總結(jié) |
6.深入社交圖譜及推薦引擎實(shí)戰(zhàn) |
6.1 推薦引擎解決的問(wèn)題 6.2 推薦系統(tǒng)歷史 6.3 通用推薦引擎基礎(chǔ)架構(gòu) 6.3.1 統(tǒng)一展示邏輯 6.3.2 實(shí)驗(yàn)分流平臺(tái) 6.3.3 推薦結(jié)果預(yù)處理 6.3.4 推薦結(jié)果召回 6.3.5 推薦過(guò)濾去重 6.3.6 推薦排序 6.3.7 推薦解釋 6.3.8 實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì)分析平臺(tái) 6.3.9 系統(tǒng)監(jiān)控平臺(tái) 6.3.10 數(shù)據(jù)挖掘和推薦算法管理 6.4 社會(huì)化推薦引擎 6.4.1 好友推薦使用場(chǎng)景舉例 6.4.2 好友推薦主要挑戰(zhàn) 6.4.3 好友推薦引擎架構(gòu) 6.5 社會(huì)化推薦引擎算法案例講解 6.5.1 Online Learning的特點(diǎn)和一般流程 6.5.1.1 在線挖掘數(shù)據(jù)特點(diǎn) 6.5.1.2 在線挖掘基本過(guò)程 6.5.2 二度好友模型:案例講解 6.5.2.1 二度好友模型解決的問(wèn)題 6.5.2.2 二度好友模型的建模過(guò)程 6.5.2.3 二度好友模型的效果評(píng)估 6.5.3 好友簇算法:案例講解 6.5.3.1 好友簇算法解決的問(wèn)題 6.5.3.2 聚類方法原理 6.5.3.3 好友簇算法的建模過(guò)程 6.5.3.4 好友簇算法的效果評(píng)估 6.5.4 加好友申請(qǐng)接受率預(yù)估模型:案例講解 6.5.4.1 加好友申請(qǐng)接受率預(yù)估解決的問(wèn)題 6.5.4.2 加好友申請(qǐng)接受率預(yù)估的建模過(guò)程 6.5.4.3 加好友申請(qǐng)接受率預(yù)估的效果評(píng)估 6.6 社交圖譜挖掘介紹 6.6.1 社交網(wǎng)絡(luò)數(shù)據(jù)挑戰(zhàn) 6.6.2 社交網(wǎng)絡(luò)中的數(shù)據(jù)挖掘意義 6.6.3 社交圖譜挖掘主要任務(wù) 6.6.4 社交圖譜挖掘通用路標(biāo) 6.7 社交圖譜挖掘案例講解:好友親密度模型 6.7.1 好友親密度模型的意義 6.7.2 經(jīng)典用戶行為分析建模方法簡(jiǎn)介 6.7.3 好友親密度建模過(guò)程 6.7.4 好友親密度模型效果分析 6.8 社交圖譜挖掘案例講解:好友自動(dòng)分組 6.8.1 好友智能分組的意義 6.8.2 社區(qū)發(fā)現(xiàn)簡(jiǎn)介 6.8.3 好友自動(dòng)分組建模過(guò)程 6.8.4 好友自動(dòng)分組效果評(píng)估 |
7.學(xué)員問(wèn)題解答 |
1.大數(shù)據(jù)時(shí)代概述 1.1 大數(shù)據(jù)解決的問(wèn)題是什么? 1.2 大數(shù)據(jù)公司(部門)的都在做什么? 1.3 如何建立自己的大數(shù)據(jù)能力? |
2.數(shù)據(jù)挖掘過(guò)程和實(shí)用工具使用 2.1 數(shù)據(jù)挖掘過(guò)程的方法及其思想介紹 2.1.1 常見(jiàn)的數(shù)據(jù)收集途徑和方式 2.1.2 數(shù)據(jù)探索與可視化技巧 2.1.3 數(shù)據(jù)準(zhǔn)備 2.1.4 特征選擇 2.1.5 樣本選擇 2.1.6 機(jī)器學(xué)習(xí)實(shí)用算法羅列與思想介紹(側(cè)重分類算法) 2.1.7 提高模型準(zhǔn)確率方法 2.1.8 模型評(píng)估和比較 2.1.9 如何選擇合適的評(píng)估指標(biāo) 2.1.10 模型可視化 2.2 挖掘工具Weka使用實(shí)踐 2.2.1 數(shù)據(jù)挖掘常用工具介紹及優(yōu)缺點(diǎn)對(duì)比 2.2.2 Weka使用介紹 2.2.3 Weka使用舉例:金融服務(wù)中用戶信譽(yù)評(píng)估 |
3.深入分類挖掘新技術(shù) 3.1 產(chǎn)業(yè)實(shí)戰(zhàn)中如何研發(fā)一個(gè)新的數(shù)據(jù)挖掘算法 3.1.1 算法建模的思路 3.1.1.1 需求驅(qū)動(dòng)的算法建模 3.1.1.2 理論驅(qū)動(dòng)的算法建模 3.1.2 產(chǎn)業(yè)實(shí)戰(zhàn)一個(gè)新算法的通用流程 3.2 機(jī)器學(xué)習(xí)算法理論深入 3.2.1 Bias Variance困境 3.2.2 Under fitting, Over fitting 3.3 常用多模型算法詳解 3.3.1 Ensemble Selection 3.3.2 Bagging 3.3.3 Boosting 3.3.4 Stacking 3.3.5 Meta-learning 3.3.6 Random Forest 3.3.7 Random Trees 3.3.8 Error-Correcting Output Codes(ECOC) 3.4 Dynamic Data Mining(DDM):分而治之的多模型框架研發(fā)過(guò)程 3.4.1 理論驅(qū)動(dòng) 3.4.2 DMM建模研發(fā) 3.4.3 算法驗(yàn)證及上線 3.5 模型評(píng)估高級(jí)話題 3.5.1 模型評(píng)估方法 3.5.2 模型評(píng)估指標(biāo)深入討論 3.5.2.1 Accuracy, Errorrate 3.5.2.2 Recall, Precision, F-?‐measure 3.5.2.3 Specificity, Sensitivity, G-?‐mean 3.5.2.3 ROC,AUC |
4.深入常用實(shí)戰(zhàn)數(shù)據(jù)預(yù)處理與有偏挖掘技術(shù) 4.1 有偏數(shù)據(jù)挖掘 4.1.1 有偏數(shù)據(jù)挖掘的場(chǎng)景 4.1.2 有偏數(shù)據(jù)挖掘的問(wèn)題根源 4.1.3 有偏數(shù)據(jù)挖掘的解決方案 4.1.3.1 Under sampling, Oversampling 4.1.3.2 Weighting 4.1.3.3 Data Synthesis 4.1.3.4 Cost-sensitive learning 4.2 高級(jí)數(shù)據(jù)預(yù)處理實(shí)戰(zhàn)策略 4.2.1 重視Missing Values 4.2.2 合理抽取特征 4.2.3 數(shù)據(jù)清洗:數(shù)據(jù)一致性檢測(cè) 4.2.4 噪聲平滑 4.2.5 特征泛化 |
5.深入在線學(xué)習(xí)與數(shù)據(jù)流挖掘 5.1 在線數(shù)據(jù)流挖掘基本概念 5.1.1 Batch Learningvs. Online Mining 5.2 數(shù)據(jù)流挖掘的關(guān)鍵挑戰(zhàn) 5.2.1 概念、概念漂移、數(shù)據(jù)規(guī)模Stream Mining, Online 5.3 兩類經(jīng)典在線流挖掘算法匯總 5.3.1 基于概念漂移主動(dòng)監(jiān)測(cè)的算法 5.3.2 基于概念漂移自適應(yīng)的算法 5.3.3 個(gè)人創(chuàng)新性方法:DDM-T,DDM-P 5.4 進(jìn)階:有偏在線數(shù)據(jù)流挖掘的解決方案 5.4.1 DDM-T的有偏流挖掘的改進(jìn) 5.5 在線數(shù)據(jù)流挖掘總結(jié) |
6.深入社交圖譜及推薦引擎實(shí)戰(zhàn) 6.1 推薦引擎解決的問(wèn)題 6.2 推薦系統(tǒng)歷史 6.3 通用推薦引擎基礎(chǔ)架構(gòu) 6.3.1 統(tǒng)一展示邏輯 6.3.2 實(shí)驗(yàn)分流平臺(tái) 6.3.3 推薦結(jié)果預(yù)處理 6.3.4 推薦結(jié)果召回 6.3.5 推薦過(guò)濾去重 6.3.6 推薦排序 6.3.7 推薦解釋 6.3.8 實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì)分析平臺(tái) 6.3.9 系統(tǒng)監(jiān)控平臺(tái) 6.3.10 數(shù)據(jù)挖掘和推薦算法管理 6.4 社會(huì)化推薦引擎 6.4.1 好友推薦使用場(chǎng)景舉例 6.4.2 好友推薦主要挑戰(zhàn) 6.4.3 好友推薦引擎架構(gòu) 6.5 社會(huì)化推薦引擎算法案例講解 6.5.1 Online Learning的特點(diǎn)和一般流程 6.5.1.1 在線挖掘數(shù)據(jù)特點(diǎn) 6.5.1.2 在線挖掘基本過(guò)程 6.5.2 二度好友模型:案例講解 6.5.2.1 二度好友模型解決的問(wèn)題 6.5.2.2 二度好友模型的建模過(guò)程 6.5.2.3 二度好友模型的效果評(píng)估 6.5.3 好友簇算法:案例講解 6.5.3.1 好友簇算法解決的問(wèn)題 6.5.3.2 聚類方法原理 6.5.3.3 好友簇算法的建模過(guò)程 6.5.3.4 好友簇算法的效果評(píng)估 6.5.4 加好友申請(qǐng)接受率預(yù)估模型:案例講解 6.5.4.1 加好友申請(qǐng)接受率預(yù)估解決的問(wèn)題 6.5.4.2 加好友申請(qǐng)接受率預(yù)估的建模過(guò)程 6.5.4.3 加好友申請(qǐng)接受率預(yù)估的效果評(píng)估 6.6 社交圖譜挖掘介紹 6.6.1 社交網(wǎng)絡(luò)數(shù)據(jù)挑戰(zhàn) 6.6.2 社交網(wǎng)絡(luò)中的數(shù)據(jù)挖掘意義 6.6.3 社交圖譜挖掘主要任務(wù) 6.6.4 社交圖譜挖掘通用路標(biāo) 6.7 社交圖譜挖掘案例講解:好友親密度模型 6.7.1 好友親密度模型的意義 6.7.2 經(jīng)典用戶行為分析建模方法簡(jiǎn)介 6.7.3 好友親密度建模過(guò)程 6.7.4 好友親密度模型效果分析 6.8 社交圖譜挖掘案例講解:好友自動(dòng)分組 6.8.1 好友智能分組的意義 6.8.2 社區(qū)發(fā)現(xiàn)簡(jiǎn)介 6.8.3 好友自動(dòng)分組建模過(guò)程 6.8.4 好友自動(dòng)分組效果評(píng)估 |
7.學(xué)員問(wèn)題解答 |