開(kāi)發(fā)經(jīng)理
互聯(lián)網(wǎng)
數(shù)據(jù)建模
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

大數(shù)據(jù)分析與挖掘綜合能力提升實(shí)戰(zhàn)

傅老師

前華為 大數(shù)據(jù)技術(shù)專家

計(jì)算機(jī)軟件與理論碩士研究生(研究方向:數(shù)據(jù)挖掘、搜索引擎)。在華為工作十年,五項(xiàng)國(guó)家專利,在華為工作期間獲得華為數(shù)項(xiàng)獎(jiǎng)項(xiàng),曾在英國(guó)、日本、荷蘭和比利時(shí)等海外市場(chǎng)做項(xiàng)目,對(duì)大數(shù)據(jù)技術(shù)有深入的研究。
傅老師專注于大數(shù)據(jù)分析與挖掘、機(jī)器學(xué)習(xí)等應(yīng)用技術(shù),以及大數(shù)據(jù)系統(tǒng)部署解決方案。旨在將大數(shù)據(jù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)建模應(yīng)用于行業(yè)及商業(yè)領(lǐng)域,解決行業(yè)實(shí)際的問(wèn)題。

計(jì)算機(jī)軟件與理論碩士研究生(研究方向:數(shù)據(jù)挖掘、搜索引擎)。在華為工作十年,五項(xiàng)國(guó)家專利,在華為工作期間獲得華為數(shù)項(xiàng)獎(jiǎng)項(xiàng),曾在英國(guó)、日本、荷蘭和比利時(shí)等海外市場(chǎng)做項(xiàng)目,對(duì)大數(shù)據(jù)技術(shù)有深入的研究。 傅老師專注于大數(shù)據(jù)分析與挖掘、機(jī)器學(xué)習(xí)等應(yīng)用技術(shù),以及大數(shù)據(jù)系統(tǒng)部署解決方案。旨在將大數(shù)據(jù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)建模應(yīng)用于行業(yè)及商業(yè)領(lǐng)域,解決行業(yè)實(shí)際的問(wèn)題。

課程費(fèi)用

5800.00 /人

課程時(shí)長(zhǎng)

2

成為教練

課程簡(jiǎn)介

本系列課程從實(shí)際的業(yè)務(wù)需求出發(fā),結(jié)合行業(yè)的典型應(yīng)用特點(diǎn),圍繞實(shí)際的商業(yè)問(wèn)題,對(duì)數(shù)據(jù)預(yù)測(cè)建模的過(guò)程進(jìn)行了全面的介紹(從模型選擇,到特征選擇,再到訓(xùn)練模型,評(píng)估模型,以及優(yōu)化模型和模型解讀),通過(guò)大量的操作演練,幫助學(xué)員掌握數(shù)據(jù)建模的思路、方法、技巧,以提升學(xué)員的數(shù)據(jù)建模的能力,支撐運(yùn)營(yíng)決策的目的。

目標(biāo)收益

1、了解數(shù)據(jù)建模的標(biāo)準(zhǔn)過(guò)程
2、明白時(shí)序預(yù)測(cè)的基本思想,熟悉常用的時(shí)序預(yù)測(cè)模型
3、掌握常用的分類預(yù)測(cè)模型,理解模型基本原理
4、學(xué)會(huì)解讀分類預(yù)測(cè)模型的含義
5、理解并掌握定性預(yù)測(cè)模型的質(zhì)量評(píng)估指標(biāo)
6、了解分類預(yù)測(cè)模型的集成優(yōu)化思想

培訓(xùn)對(duì)象

產(chǎn)品銷量部、業(yè)務(wù)支撐部、運(yùn)營(yíng)分析部、數(shù)據(jù)分析部、大數(shù)據(jù)系統(tǒng)開(kāi)發(fā)部等對(duì)業(yè)務(wù)數(shù)據(jù)分析有較高要求的相關(guān)人員。

課前準(zhǔn)備

1、每個(gè)學(xué)員自備一臺(tái)便攜機(jī)(必須)。
2、便攜機(jī)中事先安裝好Microsoft Office Excel 2013版本及以上。
3、便攜機(jī)中事先安裝好IBM SPSS Statistics v19版本及以上。
注:講師可以提供試用版本軟件及分析數(shù)據(jù)源。

課程大綱

第一部分:數(shù)據(jù)建模過(guò)程—流程步驟篇 1、預(yù)測(cè)建模六步法
?選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
?特征工程:選擇對(duì)目標(biāo)變量有顯著影響的屬性來(lái)建模
?訓(xùn)練模型:采用合適的算法對(duì)模型進(jìn)行訓(xùn)練,尋找到最優(yōu)參數(shù)
?評(píng)估模型:進(jìn)行評(píng)估模型的質(zhì)量,判斷模型是否可用
?優(yōu)化模型:如果評(píng)估結(jié)果不理想,則需要對(duì)模型進(jìn)行優(yōu)化
?應(yīng)用模型:如果評(píng)估結(jié)果滿足要求,則可應(yīng)用模型于業(yè)務(wù)場(chǎng)景
2、數(shù)據(jù)挖掘常用的模型
?定量預(yù)測(cè)模型:回歸預(yù)測(cè)、時(shí)序預(yù)測(cè)等
?定性預(yù)測(cè)模型:邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等
?市場(chǎng)細(xì)分:聚類、RFM、PCA等
?產(chǎn)品推薦:關(guān)聯(lián)分析、協(xié)同過(guò)濾等
?產(chǎn)品優(yōu)化:回歸、隨機(jī)效用等
?產(chǎn)品定價(jià):定價(jià)策略/最優(yōu)定價(jià)等
3、特征工程/特征選擇/變量降維
?基于變量本身特征
?基于相關(guān)性判斷
?因子合并(PCA等)
?IV值篩選(評(píng)分卡使用)
?基于信息增益判斷(決策樹(shù)使用)
4、模型評(píng)估
?模型質(zhì)量評(píng)估指標(biāo):R^2、正確率/查全率/查準(zhǔn)率/特異性等
?預(yù)測(cè)值評(píng)估指標(biāo):MAD、MSE/RMSE、MAPE、概率等
?模型評(píng)估方法:留出法、K拆交叉驗(yàn)證、自助法等
?其它評(píng)估:過(guò)擬合評(píng)估、殘差檢驗(yàn)
5、模型優(yōu)化
?優(yōu)化模型:選擇新模型/修改模型
?優(yōu)化數(shù)據(jù):新增顯著自變量
?優(yōu)化公式:采用新的計(jì)算公式
?集成思想:Bagging/Boosting/Stacking
6、常用預(yù)測(cè)模型介紹
?時(shí)序預(yù)測(cè)模型
?回歸預(yù)測(cè)模型
?分類預(yù)測(cè)模型
第二部分:定量預(yù)測(cè)模型—時(shí)序預(yù)測(cè)篇 營(yíng)銷問(wèn)題:像利率/CPI/GDP等按時(shí)序變化的指標(biāo)如何預(yù)測(cè)?當(dāng)銷量隨季節(jié)周期變動(dòng)時(shí)該如何預(yù)測(cè)?
1、回歸預(yù)測(cè)vs時(shí)序預(yù)測(cè)
2、因素分解思想
3、時(shí)序預(yù)測(cè)常用模型
?趨勢(shì)擬合
?季節(jié)擬合
?平均序列擬合
4、評(píng)估預(yù)測(cè)值的準(zhǔn)確度指標(biāo):MAD、RMSE、MAPE
5、移動(dòng)平均(MA)
?應(yīng)用場(chǎng)景及原理
?移動(dòng)平均種類
?一次移動(dòng)平均
?二次移動(dòng)平均
?加權(quán)移動(dòng)平均
?移動(dòng)平均比率法
?移動(dòng)平均關(guān)鍵問(wèn)題
?如何選取最優(yōu)參數(shù)N
?如何確定最優(yōu)權(quán)重系數(shù)
演練:平板電腦銷量預(yù)測(cè)及評(píng)估
演練:快銷產(chǎn)品季節(jié)銷量預(yù)測(cè)及評(píng)估
6、指數(shù)平滑(ES)
?應(yīng)用場(chǎng)景及原理
?最優(yōu)平滑系數(shù)的選取原則
?指數(shù)平滑種類
?一次指數(shù)平滑
?二次指數(shù)平滑(Brown線性、Holt線性、Holt指數(shù)、阻尼線性、阻尼指數(shù))
?三次指數(shù)平滑
演練:煤炭產(chǎn)量預(yù)測(cè)
演練:航空旅客量預(yù)測(cè)及評(píng)估
7、溫特斯季節(jié)預(yù)測(cè)模型
?適用場(chǎng)景及原理
?Holt-Winters加法模型
?Holt-Winters乘法模型
演練:汽車銷量預(yù)測(cè)及評(píng)估
8、平穩(wěn)序列模型(ARIMA)
?序列的平穩(wěn)性檢驗(yàn)
?平穩(wěn)序列的擬合模型
?AR(p)自回歸模型
?MA(q)移動(dòng)模型
?ARMA(p,q)自回歸移動(dòng)模型
?模型的識(shí)別與定階
?ACF圖/PACF圖
?最小信息準(zhǔn)則
?序列平穩(wěn)化處理
?變量變換
?k次差分
?d階差分
?ARIMA(p,d,q)模型
演練:上海證券交易所綜合指數(shù)收益率序列分析
演練:服裝銷售數(shù)據(jù)季節(jié)性趨勢(shì)預(yù)測(cè)分析
?平穩(wěn)序列的建模流程
第三部分:定性預(yù)測(cè)模型—分類預(yù)測(cè)篇 問(wèn)題:如何評(píng)估客戶購(gòu)買產(chǎn)品的可能性?如何預(yù)測(cè)客戶的購(gòu)買行為?如何提取某類客戶的典型特征?如何向客戶精準(zhǔn)推薦產(chǎn)品或業(yè)務(wù)?
1、分類模型概述及其應(yīng)用場(chǎng)景
2、常見(jiàn)分類預(yù)測(cè)模型
3、邏輯回歸(LR)
?邏輯回歸的適用場(chǎng)景
?邏輯回歸的模型原理
?邏輯回歸分類的幾何意義
?邏輯回歸的種類
?二項(xiàng)邏輯回歸
?多項(xiàng)邏輯回歸
?如何解讀邏輯回歸方程
?帶分類自變量的邏輯回歸分析
?多項(xiàng)邏輯回歸/多分類邏輯回歸
案例:如何評(píng)估用戶是否會(huì)購(gòu)買某產(chǎn)品(二項(xiàng)邏輯回歸)
案例:多品牌選擇模型分析(多項(xiàng)邏輯回歸)
4、分類決策樹(shù)(DT)
問(wèn)題:如何預(yù)測(cè)客戶行為?如何識(shí)別潛在客戶?
風(fēng)控:如何識(shí)別欠貸者的特征,以及預(yù)測(cè)欠貸概率?
客戶保有:如何識(shí)別流失客戶特征,以及預(yù)測(cè)客戶流失概率?
?決策樹(shù)分類簡(jiǎn)介
案例:美國(guó)零售商(Target)如何預(yù)測(cè)少女懷孕
演練:識(shí)別銀行欠貨風(fēng)險(xiǎn),提取欠貸者的特征
?決策樹(shù)分類的幾何意義
?構(gòu)建決策樹(shù)的三個(gè)關(guān)鍵問(wèn)題
?如何選擇最佳屬性來(lái)構(gòu)建節(jié)點(diǎn)
?如何分裂變量
?修剪決策樹(shù)
?選擇最優(yōu)屬性生長(zhǎng)
?熵、基尼索引、分類錯(cuò)誤
?屬性劃分增益
?如何分裂變量
?多元?jiǎng)澐峙c二元?jiǎng)澐?br/>?連續(xù)變量離散化(最優(yōu)分割點(diǎn))
?修剪決策樹(shù)
?剪枝原則
?預(yù)剪枝與后剪枝
?構(gòu)建決策樹(shù)的四個(gè)算法
?C5.0、CHAID、CART、QUEST
?各種算法的比較
?如何選擇最優(yōu)分類模型?
案例:商場(chǎng)用戶的典型特征提取
案例:客戶流失預(yù)警與客戶挽留
案例:識(shí)別拖欠銀行貨款者的特征,避免不良貨款
案例:識(shí)別電信詐騙者嘴臉,讓通信更安全
?多分類決策樹(shù)
案例:不同套餐用戶的典型特征
?決策樹(shù)模型的保存與應(yīng)用
5、人工神經(jīng)網(wǎng)絡(luò)(ANN)
?神經(jīng)網(wǎng)絡(luò)概述
?神經(jīng)網(wǎng)絡(luò)基本原理
?神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
?神經(jīng)網(wǎng)絡(luò)分類的幾何意義
?神經(jīng)網(wǎng)絡(luò)的建立步驟
?神經(jīng)網(wǎng)絡(luò)的關(guān)鍵問(wèn)題
?BP反向傳播網(wǎng)絡(luò)(MLP)
?徑向基網(wǎng)絡(luò)(RBF)
案例:評(píng)估銀行用戶拖欠貨款的概率
6、判別分析(DA)
?判別分析原理
?判別分析種類
?Fisher線性判別分析
案例:MBA學(xué)生錄取判別分析
案例:上市公司類別評(píng)估
7、最近鄰分類(KNN)
?KNN模型的基本原理
?KNN分類的幾何意義
?K近鄰的關(guān)鍵問(wèn)題
8、支持向量機(jī)(SVM)
?SVM基本原理
?線性可分問(wèn)題:最大邊界超平面
?線性不可分問(wèn)題:特征空間的轉(zhuǎn)換
?維災(zāi)難與核函數(shù)
9、貝葉斯分類(NBN)
?貝葉斯分類原理
?計(jì)算類別屬性的條件概率
?估計(jì)連續(xù)屬性的條件概率
?預(yù)測(cè)分類概率(計(jì)算概率)
?拉普拉斯修正
案例:評(píng)估銀行用戶拖欠貨款的概率
第四部分:定性預(yù)測(cè)模型—模型評(píng)估篇 1、模型的評(píng)估指標(biāo)
?兩大矩陣:混淆矩陣,代價(jià)矩陣
?六大指標(biāo):Acc,P,R,Spec,F1,lift
?三條曲線:
?ROC曲線和AUC
?PR曲線和BEP
?KS曲線和KS值
2、模型的評(píng)估方法
?原始評(píng)估法
?留出法(Hold-Out)
?交叉驗(yàn)證法(k-fold cross validation)
?自助采樣法(Bootstrapping)
第五部分:定性預(yù)測(cè)模型—集成優(yōu)化篇 1、模型的優(yōu)化思路
2、集成算法基本原理
?單獨(dú)構(gòu)建多個(gè)弱分類器
?多個(gè)弱分類器組合投票,決定預(yù)測(cè)結(jié)果
3、集成方法的種類
?Bagging
?Boosting
?Stacking
4、Bagging集成
?數(shù)據(jù)/屬性重抽樣
?決策依據(jù):少數(shù)服從多數(shù)
?典型模型:隨機(jī)森林RF
5、Boosting集成
?基于誤分?jǐn)?shù)據(jù)建模
?樣本選擇權(quán)重更新公式
?決策依據(jù):加權(quán)投票
?典型模型:AdaBoost模型
第一部分:數(shù)據(jù)建模過(guò)程—流程步驟篇
1、預(yù)測(cè)建模六步法
?選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
?特征工程:選擇對(duì)目標(biāo)變量有顯著影響的屬性來(lái)建模
?訓(xùn)練模型:采用合適的算法對(duì)模型進(jìn)行訓(xùn)練,尋找到最優(yōu)參數(shù)
?評(píng)估模型:進(jìn)行評(píng)估模型的質(zhì)量,判斷模型是否可用
?優(yōu)化模型:如果評(píng)估結(jié)果不理想,則需要對(duì)模型進(jìn)行優(yōu)化
?應(yīng)用模型:如果評(píng)估結(jié)果滿足要求,則可應(yīng)用模型于業(yè)務(wù)場(chǎng)景
2、數(shù)據(jù)挖掘常用的模型
?定量預(yù)測(cè)模型:回歸預(yù)測(cè)、時(shí)序預(yù)測(cè)等
?定性預(yù)測(cè)模型:邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等
?市場(chǎng)細(xì)分:聚類、RFM、PCA等
?產(chǎn)品推薦:關(guān)聯(lián)分析、協(xié)同過(guò)濾等
?產(chǎn)品優(yōu)化:回歸、隨機(jī)效用等
?產(chǎn)品定價(jià):定價(jià)策略/最優(yōu)定價(jià)等
3、特征工程/特征選擇/變量降維
?基于變量本身特征
?基于相關(guān)性判斷
?因子合并(PCA等)
?IV值篩選(評(píng)分卡使用)
?基于信息增益判斷(決策樹(shù)使用)
4、模型評(píng)估
?模型質(zhì)量評(píng)估指標(biāo):R^2、正確率/查全率/查準(zhǔn)率/特異性等
?預(yù)測(cè)值評(píng)估指標(biāo):MAD、MSE/RMSE、MAPE、概率等
?模型評(píng)估方法:留出法、K拆交叉驗(yàn)證、自助法等
?其它評(píng)估:過(guò)擬合評(píng)估、殘差檢驗(yàn)
5、模型優(yōu)化
?優(yōu)化模型:選擇新模型/修改模型
?優(yōu)化數(shù)據(jù):新增顯著自變量
?優(yōu)化公式:采用新的計(jì)算公式
?集成思想:Bagging/Boosting/Stacking
6、常用預(yù)測(cè)模型介紹
?時(shí)序預(yù)測(cè)模型
?回歸預(yù)測(cè)模型
?分類預(yù)測(cè)模型
第二部分:定量預(yù)測(cè)模型—時(shí)序預(yù)測(cè)篇
營(yíng)銷問(wèn)題:像利率/CPI/GDP等按時(shí)序變化的指標(biāo)如何預(yù)測(cè)?當(dāng)銷量隨季節(jié)周期變動(dòng)時(shí)該如何預(yù)測(cè)?
1、回歸預(yù)測(cè)vs時(shí)序預(yù)測(cè)
2、因素分解思想
3、時(shí)序預(yù)測(cè)常用模型
?趨勢(shì)擬合
?季節(jié)擬合
?平均序列擬合
4、評(píng)估預(yù)測(cè)值的準(zhǔn)確度指標(biāo):MAD、RMSE、MAPE
5、移動(dòng)平均(MA)
?應(yīng)用場(chǎng)景及原理
?移動(dòng)平均種類
?一次移動(dòng)平均
?二次移動(dòng)平均
?加權(quán)移動(dòng)平均
?移動(dòng)平均比率法
?移動(dòng)平均關(guān)鍵問(wèn)題
?如何選取最優(yōu)參數(shù)N
?如何確定最優(yōu)權(quán)重系數(shù)
演練:平板電腦銷量預(yù)測(cè)及評(píng)估
演練:快銷產(chǎn)品季節(jié)銷量預(yù)測(cè)及評(píng)估
6、指數(shù)平滑(ES)
?應(yīng)用場(chǎng)景及原理
?最優(yōu)平滑系數(shù)的選取原則
?指數(shù)平滑種類
?一次指數(shù)平滑
?二次指數(shù)平滑(Brown線性、Holt線性、Holt指數(shù)、阻尼線性、阻尼指數(shù))
?三次指數(shù)平滑
演練:煤炭產(chǎn)量預(yù)測(cè)
演練:航空旅客量預(yù)測(cè)及評(píng)估
7、溫特斯季節(jié)預(yù)測(cè)模型
?適用場(chǎng)景及原理
?Holt-Winters加法模型
?Holt-Winters乘法模型
演練:汽車銷量預(yù)測(cè)及評(píng)估
8、平穩(wěn)序列模型(ARIMA)
?序列的平穩(wěn)性檢驗(yàn)
?平穩(wěn)序列的擬合模型
?AR(p)自回歸模型
?MA(q)移動(dòng)模型
?ARMA(p,q)自回歸移動(dòng)模型
?模型的識(shí)別與定階
?ACF圖/PACF圖
?最小信息準(zhǔn)則
?序列平穩(wěn)化處理
?變量變換
?k次差分
?d階差分
?ARIMA(p,d,q)模型
演練:上海證券交易所綜合指數(shù)收益率序列分析
演練:服裝銷售數(shù)據(jù)季節(jié)性趨勢(shì)預(yù)測(cè)分析
?平穩(wěn)序列的建模流程
第三部分:定性預(yù)測(cè)模型—分類預(yù)測(cè)篇
問(wèn)題:如何評(píng)估客戶購(gòu)買產(chǎn)品的可能性?如何預(yù)測(cè)客戶的購(gòu)買行為?如何提取某類客戶的典型特征?如何向客戶精準(zhǔn)推薦產(chǎn)品或業(yè)務(wù)?
1、分類模型概述及其應(yīng)用場(chǎng)景
2、常見(jiàn)分類預(yù)測(cè)模型
3、邏輯回歸(LR)
?邏輯回歸的適用場(chǎng)景
?邏輯回歸的模型原理
?邏輯回歸分類的幾何意義
?邏輯回歸的種類
?二項(xiàng)邏輯回歸
?多項(xiàng)邏輯回歸
?如何解讀邏輯回歸方程
?帶分類自變量的邏輯回歸分析
?多項(xiàng)邏輯回歸/多分類邏輯回歸
案例:如何評(píng)估用戶是否會(huì)購(gòu)買某產(chǎn)品(二項(xiàng)邏輯回歸)
案例:多品牌選擇模型分析(多項(xiàng)邏輯回歸)
4、分類決策樹(shù)(DT)
問(wèn)題:如何預(yù)測(cè)客戶行為?如何識(shí)別潛在客戶?
風(fēng)控:如何識(shí)別欠貸者的特征,以及預(yù)測(cè)欠貸概率?
客戶保有:如何識(shí)別流失客戶特征,以及預(yù)測(cè)客戶流失概率?
?決策樹(shù)分類簡(jiǎn)介
案例:美國(guó)零售商(Target)如何預(yù)測(cè)少女懷孕
演練:識(shí)別銀行欠貨風(fēng)險(xiǎn),提取欠貸者的特征
?決策樹(shù)分類的幾何意義
?構(gòu)建決策樹(shù)的三個(gè)關(guān)鍵問(wèn)題
?如何選擇最佳屬性來(lái)構(gòu)建節(jié)點(diǎn)
?如何分裂變量
?修剪決策樹(shù)
?選擇最優(yōu)屬性生長(zhǎng)
?熵、基尼索引、分類錯(cuò)誤
?屬性劃分增益
?如何分裂變量
?多元?jiǎng)澐峙c二元?jiǎng)澐?br/>?連續(xù)變量離散化(最優(yōu)分割點(diǎn))
?修剪決策樹(shù)
?剪枝原則
?預(yù)剪枝與后剪枝
?構(gòu)建決策樹(shù)的四個(gè)算法
?C5.0、CHAID、CART、QUEST
?各種算法的比較
?如何選擇最優(yōu)分類模型?
案例:商場(chǎng)用戶的典型特征提取
案例:客戶流失預(yù)警與客戶挽留
案例:識(shí)別拖欠銀行貨款者的特征,避免不良貨款
案例:識(shí)別電信詐騙者嘴臉,讓通信更安全
?多分類決策樹(shù)
案例:不同套餐用戶的典型特征
?決策樹(shù)模型的保存與應(yīng)用
5、人工神經(jīng)網(wǎng)絡(luò)(ANN)
?神經(jīng)網(wǎng)絡(luò)概述
?神經(jīng)網(wǎng)絡(luò)基本原理
?神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
?神經(jīng)網(wǎng)絡(luò)分類的幾何意義
?神經(jīng)網(wǎng)絡(luò)的建立步驟
?神經(jīng)網(wǎng)絡(luò)的關(guān)鍵問(wèn)題
?BP反向傳播網(wǎng)絡(luò)(MLP)
?徑向基網(wǎng)絡(luò)(RBF)
案例:評(píng)估銀行用戶拖欠貨款的概率
6、判別分析(DA)
?判別分析原理
?判別分析種類
?Fisher線性判別分析
案例:MBA學(xué)生錄取判別分析
案例:上市公司類別評(píng)估
7、最近鄰分類(KNN)
?KNN模型的基本原理
?KNN分類的幾何意義
?K近鄰的關(guān)鍵問(wèn)題
8、支持向量機(jī)(SVM)
?SVM基本原理
?線性可分問(wèn)題:最大邊界超平面
?線性不可分問(wèn)題:特征空間的轉(zhuǎn)換
?維災(zāi)難與核函數(shù)
9、貝葉斯分類(NBN)
?貝葉斯分類原理
?計(jì)算類別屬性的條件概率
?估計(jì)連續(xù)屬性的條件概率
?預(yù)測(cè)分類概率(計(jì)算概率)
?拉普拉斯修正
案例:評(píng)估銀行用戶拖欠貨款的概率
第四部分:定性預(yù)測(cè)模型—模型評(píng)估篇
1、模型的評(píng)估指標(biāo)
?兩大矩陣:混淆矩陣,代價(jià)矩陣
?六大指標(biāo):Acc,P,R,Spec,F1,lift
?三條曲線:
?ROC曲線和AUC
?PR曲線和BEP
?KS曲線和KS值
2、模型的評(píng)估方法
?原始評(píng)估法
?留出法(Hold-Out)
?交叉驗(yàn)證法(k-fold cross validation)
?自助采樣法(Bootstrapping)
第五部分:定性預(yù)測(cè)模型—集成優(yōu)化篇
1、模型的優(yōu)化思路
2、集成算法基本原理
?單獨(dú)構(gòu)建多個(gè)弱分類器
?多個(gè)弱分類器組合投票,決定預(yù)測(cè)結(jié)果
3、集成方法的種類
?Bagging
?Boosting
?Stacking
4、Bagging集成
?數(shù)據(jù)/屬性重抽樣
?決策依據(jù):少數(shù)服從多數(shù)
?典型模型:隨機(jī)森林RF
5、Boosting集成
?基于誤分?jǐn)?shù)據(jù)建模
?樣本選擇權(quán)重更新公式
?決策依據(jù):加權(quán)投票
?典型模型:AdaBoost模型

活動(dòng)詳情

提交需求