課程簡(jiǎn)介
案例背景:
故障會(huì)影響留存率甚至導(dǎo)致直接的資金損失,所以運(yùn)維工程師投入了大量的時(shí)間和精力在監(jiān)控系統(tǒng)。運(yùn)維工程師通過(guò)采集大量的指標(biāo),并給指標(biāo)人工配置了報(bào)警規(guī)則,希望在第一時(shí)間發(fā)現(xiàn)故障并進(jìn)行故障診斷。但實(shí)際上,由于核心指標(biāo)漏監(jiān)控或者配置閾值不合理導(dǎo)致故障無(wú)法在用戶之前被發(fā)現(xiàn);另外大量的誤報(bào)造成了『狼來(lái)了』的現(xiàn)象,運(yùn)維工程師對(duì)報(bào)警已不再有敬畏之心。
為了讓監(jiān)控系統(tǒng)盡到它應(yīng)有的職責(zé),如何利用好海量的監(jiān)控?cái)?shù)據(jù)是一個(gè)關(guān)鍵的問(wèn)題。在故障發(fā)現(xiàn)階段應(yīng)該對(duì)哪些指標(biāo)進(jìn)行監(jiān)控,各指標(biāo)應(yīng)該用何種異常檢測(cè)算法;故障發(fā)生后,應(yīng)該提供什么信息幫助運(yùn)維工程師縮短診斷時(shí)間;如何進(jìn)行故障預(yù)警避免故障的發(fā)生等。
解決思路:
a. 運(yùn)維專家經(jīng)驗(yàn):總結(jié)黃金指標(biāo),解決監(jiān)控遺漏的問(wèn)題;故障后提供信息縮小需要排查的范圍,幫助運(yùn)維工程師快速“救火”
b. 人工智能算法:統(tǒng)計(jì)學(xué)概率+機(jī)器學(xué)習(xí)+深度學(xué)習(xí)
c. 行業(yè)領(lǐng)域知識(shí):核心業(yè)務(wù)功能、典型故障場(chǎng)景等
成果:
根據(jù)過(guò)去在故障處理、故障預(yù)警、故障巡檢等場(chǎng)景的經(jīng)驗(yàn),結(jié)合客戶行業(yè)的領(lǐng)域知識(shí),產(chǎn)出了智能運(yùn)維解決方案,將百度AIOps賦能各行業(yè)客戶,幫助運(yùn)維工程師快速“救火”,并在考慮如何“防火”。
我們提供的行業(yè)智能運(yùn)維解決方案中,包含了在百度積累的豐富運(yùn)維經(jīng)驗(yàn)、先進(jìn)的AIOps算法以及對(duì)行業(yè)領(lǐng)域知識(shí)的深入了解,這三個(gè)要素是我們的智能運(yùn)維解決方案將AIOps賦能各行業(yè)客戶的關(guān)鍵。
目標(biāo)收益
a. 了解百度智能運(yùn)維發(fā)展歷史及整體思路
b. 了解百度在故障管理場(chǎng)景的AIOps解決方案
c. 了解百度AIOps在百度內(nèi)及行業(yè)客戶的落地案例及效果
培訓(xùn)對(duì)象
課程內(nèi)容
案例方向
大規(guī)模機(jī)器學(xué)習(xí)算法/機(jī)器學(xué)習(xí)框架及實(shí)踐/圖神經(jīng)網(wǎng)絡(luò)/知識(shí)圖譜/AIops/AITest
案例背景
故障會(huì)影響留存率甚至導(dǎo)致直接的資金損失,所以運(yùn)維工程師投入了大量的時(shí)間和精力在監(jiān)控系統(tǒng)。運(yùn)維工程師通過(guò)采集大量的指標(biāo),并給指標(biāo)人工配置了報(bào)警規(guī)則,希望在第一時(shí)間發(fā)現(xiàn)故障并進(jìn)行故障診斷。但實(shí)際上,由于核心指標(biāo)漏監(jiān)控或者配置閾值不合理導(dǎo)致故障無(wú)法在用戶之前被發(fā)現(xiàn);另外大量的誤報(bào)造成了『狼來(lái)了』的現(xiàn)象,運(yùn)維工程師對(duì)報(bào)警已不再有敬畏之心。
為了讓監(jiān)控系統(tǒng)盡到它應(yīng)有的職責(zé),如何利用好海量的監(jiān)控?cái)?shù)據(jù)是一個(gè)關(guān)鍵的問(wèn)題。在故障發(fā)現(xiàn)階段應(yīng)該對(duì)哪些指標(biāo)進(jìn)行監(jiān)控,各指標(biāo)應(yīng)該用何種異常檢測(cè)算法;故障發(fā)生后,應(yīng)該提供什么信息幫助運(yùn)維工程師縮短診斷時(shí)間;如何進(jìn)行故障預(yù)警避免故障的發(fā)生等。
收益
a. 了解百度智能運(yùn)維發(fā)展歷史及整體思路
b. 了解百度在故障管理場(chǎng)景的AIOps解決方案
c. 了解百度AIOps在百度內(nèi)及行業(yè)客戶的落地案例及效果
解決思路
a. 運(yùn)維專家經(jīng)驗(yàn):總結(jié)黃金指標(biāo),解決監(jiān)控遺漏的問(wèn)題;故障后提供信息縮小需要排查的范圍,幫助運(yùn)維工程師快速“救火”
b. 人工智能算法:統(tǒng)計(jì)學(xué)概率+機(jī)器學(xué)習(xí)+深度學(xué)習(xí)
c. 行業(yè)領(lǐng)域知識(shí):核心業(yè)務(wù)功能、典型故障場(chǎng)景等
結(jié)果
根據(jù)過(guò)去在故障處理、故障預(yù)警、故障巡檢等場(chǎng)景的經(jīng)驗(yàn),結(jié)合客戶行業(yè)的領(lǐng)域知識(shí),產(chǎn)出了智能運(yùn)維解決方案,將百度AIOps賦能各行業(yè)客戶,幫助運(yùn)維工程師快速“救火”,并在考慮如何“防火”。
我們提供的行業(yè)智能運(yùn)維解決方案中,包含了在百度積累的豐富運(yùn)維經(jīng)驗(yàn)、先進(jìn)的AIOps算法以及對(duì)行業(yè)領(lǐng)域知識(shí)的深入了解,這三個(gè)要素是我們的智能運(yùn)維解決方案將AIOps賦能各行業(yè)客戶的關(guān)鍵。