課程簡介
故障演練在這2年已然成為了各個公司都在探索的工程實踐,它是一個遵循混沌工程實驗原理并通過注入常見的故障場景來提升當前分布式系統(tǒng)的容錯性的有效方式?;煦绻こ套钤缡怯?Netflix 提出的,他們?yōu)榱私鉀Q服務(wù)不穩(wěn)定的問題創(chuàng)新性地引入了 ChaosMonkey,通過隨機的給自己的服務(wù)制造混亂,從而促進工程師們在開發(fā)設(shè)計系統(tǒng)的時候就要考慮到服務(wù)的穩(wěn)定性,這也逐漸成為了整個公司的工程師文化。后來,各大巨頭google、 facebook、aws 、microsoft 也都采用了同樣的方法來保障服務(wù)的穩(wěn)定性。
歷史總是驚人的相似,今天國內(nèi)的互聯(lián)網(wǎng)系統(tǒng)越來越復(fù)雜,很多公司也遇到了當初 Netflix 遇到的問題,因此故障演練開始進入大家的視線。本次工作坊旨在給大家講解混沌工程理論與落地的經(jīng)驗。并通過此次工作坊,讓大家可以設(shè)計出適合自己業(yè)務(wù)場景的故障演練平臺,并切實的解決系統(tǒng)穩(wěn)定性問題。
工作坊大綱:
一. 混沌工程介紹
1. 背景
2. 核心原則
3. 價值
二. 業(yè)內(nèi)大廠是如何落地混沌工程的
1. 案例 - Netflix
2. 案例 - 阿里
3. 案例 - 攜程
三. 我們是如何落地混沌工程的
1.流程設(shè)計
2.產(chǎn)品設(shè)計
2.1 故障畫像分析
2.2 故障場景設(shè)計
2.3 故障預(yù)案設(shè)計
2.4 應(yīng)用穩(wěn)態(tài)指標設(shè)計
2.5 監(jiān)控告警設(shè)計
2.6 演練范圍設(shè)計
2.7 演練斷路器設(shè)計
2.8 演練報告設(shè)計
3. 技術(shù)架構(gòu)
4. 演練實戰(zhàn)
四. 如何根據(jù)自己的場景落地混沌工程
目標收益
1. 了解混沌工程的背景、原理與價值
2. 了解業(yè)界大廠的混沌工程實踐
3. 可以設(shè)計出適合自己的故障演練平臺,并切實地提高線上系統(tǒng)的穩(wěn)定性
培訓(xùn)對象
課程大綱
|