互聯(lián)網(wǎng)
DevOps
工程師
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

SRE最佳實(shí)踐

劉雨航

一線互聯(lián)網(wǎng)公司 運(yùn)維架構(gòu)師

擅長實(shí)戰(zhàn),長期在一線作戰(zhàn),具有超過10年以上自動(dòng)化運(yùn)維經(jīng)驗(yàn)和技術(shù)管理經(jīng)驗(yàn),豐富的自動(dòng)化架構(gòu)設(shè)計(jì),DevOps,AIOps落地方案。曾負(fù)責(zé)主導(dǎo)微服務(wù)整體自動(dòng)化架構(gòu)、分布式系統(tǒng)自動(dòng)化管理平臺(tái)、融合云平臺(tái)自動(dòng)化管理、分布式監(jiān)控平臺(tái)、運(yùn)營數(shù)據(jù)分析平臺(tái)等。實(shí)踐超過萬臺(tái)服務(wù)器規(guī)模的管理和運(yùn)維,從0至1打造到傳統(tǒng)自動(dòng)化運(yùn)維平臺(tái)。曾受邀在國內(nèi)頂級(jí)技術(shù)大會(huì)擔(dān)任講師,出品人,并發(fā)表自動(dòng)化運(yùn)維,DevOps相關(guān)的技術(shù)演講。

擅長實(shí)戰(zhàn),長期在一線作戰(zhàn),具有超過10年以上自動(dòng)化運(yùn)維經(jīng)驗(yàn)和技術(shù)管理經(jīng)驗(yàn),豐富的自動(dòng)化架構(gòu)設(shè)計(jì),DevOps,AIOps落地方案。曾負(fù)責(zé)主導(dǎo)微服務(wù)整體自動(dòng)化架構(gòu)、分布式系統(tǒng)自動(dòng)化管理平臺(tái)、融合云平臺(tái)自動(dòng)化管理、分布式監(jiān)控平臺(tái)、運(yùn)營數(shù)據(jù)分析平臺(tái)等。實(shí)踐超過萬臺(tái)服務(wù)器規(guī)模的管理和運(yùn)維,從0至1打造到傳統(tǒng)自動(dòng)化運(yùn)維平臺(tái)。曾受邀在國內(nèi)頂級(jí)技術(shù)大會(huì)擔(dān)任講師,出品人,并發(fā)表自動(dòng)化運(yùn)維,DevOps相關(guān)的技術(shù)演講。

課程費(fèi)用

5800.00 /人

課程時(shí)長

1

成為教練

課程簡介

Google 對(duì) SRE 解釋是(via Site Reliability Engineering - Wikipedia):
Site reliability engineering (SRE) is a discipline that incorporates aspects of software engineering and applies that to operations whose goals are to create ultra-scalable and highly reliable software systems.
與 DevOps 工程師的高效能有所不同,SRE 的關(guān)鍵詞包括:高擴(kuò)展性、高可用性。其職責(zé)包括:
為應(yīng)用、中間件、基礎(chǔ)設(shè)施等提供選型、設(shè)計(jì)、開發(fā)、容量規(guī)劃、調(diào)優(yōu)、故障處理,為業(yè)務(wù)系統(tǒng)提供基于可用性、可擴(kuò)展性考慮決策,參與業(yè)務(wù)系統(tǒng)設(shè)計(jì)和實(shí)施定位、處理、管理故障,優(yōu)化導(dǎo)致故障發(fā)生相關(guān)部件,提高各部件資源利用率。

目標(biāo)收益

1. SRE的歷史及其在Google中的實(shí)踐
2. SRE與DevOps和其他流行框架的相互關(guān)系
3. SRE背后的基本原則
4. 可觀測性可以指示服務(wù)的運(yùn)行狀況
5. SRE工具,自動(dòng)化技術(shù)和安全性的重要性
6. 抗脆弱性,我們的失敗和失敗測試方法
7. 引入SRE帶來的組織影響

培訓(xùn)對(duì)象

適用于開發(fā)業(yè)務(wù)相關(guān)的軟件架構(gòu)師、軟件設(shè)計(jì)師、運(yùn)維架構(gòu)師、高級(jí)運(yùn)維、運(yùn)維經(jīng)理、運(yùn)維總監(jiān)

課程大綱

第一單元 概念拉齊
SRE原則與實(shí)踐
什么是站點(diǎn)可靠性工程?
SRE和DevOps:有什么區(qū)別?
SRE原則與慣例
SRE工作的流程是什么?(涉及多個(gè)團(tuán)隊(duì)相關(guān)的)
第二單元 流程與規(guī)范
SRE工作的流程與規(guī)劃的建議
變更流程
變更控制表標(biāo)準(zhǔn)
故障處理流程(涉及一線、產(chǎn)研之間的流程)
故障演練設(shè)計(jì)
故障復(fù)盤報(bào)告模板
第三單元 IDC建設(shè)思路
IDC建設(shè)
IDC 整體設(shè)計(jì)
機(jī)房、硬件、網(wǎng)絡(luò)、電源、鏈路、UPS
高可用網(wǎng)絡(luò)保障方法
跨IDC網(wǎng)絡(luò)保障
IDC的監(jiān)控與自動(dòng)化方法
第三單元 案例介紹
企業(yè)SRE案例
背景
SRE團(tuán)隊(duì)規(guī)模介紹
SRE 職責(zé)
SRE 處理工作流程
整體運(yùn)維工具支撐介紹
能力構(gòu)建路徑串講
第四單元 監(jiān)控系統(tǒng)
監(jiān)控系統(tǒng)介紹
監(jiān)控源:物理,平臺(tái),虛擬機(jī),業(yè)務(wù),鏈路,
監(jiān)控核心指標(biāo)定義
拔測系統(tǒng)構(gòu)架設(shè)計(jì)
網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法
監(jiān)控與其它系統(tǒng)的自動(dòng)化建設(shè)
第五單元 組織架構(gòu)
組織如何采用SRE
SRE的規(guī)模
人員能力
基礎(chǔ)架構(gòu)
產(chǎn)品sla 定義
第六單元 AIOPS
2個(gè)AIOPS場景介紹
根因分析場景
故障預(yù)測場景
討論 公有云運(yùn)維工具簡介
客戶場景討論
第一單元 概念拉齊
SRE原則與實(shí)踐
什么是站點(diǎn)可靠性工程?
SRE和DevOps:有什么區(qū)別?
SRE原則與慣例
SRE工作的流程是什么?(涉及多個(gè)團(tuán)隊(duì)相關(guān)的)
第二單元 流程與規(guī)范
SRE工作的流程與規(guī)劃的建議

變更流程
變更控制表標(biāo)準(zhǔn)
故障處理流程(涉及一線、產(chǎn)研之間的流程)
故障演練設(shè)計(jì)
故障復(fù)盤報(bào)告模板
第三單元 IDC建設(shè)思路
IDC建設(shè)

IDC 整體設(shè)計(jì)
機(jī)房、硬件、網(wǎng)絡(luò)、電源、鏈路、UPS
高可用網(wǎng)絡(luò)保障方法
跨IDC網(wǎng)絡(luò)保障
IDC的監(jiān)控與自動(dòng)化方法
第三單元 案例介紹
企業(yè)SRE案例

背景
SRE團(tuán)隊(duì)規(guī)模介紹
SRE 職責(zé)
SRE 處理工作流程
整體運(yùn)維工具支撐介紹
能力構(gòu)建路徑串講
第四單元 監(jiān)控系統(tǒng)
監(jiān)控系統(tǒng)介紹
監(jiān)控源:物理,平臺(tái),虛擬機(jī),業(yè)務(wù),鏈路,
監(jiān)控核心指標(biāo)定義
拔測系統(tǒng)構(gòu)架設(shè)計(jì)
網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法
監(jiān)控與其它系統(tǒng)的自動(dòng)化建設(shè)
第五單元 組織架構(gòu)
組織如何采用SRE

SRE的規(guī)模
人員能力
基礎(chǔ)架構(gòu)
產(chǎn)品sla 定義
第六單元 AIOPS
2個(gè)AIOPS場景介紹

根因分析場景
故障預(yù)測場景
討論
公有云運(yùn)維工具簡介
客戶場景討論

活動(dòng)詳情

提交需求