課程簡介
Google 對(duì) SRE 解釋是(via Site Reliability Engineering - Wikipedia):
Site reliability engineering (SRE) is a discipline that incorporates aspects of software engineering and applies that to operations whose goals are to create ultra-scalable and highly reliable software systems.
與 DevOps 工程師的高效能有所不同,SRE 的關(guān)鍵詞包括:高擴(kuò)展性、高可用性。其職責(zé)包括:
為應(yīng)用、中間件、基礎(chǔ)設(shè)施等提供選型、設(shè)計(jì)、開發(fā)、容量規(guī)劃、調(diào)優(yōu)、故障處理,為業(yè)務(wù)系統(tǒng)提供基于可用性、可擴(kuò)展性考慮決策,參與業(yè)務(wù)系統(tǒng)設(shè)計(jì)和實(shí)施定位、處理、管理故障,優(yōu)化導(dǎo)致故障發(fā)生相關(guān)部件,提高各部件資源利用率。
目標(biāo)收益
1. SRE的歷史及其在Google中的實(shí)踐
2. SRE與DevOps和其他流行框架的相互關(guān)系
3. SRE背后的基本原則
4. 可觀測性可以指示服務(wù)的運(yùn)行狀況
5. SRE工具,自動(dòng)化技術(shù)和安全性的重要性
6. 抗脆弱性,我們的失敗和失敗測試方法
7. 引入SRE帶來的組織影響
培訓(xùn)對(duì)象
適用于開發(fā)業(yè)務(wù)相關(guān)的軟件架構(gòu)師、軟件設(shè)計(jì)師、運(yùn)維架構(gòu)師、高級(jí)運(yùn)維、運(yùn)維經(jīng)理、運(yùn)維總監(jiān)
課程大綱
第一單元 概念拉齊 SRE原則與實(shí)踐 |
什么是站點(diǎn)可靠性工程? SRE和DevOps:有什么區(qū)別? SRE原則與慣例 SRE工作的流程是什么?(涉及多個(gè)團(tuán)隊(duì)相關(guān)的) |
第二單元 流程與規(guī)范 SRE工作的流程與規(guī)劃的建議 |
變更流程 變更控制表標(biāo)準(zhǔn) 故障處理流程(涉及一線、產(chǎn)研之間的流程) 故障演練設(shè)計(jì) 故障復(fù)盤報(bào)告模板 |
第三單元 IDC建設(shè)思路 IDC建設(shè) |
IDC 整體設(shè)計(jì) 機(jī)房、硬件、網(wǎng)絡(luò)、電源、鏈路、UPS 高可用網(wǎng)絡(luò)保障方法 跨IDC網(wǎng)絡(luò)保障 IDC的監(jiān)控與自動(dòng)化方法 |
第三單元 案例介紹 企業(yè)SRE案例 |
背景 SRE團(tuán)隊(duì)規(guī)模介紹 SRE 職責(zé) SRE 處理工作流程 整體運(yùn)維工具支撐介紹 能力構(gòu)建路徑串講 |
第四單元 監(jiān)控系統(tǒng) 監(jiān)控系統(tǒng)介紹 |
監(jiān)控源:物理,平臺(tái),虛擬機(jī),業(yè)務(wù),鏈路, 監(jiān)控核心指標(biāo)定義 拔測系統(tǒng)構(gòu)架設(shè)計(jì) 網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法 監(jiān)控與其它系統(tǒng)的自動(dòng)化建設(shè) |
第五單元 組織架構(gòu) 組織如何采用SRE |
SRE的規(guī)模 人員能力 基礎(chǔ)架構(gòu) 產(chǎn)品sla 定義 |
第六單元 AIOPS 2個(gè)AIOPS場景介紹 |
根因分析場景 故障預(yù)測場景 |
討論 |
公有云運(yùn)維工具簡介 客戶場景討論 |
第一單元 概念拉齊 SRE原則與實(shí)踐 什么是站點(diǎn)可靠性工程? SRE和DevOps:有什么區(qū)別? SRE原則與慣例 SRE工作的流程是什么?(涉及多個(gè)團(tuán)隊(duì)相關(guān)的) |
第二單元 流程與規(guī)范 SRE工作的流程與規(guī)劃的建議 變更流程 變更控制表標(biāo)準(zhǔn) 故障處理流程(涉及一線、產(chǎn)研之間的流程) 故障演練設(shè)計(jì) 故障復(fù)盤報(bào)告模板 |
第三單元 IDC建設(shè)思路 IDC建設(shè) IDC 整體設(shè)計(jì) 機(jī)房、硬件、網(wǎng)絡(luò)、電源、鏈路、UPS 高可用網(wǎng)絡(luò)保障方法 跨IDC網(wǎng)絡(luò)保障 IDC的監(jiān)控與自動(dòng)化方法 |
第三單元 案例介紹 企業(yè)SRE案例 背景 SRE團(tuán)隊(duì)規(guī)模介紹 SRE 職責(zé) SRE 處理工作流程 整體運(yùn)維工具支撐介紹 能力構(gòu)建路徑串講 |
第四單元 監(jiān)控系統(tǒng) 監(jiān)控系統(tǒng)介紹 監(jiān)控源:物理,平臺(tái),虛擬機(jī),業(yè)務(wù),鏈路, 監(jiān)控核心指標(biāo)定義 拔測系統(tǒng)構(gòu)架設(shè)計(jì) 網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法 監(jiān)控與其它系統(tǒng)的自動(dòng)化建設(shè) |
第五單元 組織架構(gòu) 組織如何采用SRE SRE的規(guī)模 人員能力 基礎(chǔ)架構(gòu) 產(chǎn)品sla 定義 |
第六單元 AIOPS 2個(gè)AIOPS場景介紹 根因分析場景 故障預(yù)測場景 |
討論 公有云運(yùn)維工具簡介 客戶場景討論 |