互聯(lián)網(wǎng)
DevOps
工程師
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

SRE最佳實踐

劉雨航

一線互聯(lián)網(wǎng)公司 運維架構(gòu)師

擅長實戰(zhàn),長期在一線作戰(zhàn),具有超過10年以上自動化運維經(jīng)驗和技術(shù)管理經(jīng)驗,豐富的自動化架構(gòu)設(shè)計,DevOps,AIOps落地方案。曾負責(zé)主導(dǎo)微服務(wù)整體自動化架構(gòu)、分布式系統(tǒng)自動化管理平臺、融合云平臺自動化管理、分布式監(jiān)控平臺、運營數(shù)據(jù)分析平臺等。實踐超過萬臺服務(wù)器規(guī)模的管理和運維,從0至1打造到傳統(tǒng)自動化運維平臺。曾受邀在國內(nèi)頂級技術(shù)大會擔(dān)任講師,出品人,并發(fā)表自動化運維,DevOps相關(guān)的技術(shù)演講。

擅長實戰(zhàn),長期在一線作戰(zhàn),具有超過10年以上自動化運維經(jīng)驗和技術(shù)管理經(jīng)驗,豐富的自動化架構(gòu)設(shè)計,DevOps,AIOps落地方案。曾負責(zé)主導(dǎo)微服務(wù)整體自動化架構(gòu)、分布式系統(tǒng)自動化管理平臺、融合云平臺自動化管理、分布式監(jiān)控平臺、運營數(shù)據(jù)分析平臺等。實踐超過萬臺服務(wù)器規(guī)模的管理和運維,從0至1打造到傳統(tǒng)自動化運維平臺。曾受邀在國內(nèi)頂級技術(shù)大會擔(dān)任講師,出品人,并發(fā)表自動化運維,DevOps相關(guān)的技術(shù)演講。

課程費用

5800.00 /人

課程時長

1

成為教練

課程簡介

Google 對 SRE 解釋是(via Site Reliability Engineering - Wikipedia):
Site reliability engineering (SRE) is a discipline that incorporates aspects of software engineering and applies that to operations whose goals are to create ultra-scalable and highly reliable software systems.
與 DevOps 工程師的高效能有所不同,SRE 的關(guān)鍵詞包括:高擴展性、高可用性。其職責(zé)包括:
為應(yīng)用、中間件、基礎(chǔ)設(shè)施等提供選型、設(shè)計、開發(fā)、容量規(guī)劃、調(diào)優(yōu)、故障處理,為業(yè)務(wù)系統(tǒng)提供基于可用性、可擴展性考慮決策,參與業(yè)務(wù)系統(tǒng)設(shè)計和實施定位、處理、管理故障,優(yōu)化導(dǎo)致故障發(fā)生相關(guān)部件,提高各部件資源利用率。

目標(biāo)收益

1. SRE的歷史及其在Google中的實踐
2. SRE與DevOps和其他流行框架的相互關(guān)系
3. SRE背后的基本原則
4. 可觀測性可以指示服務(wù)的運行狀況
5. SRE工具,自動化技術(shù)和安全性的重要性
6. 抗脆弱性,我們的失敗和失敗測試方法
7. 引入SRE帶來的組織影響

培訓(xùn)對象

適用于開發(fā)業(yè)務(wù)相關(guān)的軟件架構(gòu)師、軟件設(shè)計師、運維架構(gòu)師、高級運維、運維經(jīng)理、運維總監(jiān)

課程大綱

第一單元 概念拉齊
SRE原則與實踐
什么是站點可靠性工程?
SRE和DevOps:有什么區(qū)別?
SRE原則與慣例
SRE工作的流程是什么?(涉及多個團隊相關(guān)的)
第二單元 流程與規(guī)范
SRE工作的流程與規(guī)劃的建議
變更流程
變更控制表標(biāo)準(zhǔn)
故障處理流程(涉及一線、產(chǎn)研之間的流程)
故障演練設(shè)計
故障復(fù)盤報告模板
第三單元 IDC建設(shè)思路
IDC建設(shè)
IDC 整體設(shè)計
機房、硬件、網(wǎng)絡(luò)、電源、鏈路、UPS
高可用網(wǎng)絡(luò)保障方法
跨IDC網(wǎng)絡(luò)保障
IDC的監(jiān)控與自動化方法
第三單元 案例介紹
企業(yè)SRE案例
背景
SRE團隊規(guī)模介紹
SRE 職責(zé)
SRE 處理工作流程
整體運維工具支撐介紹
能力構(gòu)建路徑串講
第四單元 監(jiān)控系統(tǒng)
監(jiān)控系統(tǒng)介紹
監(jiān)控源:物理,平臺,虛擬機,業(yè)務(wù),鏈路,
監(jiān)控核心指標(biāo)定義
拔測系統(tǒng)構(gòu)架設(shè)計
網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法
監(jiān)控與其它系統(tǒng)的自動化建設(shè)
第五單元 組織架構(gòu)
組織如何采用SRE
SRE的規(guī)模
人員能力
基礎(chǔ)架構(gòu)
產(chǎn)品sla 定義
第六單元 AIOPS
2個AIOPS場景介紹
根因分析場景
故障預(yù)測場景
討論 公有云運維工具簡介
客戶場景討論
第一單元 概念拉齊
SRE原則與實踐
什么是站點可靠性工程?
SRE和DevOps:有什么區(qū)別?
SRE原則與慣例
SRE工作的流程是什么?(涉及多個團隊相關(guān)的)
第二單元 流程與規(guī)范
SRE工作的流程與規(guī)劃的建議

變更流程
變更控制表標(biāo)準(zhǔn)
故障處理流程(涉及一線、產(chǎn)研之間的流程)
故障演練設(shè)計
故障復(fù)盤報告模板
第三單元 IDC建設(shè)思路
IDC建設(shè)

IDC 整體設(shè)計
機房、硬件、網(wǎng)絡(luò)、電源、鏈路、UPS
高可用網(wǎng)絡(luò)保障方法
跨IDC網(wǎng)絡(luò)保障
IDC的監(jiān)控與自動化方法
第三單元 案例介紹
企業(yè)SRE案例

背景
SRE團隊規(guī)模介紹
SRE 職責(zé)
SRE 處理工作流程
整體運維工具支撐介紹
能力構(gòu)建路徑串講
第四單元 監(jiān)控系統(tǒng)
監(jiān)控系統(tǒng)介紹
監(jiān)控源:物理,平臺,虛擬機,業(yè)務(wù),鏈路,
監(jiān)控核心指標(biāo)定義
拔測系統(tǒng)構(gòu)架設(shè)計
網(wǎng)絡(luò)鏈接監(jiān)控的定義與方法
監(jiān)控與其它系統(tǒng)的自動化建設(shè)
第五單元 組織架構(gòu)
組織如何采用SRE

SRE的規(guī)模
人員能力
基礎(chǔ)架構(gòu)
產(chǎn)品sla 定義
第六單元 AIOPS
2個AIOPS場景介紹

根因分析場景
故障預(yù)測場景
討論
公有云運維工具簡介
客戶場景討論

課程費用

5800.00 /人

課程時長

1

預(yù)約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求