成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

企業如何預防云災難

云計算
在互聯網服務領域,系統的可靠性對于保持品牌聲譽和客戶信任至關重要。本文探討了頂級科技公司如何通過巧妙的人力管理和技術策略來激勵工程團隊專注于系統的可靠性建設。

大公司非常努力地確保他們的服務不出故障,原因很簡單,重大宕機會損害品牌,并將客戶推向具有更好穩定性記錄的競爭產品。

構建可靠的互聯網服務是一個復雜的技術問題,但對公司領導者來說,這也是一個人力挑戰。激勵工程團隊投入于可靠性工作的難度在于,這類工作往往被認為沒有開發新功能那么吸引人。

在大規模運營中,激勵機制占主導地位。頂級科技公司雇傭了成千上萬的員工,并運營數百個互聯網服務。多年來,他們想出了巧妙的方法,確保工程師構建可靠的系統。本文討論了那些歷史上最成功的科技公司在大規模環境中采用的人力管理技術,無論你是員工還是領導者,都可以將這些技術應用于你的公司。

轉動命運之輪

AWS的運營評審是每周一次的會議,面向整個公司開放。每次會議都會轉動“幸運輪”,隨機選擇數百個AWS服務中的一個進行實時審查。被抽中的團隊必須回答有經驗的運營領導提出的關于儀表盤和指標的尖銳問題。會議有數百名員工、數十位總監和幾位副總裁參加。

這激勵了每個團隊具備基本的運營能力。即使某個團隊被選中的概率很低(在AWS,低于1%),但作為團隊的經理或技術負責人,你肯定不希望在半個公司面前顯得一無所知,尤其是在你“運氣不佳”的那一天。

定期審查可靠性指標非常重要。對運營健康狀況感興趣的領導者會為整個企業樹立這樣的基調。“轉動命運之輪”只是實現這一目標的工具之一。

但是,在這些運營評審中你應該做些什么呢?這就引出了下一個關鍵點。

設定可量化的可靠性目標

你可能希望有“高正常運行時間”或“五個九”(99.999%的可用性),但這些對你的客戶意味著什么呢?實時互動(如聊天)的延遲容忍度遠低于異步工作負載(如訓練機器學習模型、上傳視頻)。你的目標應反映客戶關心的內容。

在審查團隊的指標時,讓他們描述可量化的可靠性目標。確保你理解他們為何選擇這些目標,也讓他們清楚這一點,然后,讓他們使用儀表盤證明這些目標已實現。設定可量化的目標有助于你以數據驅動的方式優先考慮可靠性工作。

關注問題的檢測非常重要。如果你在他們的儀表盤上看到異常,詢問他們問題的原因,同時問他們的值班人員是否接到了通知。理想情況下,你應該在客戶發現問題之前就察覺到問題的存在。

擁抱混亂

云計算彈性領域最具革命性的思維轉變之一是將故障注入到生產環境中。Netflix將這一概念正式化為“混沌工程”——這個概念和它的名字一樣酷。

Netflix希望激勵其工程師構建容錯系統,而不是通過微觀管理來實現。他們認為,如果將系統性故障常態化而不是視為例外,工程師將不得不構建容錯系統。雖然花了一些時間實現這一點,但在Netflix,生產環境中從單個服務器到整個可用區都會被常規性地“淘汰”。每個服務都被期望能夠自動吸收這些故障,而不影響服務可用性。

這種策略既昂貴又復雜,但如果你發布的產品需要高正常運行時間是絕對必要的,那么在生產環境中注入故障是獲得類似“正確性證明”的一種非常有效的方法。如果你的產品需要這樣做,盡早引入這一策略。未來不會比現在更簡單或更便宜。

如果混沌工程看起來有些過于激進,至少應要求團隊每年進行一到兩次“演習日”(模擬宕機演練),或者在推出任何重大功能前進行。在演習日中,會有三種指定角色——第一個角色模擬宕機,第二個角色在事先不知曉問題的情況下修復它,第三個角色觀察并做詳細記錄。事后,整個團隊應該聚在一起對模擬事件進行復盤(參見下文)。演習日不僅會揭示系統在處理宕機時的不足,還會暴露出工程師應對這些問題的差距。

制定嚴格的復盤流程

一個公司的復盤流程能反映出其文化。頂級科技公司都要求團隊對重大宕機撰寫復盤報告。報告應描述事件、探究根本原因,并提出預防措施。復盤應嚴格執行并保持高標準,但這一過程不應指責個人。復盤撰寫是一種糾正行為,而不是懲罰行為。如果某個工程師犯了錯誤,意味著存在允許這一錯誤發生的潛在問題。或許你需要更好的測試流程,或是更完善的關鍵系統保護措施。深入挖掘這些系統性漏洞并加以修復。

設計一個健全的復盤流程可以單獨寫成一篇文章,但可以肯定的是,擁有一個這樣的流程將大大減少下次宕機的發生。

獎勵可靠性工作

如果工程師認為只有開發新功能才能帶來加薪和晉升,那么可靠性工作將會被擱置。大多數工程師,無論資歷如何,都應為運營卓越做出貢獻。在績效評估中獎勵可靠性改進工作。讓資深工程師為他們所監督系統的穩定性負責。

雖然這個建議看似顯而易見,但卻很容易被忽視。

結論

本文探討了一些將可靠性融入公司文化的基本工具。初創公司和早期階段的公司通常不會優先考慮可靠性。這可以理解——你們的公司必須專注于驗證產品與市場的匹配,以確保生存,然而,一旦你擁有了回頭客,你公司的未來將依賴于保持信任。人類通過可靠性贏得信任,互聯網服務也是如此。

責任編輯:華軒 來源: 企業網D1Net
相關推薦

2017-04-18 11:14:04

數據災難大數據企業

2021-08-26 23:01:41

人工智能氣候大數據

2012-11-14 16:27:41

2013-01-14 09:21:31

2022-11-03 14:39:47

2022-04-24 13:59:22

災難恢復云計算云安全

2019-04-26 13:51:38

災難恢復云計算數據

2012-09-28 16:08:11

2012-09-29 08:58:01

2013-09-18 20:14:46

云災難恢復

2021-06-08 14:21:51

恢復策略數據備份存儲元素

2011-07-29 09:25:42

云計算災難恢復

2011-09-20 09:27:12

云存儲虛擬化災難恢復

2022-01-13 13:53:25

企業備份災難準備備份系統

2018-12-05 11:14:30

災難恢復硬件

2022-12-02 18:45:11

2017-08-29 14:32:59

企業安全云計算

2021-04-11 10:03:09

網絡安全黑客信息安全

2020-02-17 09:14:16

云計算云遷移公共云

2012-10-11 09:40:59

災難恢復云計算云服務
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费一二区 | 国产 日韩 欧美 在线 | 成人福利电影 | 国产精品自产av一区二区三区 | 亚洲一区二区三区视频 | 日本久久精品视频 | 欧美精品一区三区 | 一级毛片在线播放 | 中文字幕日韩一区 | 国产999精品久久久 午夜天堂精品久久久久 | 日本福利视频 | 日韩精品中文字幕一区二区三区 | 国产欧美一区二区三区久久 | 国产成人区 | 欧美精品久久久久久久久久 | 久久综合九色综合欧美狠狠 | 精品国产不卡一区二区三区 | 成人久久久 | 欧美不卡 | 国产日韩欧美一区 | 亚洲一区 中文字幕 | 免费一级黄| 亚洲久久 | 超黄毛片| 欧美一级黄色网 | 九九久久国产精品 | 国产免费观看久久黄av片涩av | 成人性视频免费网站 | 久久久久国产精品 | 日韩精品极品视频在线观看免费 | 日韩专区中文字幕 | 激情在线视频网站 | 欧洲尺码日本国产精品 | 日本在线一区二区 | 国产欧美一区二区三区免费 | 特级黄一级播放 | 成人免费视频观看视频 | 日韩欧美在线视频一区 | 日本一区二区电影 | 日本在线观看视频 | 91久久精品一区二区二区 |