網絡變更管理流程的5項原則
網絡變更管理流程包括5項基本原則,其中包括風險分析和同行評審。這些優秀實踐可以幫助網絡團隊限制失敗的網絡更改和中斷。
網絡變更管理是旨在減少變更失敗風險的過程。這個流程需要幾個步驟來確保成功進行更改,但是每個步驟如何開展工作?
飛機駕駛員通常會使用定義明確的流程來確保飛行安全。同樣,網絡團隊可以使用定義的流程來減少因網絡更改失敗而造成計劃外停機的風險。即便如此,組織有時仍發現更改未按計劃進行,從而導致停機。有些故障是由于流程故障引起的,而另一些故障是由于復雜配置的明顯影響所致。
網絡變更管理過程依賴于幾種基本操作原理的應用,例如:
- 范圍確定和風險分析
- 同行評審
- 部署前測試和驗證
- 實施和測試
- 文檔更新
網絡團隊在更改管理流程之前執行創建更改詳細信息的過程新配置、設備連接信息和文檔)。思科公司發布的“變更管理:優秀實踐”白皮書就是一份網絡變更管理的重要指南。
1.范圍和風險分析
網絡變更管理過程的第一步應該是評估提議變更的范圍,確定哪些服務可能受到影響以及誰使用這些服務。而“爆炸半徑”一詞通常用于描述變更可能產生的影響范圍,其中包括可能的負面結果。
團隊將希望根據以下兩個因素來衡量范圍:
(1)變更影響的端點數量;
(2)變更可能影響的服務的重要性。
一旦團隊確定了范圍,他們應該對變更進行風險評估。這是過去做過很多次并廣為人知的事情嗎?它是完全自動化的,還是人為錯誤會以意想不到的方式更改?是否對所涉及的技術了如指掌,或者是否有可能發生意料之外的事情?
變更的范圍將會計入風險。與更改小型分支站點相比,對運行關鍵業務流程的基礎設施進行更改將給業務帶來更大的風險。
網絡團隊可以使用風險因素計算器為關鍵參數賦值。若要創建風險計算器,需要從下面的示例參數取平均值,或在網上搜索計算器。
- 效果是否對客戶可見?(否=1,是=10)
- 有多少客戶可能受到影響?(范圍為1到10)
- 服務在范圍內有多重要?(范圍為1到10)
- 過去是否已成功實施此更改?(是=1,否=10)
- 變更是否自動化?(范圍為1到10,取決于自動化程度)
- 更改可以在實施之前進行徹底測試嗎?(是=1,否=10)
- 供應商文檔是否清晰明確?(范圍為1到10)
- 同行評審是否徹底,是否發現了任何潛在的問題?(范圍為1到10)
風險越大,在其余的變更管理過程中,團隊就需要越謹慎。
2.同行評審
下一步是進行同行評審。盡管團隊可以在風險分析之前實施這一步驟,但最好使用風險級別來推動同行評審的徹底性。盡管所有同行評審都應進行比較透徹的檢查,但常規更改(例如訪問控制列表更改或修改虛擬LAN)可能會收到粗略的審核。自動化測試和例行變更的部署可以幫助減輕同行評審的風險。
熟悉網絡的內部人員將進行大多數同行評審。但是,如果更改與眾不同,請設備供應商的專家進行審核是有意義的。評審應該反饋到風險分析階段,可能會更新技術風險度量,例如指示測試和文檔是否足夠。
3.部署前測試和驗證
在理想情況下,所有更改都將經歷部署前的測試和驗證階段。低風險、重復性變更的自動化可以消除誘惑,避免對團隊認為低風險的變更進行測試。當然,范圍和風險越大,適當地測試和驗證提議的更改就越重要。
虛擬路由器和交換機操作系統實例的普及,使得自動化測試網絡拓撲的創建變得更加容易,而無需昂貴的硬件投資。團隊將需要構建自動化來創建虛擬網絡拓撲,并在測試成功完成時將其拆除。
部署前測試包括團隊應遵循的幾個步驟來評估建議的更改:
(1)在更改之前,需要驗證測試網絡當前是否按預期工作。
(2)在測試基礎設施中實現更改,以確認更改結果為所需的最終狀態。團隊應該使用自動化流程來避免人為錯誤,并減少驗證更改的時間。如果測試環境中的驗證失敗,需要確定原因。到底是因為更改不正確而失敗?還是因為測試網絡不能準確地表示真實的網絡?
(3)測試回退更改過程,以便在出現問題時很容易恢復到先前的狀態。撤消更改應使網絡返回到初始狀態,團隊可以通過重復步驟1進行驗證。
4.實施和測試
部署前和部署后測試和驗證步驟應遵循與部署前測試的步驟1和步驟2相同的過程。如果團隊在部署前的測試和驗證方面做得很好,則不會發生任何意外情況。如果變更后測試檢測到意外問題,團隊應撤消變更并驗證服務是否已恢復。
在更改大型網絡后,某些網絡協議將需要更多的時間來聚合,這要求更改后的驗證過程包含延遲或聚合測試,而在小型測試環境中部署前的測試不需要這些測試。
越來越多的組織正在自動化網絡配置更改,目標是遷移到基于基礎設施作為代碼的DevOps文化。目的是針對低風險更改采用持續集成和持續部署測試以及部署過程。
5.文檔和網絡管理更新
在理想情況下,團隊將在更改創建過程中創建和更新文檔,使他們能夠查看文檔和網絡管理更改以及更改的詳細信息。一旦團隊實施并驗證了更改,他們便可以將文檔更改合并到網絡文檔系統中。
不要忘記根據需要更新網絡管理系統。大多數網絡管理系統都有API、這些API支持自動化流程進行更改。
如果更改驗證步驟是自動化的,則可以將其合并到定期的網絡驗證檢查中。這些定期檢查可以檢測高度冗余和彈性網絡中的故障。隨著時間的推移,團隊將建立一個覆蓋網絡許多部分的網絡驗證檢查庫。
良好的網絡變更管理原則為減少因變更失敗而導致的計劃外網絡中斷提供了方向。團隊應創建適合其組織的流程,并努力使這個流程更加高效。