路由故障:傳輸網告警導致整網路由震蕩
路由振蕩原因分為兩個方面:
一個是由于鏈路狀態的改變造成的路由改變,如果采用IS-IS或OSPF的路由發現,由于該問題要靠Hello包的檢測,同時檢測一次還不行,還需要檢測幾次。一般情況下,從鏈路中斷到新路由選定需要幾秒到幾十秒的時間,這樣的問題發生在骨干網上將大大地影響實時多媒體業務的質量,該問題主要通過使用MPLS的FRR能力加以保護。
另一個路由振蕩問題主要是網絡設計不嚴謹造成的,對于出現大量的同值選路或大量的RouteReLookup或路由狀態更新振蕩的情況,防止問題的主要方案是在設計網絡時要求所有的流量的方向和選路都需要監控者明確地加以檢查。
下面讓我們看看傳輸網告警導致整網路由震蕩的故障解決辦法。
網絡環境
在圖2-1的網絡中,NE80E設備通過POS4/0/0端口與傳輸網絡設備連接。
圖2-1 設備組網圖
配置完成后,發現NE80E與傳輸設備相連的POS4/0/0端口存在大量的端口UP、DOWN告警。同時,由于端口的UP、DOWN又造成路由協議的震蕩,使整個網絡不穩定。
故障分析
步驟 1 在NE80E上執行display logbuffer命令。
顯示信息如下:
Sep 24 2002 12:33:05 NE80E %%01PHY/4/PHY_STATUS_UP(l):Slot=3;Pos4/0/0 change status to up.
Sep 24 2002 12:33:05 NE80E %%01IFNET/4/LINKNO_STATE(l):The line protocol on the interface Pos4/0/0 has entered the UP state.
Sep 24 2002 12:33:05 NE80E %%01PHY/4/PHY_STATUS_UP2DWN(l):Slot=3;Pos4/0/0 change status to down due to being shut.
Sep 24 2002 12:33:05 NE80E %%01IFNET/4/LINKNO_STATE(l):The line protocol on the interface GigabitEthernet3/0/0 has entered the DOWN state.
由顯示信息發現NE80E的POS4/0/0接口出現大量的快速Up、Down狀態切換,同時,POS4/0/0接口的路由協議也存在大量的快速Up、Down狀態切換。
步驟 2 查詢網管設備,發現收到大量NE80E設備接口快速Up、Down信息。
步驟 3 在NE80E上執行display trapbuffer命令,發現傳輸設備經常會出現2-5毫秒的傳輸告警。
默認情況下路由器接收到傳輸告警會立即響應,導致路由協議中斷后重建,造成整網路由震蕩。
----結束
處理步驟
在NE80E上分別執行以下操作。
步驟 1 執行命令system-view,進入系統視圖。
步驟 2 執行命令interface Pos 4/0/0,進入接口視圖。
步驟 3 執行命令alarm lrdi sensitive,配置POS接口所在的LPU對lrdi類型的告警信息進行響應。
步驟 4 執行命令alarm pais sensitive,配置POS接口所在的LPU對pais類型的告警信息進行響應。
步驟 5 執行命令alarm prdi sensitive,配置POS接口所在的LPU對prdi類型的告警信息進行響應。
說明:通過步驟3、4、5,使能POS4/0/0接口所在的LPU對告警信號進行響應。
步驟 6 執行命令carrier down-hold-time 50,配置接口對傳輸告警抑制時間。
說明:默認傳輸告警抑制時間為0ms。
----結束
完成上述操作后,當設備收到傳輸告警,系統會在接口狀態變化后的50毫秒后,才響應接口的狀態變化。這樣可以避免由于接口狀態頻繁變化而引起的震蕩。故障排除。
案例總結
兩臺相距較遠的路由器通過POS口連接,不能直接用光連接器相連,中間有傳輸設備。如果傳輸設備之間的鏈路中斷了,光傳輸設備可以感知,但路由器不能立即感知相關的端口失效(和傳輸設備之間的光路正常),快速切換功能不能實現。
在路由器上配置POS接口響應傳輸設備告警功能后(缺省情況下,POS接口所在的LPU不對告警信息進行響應),當路由器收到光傳輸設備發送的告警信息,會通告POS接口Down。
然而在傳輸鏈路不穩定導致遇到大量POS接口Up、Down告警時,會引起可以路由協議中斷后重建,造成整網路由震蕩。解決辦法是引入傳輸告警抑止,當接口狀態發生變化時,系統會在接口狀態變化后的一段間隔后,才響應接口的狀態變化。這樣可以避免由于接口狀態頻繁變化而引起的震蕩。
【編輯推薦】