存儲系統運維可能遭遇的 8 個難點、雷區的處理
1、 v7000更換硬盤有哪些注意事項?
1) v7k和ds4k 5k有很多的不同,換磁盤就是其一!直接插拔磁盤不能完成磁盤的更換,而且將導致 legacy drive信息的產生,必須借助 CLI命令才能去除。
2) 按 Follow DMP (Directed Maintenance Procedures) 的指導,從 fix procedure 的GUI界面完成;
3) 如果按照dmp的指導不能更換,請按照下面的步驟來:
確認壞盤的id,這個自己去看文檔了!一定要確認壞盤的物理位置,而且盤的燈確認是琥珀色的。拔出壞盤,更換新盤。
進入gui以后看見新盤也是offline和fail狀態,右鍵這個磁盤,標記為unused,成功后再改成candidate,再次成功后再改成spare 。
稍等,mdisk就會重建。
2、 DS5020 邏輯驅動降級了如何處理?
1) 正常情況是存儲出現一塊硬盤損壞亮黃燈,這時熱備盤會代替壞硬盤,查看日志確認硬盤損壞,換一塊新硬盤即可,這時熱備盤中的數據同步到新硬盤中,熱備盤恢復原來的熱備功能。樓主的情況需要最近再觀察存儲的工作狀態才能確認是否是硬盤壞了。
2) 降級就是卷組存在故障磁盤,丟失一個或多個校驗位磁盤,雖然數據仍然是完整的,但喪失了Raid保護機制,如果再有磁盤故障,數據丟失的風險會很大。實際情況可能是沒有配置熱備磁盤,也可能是當前故障盤多余熱備盤。如果發現降級情況,應該及時更換狀態異常的磁盤。
3、 存儲系統狀態是impending failure的盤如何處理?
針對這個問題分三步操作:
1) 手工Fail Drive
2) 拔下硬盤
3) 等待30秒以上,插入新的硬盤,查看狀態,應該正在同步,等待陣列同步完成,時間視數據量大小而定。
4、 異構平臺的存儲監控
1) 通過SNMP trap或者syslog將錯誤信息自動發出去,如果有短信平臺,可以直接發到短信平臺;
2) 買一套可以支持異構存儲的管理軟件,比如IBM TPC ,HP SE,EMC ECC等等,不過管理軟件還是對自家存儲支持好,第三方的支持一定要仔細確認一下。
5、 VNX陣列劃分一個LUN,推薦優化配置是多大?
1) 通常LUN劃分多少大主要是看前端應用的需求。比如你要創建一個2TB的LUN給一臺Windows主機做共享目錄,那你可以選擇創建一個2TB的Pool LUN(可以是Thin LUN,這樣前端用多少空間就占用存儲端多少空間;如果是Thick LUN,那一開始就會占用存儲端2TB的空間)。除了虛擬資源分配,Pool LUN還支持全自動存儲分層(FAST),如果你陣列中有SSD閃存盤,性能可以上一個臺階。
2) 如果是給oracle用的話,一塊盤大小在66G到133G左右性能較好,一般推薦100G一塊盤,給文件系統使用的話當然一塊大盤就可以了,至于存儲端劃盤受限,中端存儲一個pool Lun可以到幾十TB,系統端的受限來自磁盤數量和大小的限制都有,我記得Linux默認可以支持256個Lun,當然改設置的話支持到4096個,而大小的限制主要是fdisk分區的話支持2TB。
3) lun的大小要以業務應用的要求為準。lun的大小不易包含過多的硬盤,包含的硬盤數量越多,故障點也就越多,需要在性能與故障之間平衡硬盤的數量。
6、 V5000和V7000換電池控制器等操作真的是個雷區嗎?
V7000每控制器會固定帶有一塊電池,V7000中的兩塊電池在兩個控制器之間,是共享的,如果有一塊電池損壞,當V7000意外斷電的時候,狀態正常的一塊電池可以擁有足夠的電量把V7000配置信息以及寫緩存中的數據安全的寫入到 V7000的內部磁盤中。當V7000中電池充電不足或者兩塊電池均損壞的情況下,V7000無法啟動系統,必須等待充電完成或修復電池才可正常啟動。
7、 DS8700怎么在線更換控制器風扇?
1) 通過SMC(Storage Management Console)走Repair流程。跟HMC界面差不多。Repair過程會在后臺切換控制器,將風扇故障控制器poweroff,接下來的事兒就是給P6 570更換風扇了。繼續Repair流程,SD8700會啟動控制器,并自動切換負載。要一步一步仔細看Repair流程的說明。
2) 普通中低存儲一盤來說都是熱插拔的。但是高端存儲沒有聽說可以直接拔插的,IBM DS8000、EMC DMX、HP XP這些都是要從管理控制臺走相應的修復流程的!IBM DS8000系列存儲都要通過HMC的Repair流程修復,不能直接更換!HMC流程有提示你更換步驟和方法的!
8、 虛擬化方案如何規劃存儲?
在進行存儲I/O設計時,我們可以參考以下設計原則:
1) 請確保您的數據均勻地分布在所有的物理磁盤中。如果您的數據僅位于幾個盤中,那么使用多個邏輯單元號(LUN)或物理磁盤又有什么實際意義呢?
2) 如果您使用了SAN或其他類型的存儲陣列,那么您應該嘗試在創建陣列時使它們具有相同的大小和類型。您還應該在創建它們時,為每個陣列使用LUN,然后將所有的邏輯卷分散到卷組中的所有物理卷。
3) 您還應該確保鏡像位于不同的磁盤和適配器。
4) 數據庫索引表空間容器和數據表空間容器也應該位于不同的物理磁盤。
5) 對于表空間容器和數據庫日志,應該存放到不同的RAID GROUP上。
6) 物理設備方面。使用高速適配器連接磁盤驅動器,具有大的Cache,這一點是非常重要的,但是您必須確保總線本身不會成為瓶頸。要防止這種情況發生,確保將適配器分散到多個總線。同時,不要將過多的物理磁盤或LUN連接到任何一個適配器,因為這樣做也會對性能產生極大的影響。您配置的適配器越多越好,特別是在大量磁盤的利用率都很高的情況下。
7) 您還應該確保設備驅動程序盡可能支持多路徑 I/O (MPIO),MPIO支持 I/O 子系統的負載平衡和流量控制。
8) 監控存儲Cache的命中率,確保Cache的大小設置應該與業務特點(是OLTP還是OLAP業務類型)和數據頁(data page)的大小設置合理。
9) 選擇合適的RAID級別。根據自己應用系統的業務類型來選擇合適的RAID級別。一般來說,有以下兩種典型的業務類型:
70/30/50--70%讀,30%寫,Cache命中率50%,這是典型的高并發OLTP系統。
100/100--100%讀,100%寫,這是典型的OLAP、DSS系統。
對于小I/O的數據庫類型操作,如ERP、銀行賬務系統、移動計費系統等應用,建議采用RAID 10;而大型文件存儲、數據倉庫,如報表系統、數據集市系統,從空間利用的角度,建議采用RAID 5。
10) 在存儲上選擇合適的條帶化大小(stripe size),確保條帶化大小要和數據庫的I/O特點結合,因為對于OLTP應用,數據庫I/O基本是隨機小塊讀寫;而對于OLAP應用,數據庫I/O是連續大塊讀寫。
11) 確保操作系統層面和存儲層面的條帶化大小設置一致,操作系統方面的條帶化大小盡量大些。