SSD故障的4個原因以及處理方法
與硬盤驅動器相比,SSD更加可靠;然而,并沒有完美的存儲技術。即使是最新的NVMe SSD,也可能會突然或逐漸出現故障。
你知道如何判斷SSD即將發生故障嗎?以及你知道如何對出現故障的SSD進行故障排除嗎?如果你知道答案,你也許可以實現無故障恢復,而不是永久性數據丟失。與任何存儲設備一樣,NVMe SSD最終將出現故障,唯一的變量是何時。與硬盤驅動器不同,SSD無法發出聲音警告,提醒你可能有問題。但是,即使SSD可能已損壞,但不一定會丟失全部數據。
下面介紹了SSD故障的四個主要原因,以及如何解決這些問題。
1. 熱 NVMe
SSD雖然是新興產品,但最困擾它們的問題卻是計算領域最古老的問題之一:熱。 IT管理軟件和監視工具提供商SolarWinds的極客Leon Adato表示:“NVMe SSD運行時可能會非常熱,特別是如果你正在執行高級計算等密集操作時。即使在常規操作下,NVMe [SSD]也會產生很高溫度,而引發問題。”
為了確保SSD不會過熱,需要提供足夠的冷卻,從而防止其發生故障或節流到較低的速度。這里挑戰在于尋找方法從驅動器中散熱,目前有多種解決方法。Adato說:“你可以使用大型機箱,在其中確保大量直接外部氣流,或者你可以安裝散熱器、風扇或液體冷卻系統。”
調整室溫到較低的溫度也可以有效解決與SSD熱量相關的問題。Adato說:“無論你采用哪種方法,其想法都是要采取措施來增加冷卻和/或降低系統機箱內部的環境溫度。”
2. 固件故障
SSD固件極其復雜,很多SSD故障往往只是極端情況-僅在正常運行參數范圍之外才會出現此問題。幸運的是,當出現嚴重的固件問題時,大多數SSD會自動進入故障保護模式。 英特爾高級戰略規劃師兼產品經理兼NVM Express(負責開發NVMe規范的組織)的工作組聯合主席Jonmichael Hands說:“如果SSD無法保證數據的完整性,那么通常供應商會部署‘斷言(assert)’或其他故障模式,使名稱空間脫機或置于只讀模式,以保護主機軟件免于讀取不良數據。”
固件問題時有發生。例如,去年11月,惠普企業發布客戶公告警告稱,其SSD固件版本HPD8需要緊急修復。那些沒有安裝此修復程序的企業將在32,768小時的運行時間后看到其驅動器發生故障。這意味著,恰好在3年270天零8個小時后,存儲在驅動器上的所有數據都將丟失。
3. 誤用
SSD濫用最常見的形式是驅動器過早磨損,因為它與數據中心的工作負載不匹配。Hands說:“例如,具有較低耐久性的四級單元驅動器主要用于橫向擴展存儲或對象存儲,而不能用作具有大量隨機寫入的高速緩存驅動器。”
幸運的是,企業可以準確地預測和建模耐用性,因此很容易提前計劃以緩解SSD故障。 Hands說:“你需要知道你的SSD支持什么DWPD(每天寫入的驅動器)和TBW(寫入的兆字節)。對你的工作量進行建模,并確定哪種SSD最好。”為了預測驅動器的失效日期,你也可以使用有用的工具,例如英特爾的SSD耐用估算器。
4. 潛在問題
SSD問題通常并不明顯,直到開始造成大問題。越早知道存在問題,你就可以越快地響應情況,并最大程度地減少影響。Adato說:“請確保使用硬件監視軟件來跟蹤…組件的I / O速度、壞塊和其他故障模式,以便在出現問題時盡快知道。”
Adato指出,創建商業環境也很重要,在該商業環境中,最終用戶可以輕松地報告運行不佳、欠佳或異常的基于SSD的系統。他說:“IT部門需要迅速了解故障,并快速解決故障,這遠比追責重要得多。”
對于SSD故障時,快速解決問題是防止過多損壞的關鍵。Adato說:“你所希望的最好的結果是失去對該驅動器進行寫入的能力,但保留對其進行讀取的能力。這樣,你可以在丟棄設備前將所有數據拉到另一個驅動器。”