如何找到并殺死Linux數(shù)據(jù)中心服務(wù)器上的僵尸進(jìn)程?
譯文【51CTO.com快譯】Linux進(jìn)程經(jīng)常誤入歧途,什么都不做,甚至不耗用CPU周期。雖然僵尸進(jìn)程不像運(yùn)行中的流氓應(yīng)用程序那樣占用寶貴資源,但可能會(huì)構(gòu)成威脅。如何構(gòu)成威脅?某個(gè)進(jìn)程成為僵尸進(jìn)程時(shí),它保留其進(jìn)程ID(PID)。由于Linux系統(tǒng)的PID數(shù)量有限(不過(guò)數(shù)量很大),如果足夠的PID淪為僵尸,其他進(jìn)程就無(wú)法啟動(dòng)。
發(fā)生這種情況的可能性非常小。然而更重要的是,僵尸進(jìn)程表明應(yīng)用程序出現(xiàn)了岔子,某個(gè)程序中可能存在著錯(cuò)誤。不應(yīng)容忍數(shù)據(jù)中心軟件上的錯(cuò)誤,需要加以解決。你可能需要檢查并殺死僵尸進(jìn)程,才能解決問(wèn)題。
因此,某個(gè)進(jìn)程成為僵尸進(jìn)程時(shí),你怎么做?你要找到并殺死那些僵尸進(jìn)程。下面教你怎么做。
找出僵尸進(jìn)程
首先要做的是找出僵尸進(jìn)程。幸好,由于ps命令,這很簡(jiǎn)單。通過(guò)grep顯示ps命令的輸出,列出STAT是Z(代表僵尸)的任何進(jìn)程。打開(kāi)終端窗口,執(zhí)行下列命令:
- ps aux | grep 'Z'
上述命令的輸出將列出輸出中包含Z的任何進(jìn)程(圖A)。
圖A
如你所見(jiàn),許多運(yùn)行中的進(jìn)程呈僵尸狀態(tài)。該命令還將列出輸出中包含字母Z的任何進(jìn)程,因此你要忽略STAT列中沒(méi)有Z的任何進(jìn)程。
殺死僵尸進(jìn)程
我們想要使用kill命令來(lái)終結(jié)那些僵尸進(jìn)程。命令的輸出將包括所有僵尸進(jìn)程的PID,因此想終結(jié)其中一個(gè),只要執(zhí)行命令:
- kill PID
其中PID是相關(guān)進(jìn)程的進(jìn)程ID。因此,如果你想終終結(jié)淪為僵尸的thunderbird進(jìn)程(其PID是20589),命令是:
- kill 20589
就是這樣。
你完全可以編寫(xiě)一個(gè)bash腳本來(lái)自動(dòng)處理這項(xiàng)任務(wù),不過(guò)可能會(huì)殺死必要進(jìn)程。由于存在這個(gè)風(fēng)險(xiǎn),我總是建議你手動(dòng)處理此任務(wù)。考慮到我們面對(duì)的是生產(chǎn)級(jí)數(shù)據(jù)中心服務(wù)器(不過(guò)我在桌面系統(tǒng)上進(jìn)行了演示),尤其應(yīng)該這樣。
如果你發(fā)現(xiàn)服務(wù)和應(yīng)用程序崩潰,應(yīng)該檢查有無(wú)僵尸進(jìn)程,并終結(jié)它們。一旦你知道了哪些進(jìn)程是僵尸進(jìn)程,應(yīng)提交錯(cuò)誤報(bào)告,或者聯(lián)系并告知開(kāi)發(fā)人員(如果應(yīng)用程序常常崩潰,更應(yīng)如此)。
原文標(biāo)題:How to find and kill zombie processes on your Linux data center servers,作者:Jack Wallen
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】