CPU100%,怎么快速定位?
作者 | 58沈劍
?一臺機(jī)器,CPU100%,如何找到相關(guān)服務(wù),如何定位問題代碼,今天簡單分享下思路。
假設(shè),服務(wù)器上部署了若干Java站點(diǎn)服務(wù),以及若干Java微服務(wù),突然收到運(yùn)維的CPU異常告警。?如何定位是哪個(gè)服務(wù)進(jìn)程導(dǎo)致CPU過載,哪個(gè)線程導(dǎo)致CPU過載,哪段代碼導(dǎo)致CPU過載?
簡要步驟如下:
- 找到最耗CPU的進(jìn)程;
- 找到最耗CPU的線程;
- 查看堆棧,定位線程在干嘛,定位對應(yīng)代碼;
步驟一、找到最耗CPU的進(jìn)程?
工具:top?
方法:
- 執(zhí)行top -c ,顯示進(jìn)程運(yùn)行信息列表
- 鍵入P (大寫p),進(jìn)程按照CPU使用率排序
圖示:
如上圖,最耗CPU的進(jìn)程PID為10765。
步驟二、找到最耗CPU的線程?
工具:top?
方法:
- top -Hp 10765 ,顯示一個(gè)進(jìn)程的線程運(yùn)行信息列表
- 鍵入P (大寫p),線程按照CPU使用率排序
圖示:
如上圖,進(jìn)程10765內(nèi),最耗CPU的線程PID為10804。
步驟三、查看堆棧,定位線程在干嘛,定位對應(yīng)代碼首先,將線程PID轉(zhuǎn)化為16進(jìn)制。
工具:printf?
方法:printf "%x\n" 10804
圖示:
如上圖,10804對應(yīng)的16進(jìn)制是0x2a34,當(dāng)然,這一步可以用計(jì)算器。
之所以要轉(zhuǎn)化為16進(jìn)制,是因?yàn)槎褩@铮€程id是用16進(jìn)制表示的。
接著,查看堆棧,找到線程在干嘛。
工具:jstack
方法:jstack 10765 | grep '0x2a34' -C5 --color?
- 打印進(jìn)程堆棧
- 通過線程id,過濾得到線程堆棧
圖示:
如上圖,找到了耗CPU高的線程對應(yīng)的線程名稱“AsyncLogger-1”,以及看到了該線程正在執(zhí)行代碼的堆棧。最后,根據(jù)堆棧里的信息,找到對應(yīng)的代碼,搞定!