簡析TCP協議的TIME_WAIT與CLOSE_WAIT狀態

作者：xifeijian 2015-03-27 10:18:25

網絡網絡管理

如果服務器出了異常，十之八九都是以下兩種情況：服務器保持了大量TIME_WAIT狀態；服務器保持了大量CLOSE_WAIT狀態。

一、服務器異常

如果服務器出了異常，十之八九都是以下兩種情況：

1.服務器保持了大量TIME_WAIT狀態

2.服務器保持了大量CLOSE_WAIT狀態

二、TIME_WAIT狀態

1、TIME_WAIT狀態存在的兩個理由：

1)讓4次握手關閉流程更加可靠;4次握手的***一個ACK是是由主動關閉方發送出去的，若這個ACK丟失，被動關閉方會再次發一個FIN過來。若主動關閉方能夠保持一個2MSL的TIME_WAIT狀態，則有更大的機會讓丟失的ACK被再次發送出去。

如果主動關閉端不維持TIME_WAIT狀態，而是處于CLOSED 狀態，那么當主動端ACK丟失，被動方將重發最終的FIN，而主動端將響應RST，被動端收到后將此分節解釋成一個錯誤(在java中會拋出connection reset的SocketException)。

因而，要實現TCP全雙工連接的正常終止，必須處理終止過程中四個分節任何一個分節的丟失情況，主動關閉連接的A端必須維持TIME_WAIT狀態。

2)允許老的重復分節在網絡中消逝，防止lost duplicate對后續新建正常鏈接的傳輸造成破壞。lost duplicate在實際的網絡中非常常見，經常是由于路由器產生故障，路徑無法收斂，導致一個packet在路由器A，B，C之間做類似死循環的跳轉。IP頭部有個TTL，限制了一個包在網絡中的***跳數，因此這個包有兩種命運，要么***TTL變為0，在網絡中消失;要么TTL在變為0之前路由器路徑收斂，它憑借剩余的TTL跳數終于到達目的地。但非常可惜的是TCP通過超時重傳機制在早些時候發送了一個跟它一模一樣的包，并先于它達到了目的地，因此它的命運也就注定被TCP協議棧拋棄。

另外一個概念叫做incarnation connection，指跟上次的socket pair一模一樣的新連接，叫做incarnation of previous connection。lost duplicate加上incarnation connection，則會對我們的傳輸造成致命的錯誤。

大家都知道TCP是流式的，所有包到達的順序是不一致的，依靠序列號由TCP協議棧做順序的拼接;假設一個incarnation connection這時收到的seq=1000, 來了一個lost duplicate為seq=1000, len=1000, 則tcp認為這個lost duplicate合法，并存放入了receive buffer，導致傳輸出現錯誤。通過一個2MSL TIME_WAIT狀態，確保所有的lost duplicate都會消失掉，避免對新連接造成錯誤。

2、該狀態為什么設計在主動關閉這一方：

(1)發***ack的是主動關閉一方

(2)只要有一方保持TIME_WAIT狀態，就能起到避免incarnation connection在2MSL內的重新建立，不需要兩方都有。

3、如何正確對待2MSL TIME_WAIT

RFC要求socket pair在處于TIME_WAIT時，不能再起一個incarnation connection。但絕大部分TCP實現，強加了更為嚴格的限制。在2MSL等待期間，socket中使用的本地端口在默認情況下不能再被使用。若A 10.234.5.5:1234和B 10.55.55.60:6666建立了連接，A主動關閉，那么在A端只要port為1234，無論對方的port和ip是什么，都不允許再起服務。顯而易見這是比RFC更為嚴格的限制，RFC僅僅是要求socket pair不一致，而實現當中只要這個port處于TIME_WAIT，就不允許起連接。

這個限制對主動打開方來說是無所謂的，因為一般用的是臨時端口;但對于被動打開方，一般是server，那就悲劇了，因為server一般是熟知端口。比如http一般端口是80，不可能允許這個服務在2MSL內不能起來。解決方案是給服務器的socket設置SO_REUSEADDR選項，這樣的話就算熟知端口處于TIME_WAIT狀態，在這個端口上依舊可以將服務啟動。當然，雖然有了SO_REUSEADDR選項，但sockt pair這個限制依舊存在。比如上面的例子，A通過SO_REUSEADDR選項依舊在1234端口上起了監聽，但這時我們若是從B通過6666端口去連它，TCP協議會告訴我們連接失敗，原因為Address already in use。#p#

三、CLOSE_WAIT狀態

因為linux分配給一個用戶的文件句柄是有限的，而TIME_WAIT和CLOSE_WAIT兩種狀態如果一直被保持，那么意味著對應數目的通道就一直被占著，一旦達到句柄數上限，新的請求就無法被處理了，接著應用程序可能返回大量Too Many Open Files異常。

1、Close_Wait引發的問題

Close_Wait會占用一個連接，網絡可用連接小。數量過多，可能會引起網絡性能下降，并占用系統非換頁內存。尤其是在有連接池的情況下(比如HttpRequest)

會耗盡連接池的網絡連接數，導致無法建立網絡連接。

2、解決方法

下面來討論下這兩種情況的處理方法，優化系統內核參數解決TIME_WAIT可能很容易，可以通過修改/etc/sysctl.conf文件解決;

但是應對CLOSE_WAIT的情況還是需要從程序本身出發。因為發生TIME_WAIT的情況是服務器自己可控的，要么就是對方連接的異常，要么就是自己沒有迅速回收資源，總之不是由于自己程序錯誤導致的。從上面的圖可以看出來，如果一直保持在CLOSE_WAIT狀態，那么只有一種情況，就是在對方關閉連接之后服務器程序自己沒有進一步發出FIN信號，一般原因都是TCP連接沒有調用關閉方法。換句話說，就是在對方連接關閉之后，程序里沒有檢測到，或者程序壓根就忘記了這個時候需要關閉連接，于是這個資源就一直被程序占著。這種情況，通過服務器內核參數也沒辦法解決，服務器對于程序搶占的資源沒有主動回收的權利，除非終止程序運行，一定程度上，可以使用TCP的KeepAlive功能，讓操作系統替我們自動清理掉CLOSE_WAIT連接。

責任編輯：藍雨淚來源： CSDN博客

TCP協議 CLOSE_WAIT狀態服務器異常

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

簡析TCP協議的TIME_WAIT與CLOSE_WAIT狀態