從操作系統(tǒng)的IO模型入手,全面搞懂Java的IO實現(xiàn),告別懵圈
最近正好不知道寫什么,有粉絲朋友私信說對IO這塊迷迷糊糊的,面試也說不好,所以決定做一系列的IO內(nèi)容,這是第一篇,先來輸出一波理論,后邊再根據(jù)不同的IO模型使用不同的API實現(xiàn)一下,看看區(qū)別,再說一說常用的中間件的IO是怎么實現(xiàn)的,本章主要包含:
- 什么是IO,只是文件的讀和寫嗎?
- IO在計算機中都是怎么實現(xiàn)的,原理是什么
- Java作為一個跨平臺語言,提供了哪些IO模型屏蔽對底層系統(tǒng)細(xì)節(jié)
講道理這篇文章寫完自己也是頗有收獲,建議收藏反復(fù)觀看,不錯的話記得【三連】哦
IO是什么
計算機的IO可以淺顯的理解為輸入【Input】和輸出【Output】,通過IO描述數(shù)據(jù)的流動傳輸,在Java技術(shù)棧中IO更是基礎(chǔ),如硬盤上的文件讀寫需要用到磁盤IO,通過Tomcat處理網(wǎng)絡(luò)請求需要設(shè)計網(wǎng)絡(luò)IO,真是由于種類繁多的IO,很多小伙伴迷迷糊糊的,剛接觸Java時我也如此,其實IO并不僅僅是文件的讀寫,Socket【通信】也存在IO操作
無論是Socket的讀寫還是文件的讀寫,在Java層面的應(yīng)用開發(fā)或者是系統(tǒng)底層開發(fā),都屬于輸入input和輸出output的處理,簡稱為IO讀寫。在原理上和處理流程上,都是一致的。區(qū)別在于參數(shù)的不同。
用戶程序?qū)ξ募M行IO的讀寫,基本上會用到read&write兩大系統(tǒng)調(diào)用??赡懿煌僮飨到y(tǒng)【如windows和Linux系統(tǒng)具體的處理不同】,名稱和實現(xiàn)方式不同,但是功能是一樣的。
IO實現(xiàn)原理
無論是讀還是寫都需要調(diào)用底層系統(tǒng)的功能,read讀取數(shù)據(jù),并不是把數(shù)據(jù)直接從物理設(shè)備讀到內(nèi)存。write寫入數(shù)據(jù),也不是直接把數(shù)據(jù)寫入到物理設(shè)備。
read系統(tǒng)調(diào)用:是把數(shù)據(jù)從內(nèi)核緩沖區(qū)復(fù)制到進程緩沖區(qū);
write系統(tǒng)調(diào)用:是把數(shù)據(jù)從進程緩沖區(qū)復(fù)制到內(nèi)核緩沖區(qū)。
這個兩個系統(tǒng)調(diào)用,都不負(fù)責(zé)數(shù)據(jù)在內(nèi)核緩沖區(qū)和磁盤之間的交換。真正與硬件交互的是由操作系統(tǒng)kernel內(nèi)核完成,需要通過操作系統(tǒng)實現(xiàn)數(shù)據(jù)的讀寫
內(nèi)核緩沖與進程緩沖區(qū)
緩沖區(qū)的目的,是為了減少頻繁的系統(tǒng)IO調(diào)用。系統(tǒng)調(diào)用需要保存之前的進程數(shù)據(jù)和狀態(tài)等信息【比如讀文件時需要知道已經(jīng)讀了多少數(shù)據(jù)啦,不要重復(fù)讀取】,而結(jié)束調(diào)用之后回來還需要恢復(fù)之前的信息,為了減少這種損耗時間、也損耗性能的系統(tǒng)調(diào)用,于是出現(xiàn)了緩沖區(qū)。
有了緩沖區(qū),操作系統(tǒng)使用read函數(shù)把數(shù)據(jù)從內(nèi)核緩沖區(qū)復(fù)制到進程緩沖區(qū),write把數(shù)據(jù)從進程緩沖區(qū)復(fù)制到內(nèi)核緩沖區(qū)中。等待緩沖區(qū)達(dá)到一定數(shù)量的時候,再進行IO的調(diào)用,提升性能。至于什么時候讀取和存儲則由內(nèi)核來決定,用戶程序不需要關(guān)心。
在linux系統(tǒng)中,系統(tǒng)內(nèi)核也有個緩沖區(qū)叫做內(nèi)核緩沖區(qū)。每個進程有自己獨立的緩沖區(qū),叫做進程緩沖區(qū)。
所以,用戶程序的IO讀寫程序,大多數(shù)情況下,并沒有進行實際的IO操作,而是在讀寫自己的進程緩沖區(qū)。
就好比村民需要到村中心水房挑水倒入自家的水缸中滿足正常生活用水需求,如果拿水瓢得一直跑來跑去,效率極低,搞個水桶當(dāng)做緩沖區(qū),每次用水瓢把水桶盛滿【緩沖區(qū)到達(dá)極限】,再拎著水桶回家將水倒入水缸【系統(tǒng)內(nèi)核】
BIO【Blocking IO】
在linux系統(tǒng)的Java進程中,默認(rèn)情況下所有的socket都是blocking IO。是一種阻塞式 I/O 模型,應(yīng)用程序從系統(tǒng)開始執(zhí)行IO,一直到系統(tǒng)結(jié)束調(diào)用返回,這段時間是阻塞的。返回成功后,應(yīng)用進程開始處理用戶空間的緩存數(shù)據(jù)
發(fā)起一個blocking socket的read讀操作系統(tǒng)調(diào)用,流程大概是這樣:
1、當(dāng)用戶線程調(diào)用read,內(nèi)核(kernel)就開始了IO的第一個階段:準(zhǔn)備數(shù)據(jù)。很多時候,數(shù)據(jù)在一開始還沒有到達(dá)(比如,還沒有收到一個完整的Socket數(shù)據(jù)包),這個時候kernel就要等待足夠的數(shù)據(jù)到來;
2、當(dāng)kernel一直等到數(shù)據(jù)準(zhǔn)備好了,它就會將數(shù)據(jù)從kernel內(nèi)核緩沖區(qū),拷貝到用戶緩沖區(qū)(用戶內(nèi)存),然后kernel返回結(jié)果;
3、從開始IO讀的read系統(tǒng)調(diào)用開始,用戶線程就進入阻塞狀態(tài)。一直到kernel返回結(jié)果后,用戶線程才解除block的狀態(tài),重新運行起來;
所以,blocking IO的特點就是在內(nèi)核進行IO執(zhí)行的兩個階段,用戶線程都被阻塞。
BIO的優(yōu)點:程序簡單,在阻塞等待數(shù)據(jù)期間,用戶線程掛起。用戶線程基本不會占用 CPU 資源。
BIO的缺點:一般情況下,會為每個連接配套一條獨立線程,或者說一條線程維護一個連接成功的IO流的讀寫。在并發(fā)量小的情況下沒有什么問題。但是,當(dāng)在高并發(fā)的場景下,需要大量的線程來維護大量的網(wǎng)絡(luò)連接,內(nèi)存、線程切換開銷會非常巨大。因此,BIO模型在高并發(fā)場景下基本不可用
NIO【non-blocking IO】
在linux系統(tǒng)下,可以通過設(shè)置socket使其變?yōu)閚on-blocking。NIO模型中應(yīng)用程序一旦開始IO調(diào)用,會出現(xiàn)以下兩種情況:
1、在內(nèi)核緩沖區(qū)沒有數(shù)據(jù)的情況下,系統(tǒng)調(diào)用會立即返回,返回一個調(diào)用失敗的信息。
2、在內(nèi)核緩沖區(qū)有數(shù)據(jù)的情況下,是阻塞的,直到數(shù)據(jù)從內(nèi)核緩沖復(fù)制到用戶進程緩沖。復(fù)制完成后,系統(tǒng)調(diào)用返回成功,應(yīng)用進程開始處理用戶空間的緩存數(shù)據(jù)。
發(fā)起一個non-blocking socket的read讀操作系統(tǒng)調(diào)用,流程是這個樣子:
1、在內(nèi)核數(shù)據(jù)沒有準(zhǔn)備好的階段,用戶線程發(fā)起IO請求時,立即返回。用戶線程需要不斷地發(fā)起IO系統(tǒng)調(diào)用;
2、內(nèi)核數(shù)據(jù)到達(dá)后,用戶線程發(fā)起系統(tǒng)調(diào)用,用戶線程阻塞。內(nèi)核開始復(fù)制數(shù)據(jù)。它就會將數(shù)據(jù)從kernel內(nèi)核緩沖區(qū),拷貝到用戶緩沖區(qū)(用戶內(nèi)存),然后kernel返回結(jié)果;
3、用戶線程才解除block的狀態(tài),重新運行起來。經(jīng)過多次的嘗試,用戶線程終于真正讀取到數(shù)據(jù),繼續(xù)執(zhí)行。
NIO的特點:應(yīng)用程序的線程需要不斷的進行 I/O 系統(tǒng)調(diào)用,輪詢判斷數(shù)據(jù)是否已經(jīng)準(zhǔn)備好,如果沒有準(zhǔn)備好,繼續(xù)輪詢,直到完成系統(tǒng)調(diào)用為止。
NIO的優(yōu)點:每次發(fā)起的 IO 系統(tǒng)調(diào)用,在內(nèi)核的等待數(shù)據(jù)過程中可以立即返回。用戶線程不會阻塞,實時性較好。
NIO的缺點:需要不斷的重復(fù)發(fā)起IO系統(tǒng)調(diào)用,這種不斷的輪詢,將會不斷地詢問內(nèi)核,這將占用大量的 CPU 時間,系統(tǒng)資源利用率較低。
總之,這種NIO模型在高并發(fā)場景下也是不可用的。一般 Web 服務(wù)器不使用這種 IO 模型。而是在其他IO模型中使用非阻塞IO這一特性。Java的實際開發(fā)中,也不會涉及這種IO模型。
注意:Java NIO【New IO】 不是IO模型中的NIO模型,而是另外的一種模型,叫做IO多路復(fù)用模型【IO multiplexing 】。
IO多路復(fù)用模型【I/O multiplexing】
如何避免同步非阻塞NIO模型中輪詢等待的問題呢?這就是IO多路復(fù)用模型。也就是Java NIO的實現(xiàn)模型
IO多路復(fù)用模型,就是一個進程可以監(jiān)視多個文件描述符,一旦某個描述符就緒【一般是內(nèi)核緩沖區(qū)可讀/可寫】,內(nèi)核kernel能夠通知程序進行相應(yīng)的IO系統(tǒng)調(diào)用。
目前支持IO多路復(fù)用的系統(tǒng)調(diào)用,有 select,epoll等等。select系統(tǒng)調(diào)用,是目前幾乎在所有的操作系統(tǒng)上都有支持,具有良好跨平臺特性。epoll是在linux 2.6內(nèi)核中提出的,是select系統(tǒng)調(diào)用的linux增強版本。
IO多路復(fù)用模型的基本原理就是select/epoll系統(tǒng)調(diào)用,單個線程不斷的輪詢select/epoll系統(tǒng)調(diào)用所負(fù)責(zé)的成百上千的socket連接,當(dāng)某個或者某些socket網(wǎng)絡(luò)連接有數(shù)據(jù)到達(dá)了,就返回這些可以讀寫的連接。因此,好處就是通過一次select/epoll系統(tǒng)調(diào)用,就查詢到到可以讀寫的一個甚至是成百上千的網(wǎng)絡(luò)連接。
發(fā)起一個多路復(fù)用IO的的read讀操作系統(tǒng)調(diào)用,流程是這個樣子:
在這種模式中,首先不是進行read系統(tǒng)調(diào)動,而是進行select/epoll系統(tǒng)調(diào)用。當(dāng)然,這里有一個前提,需要將目標(biāo)網(wǎng)絡(luò)連接,提前注冊到select/epoll的可查詢socket列表中。然后,才可以開啟整個的IO多路復(fù)用模型的讀流程。
1、進行select/epoll系統(tǒng)調(diào)用,查詢可以讀的連接。kernel會查詢所有select的可查詢socket列表,當(dāng)任何一個socket中的數(shù)據(jù)準(zhǔn)備好了,select就會返回。當(dāng)用戶進程調(diào)用了select,那么整個線程會被阻塞掉;
2、用戶線程獲得了目標(biāo)連接后,發(fā)起read系統(tǒng)調(diào)用,用戶線程阻塞,內(nèi)核開始復(fù)制數(shù)據(jù),它就會將數(shù)據(jù)從kernel內(nèi)核緩沖區(qū),拷貝到用戶緩沖區(qū)【用戶內(nèi)存】,然后kernel返回結(jié)果;
3、用戶線程解除阻塞狀態(tài),用戶線程終于真正讀取到數(shù)據(jù),繼續(xù)執(zhí)行。
多路復(fù)用IO的特點:IO多路復(fù)用模型,建立在操作系統(tǒng)kernel內(nèi)核能夠提供的多路分離系統(tǒng)調(diào)用select/epoll基礎(chǔ)之上的。多路復(fù)用IO需要用到兩個系統(tǒng)調(diào)用【system call】, 一個select/epoll查詢調(diào)用,一個是IO的讀取調(diào)用。
和NIO模型相似,多路復(fù)用IO需要輪詢。負(fù)責(zé)select/epoll查詢調(diào)用的線程,需要不斷的進行select/epoll輪詢,查找出可以進行IO操作的連接。
另外,多路復(fù)用IO模型與前面的NIO模型,是有關(guān)系的。對于每一個可以查詢的socket,一般都設(shè)置成為non-blocking模型。只是這一點,對于用戶程序是透明的。
多路復(fù)用IO的優(yōu)點:用select/epoll的優(yōu)勢在于,它可以同時處理成千上萬個連接。與一條線程維護一個連接相比,I/O多路復(fù)用技術(shù)的最大優(yōu)勢是:系統(tǒng)不必創(chuàng)建線程,也不必維護這些線程,從而大大減小了系統(tǒng)的開銷。
Java的NIO技術(shù),使用的就是IO多路復(fù)用模型。在linux系統(tǒng)上,使用的是epoll系統(tǒng)調(diào)用。
多路復(fù)用IO的缺點:本質(zhì)上,select/epoll系統(tǒng)調(diào)用,屬于同步IO,也是阻塞IO。都需要在讀寫事件就緒后,自己負(fù)責(zé)進行讀寫,也就是說這個讀寫過程是阻塞的。
如何充分的解除線程的阻塞呢?那就是異步IO模型。
AIO【Asynchronous IO】
如何進一步提升效率,解除最后一點阻塞呢?這就是異步IO模型,全稱asynchronous I/O,簡稱為AIO。
AIO的基本流程是:用戶線程通過系統(tǒng)調(diào)用,告知kernel內(nèi)核啟動某個IO操作,用戶線程返回。kernel內(nèi)核在整個IO操作【包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)復(fù)制】完成后,通知用戶程序,用戶執(zhí)行后續(xù)的業(yè)務(wù)操作。
kernel的數(shù)據(jù)準(zhǔn)備是將數(shù)據(jù)從網(wǎng)絡(luò)物理設(shè)備【網(wǎng)卡】讀取到內(nèi)核緩沖區(qū);kernel的數(shù)據(jù)復(fù)制是將數(shù)據(jù)從內(nèi)核緩沖區(qū)拷貝到用戶程序空間的緩沖區(qū)。
1、當(dāng)用戶線程調(diào)用了read系統(tǒng)調(diào)用,立刻就可以開始去做其它的事,用戶線程不阻塞;
2、kernel內(nèi)核就開始了IO的第一個階段:準(zhǔn)備數(shù)據(jù)。當(dāng)kernel一直等到數(shù)據(jù)準(zhǔn)備好了,它就會將數(shù)據(jù)從kernel內(nèi)核緩沖區(qū),拷貝到用戶緩沖區(qū);
3、kernel會給用戶線程發(fā)送一個信號【事件】,或者回調(diào)用戶線程注冊的回調(diào)接口,告訴用戶線程read操作完成了;
4、用戶線程讀取用戶緩沖區(qū)的數(shù)據(jù),完成后續(xù)的業(yè)務(wù)操作。
異步IO模型的特點:在內(nèi)核kernel的等待數(shù)據(jù)和復(fù)制數(shù)據(jù)的兩個階段,用戶線程都不是阻塞的。用戶線程需要接受kernel的IO操作完成的事件,或者說注冊IO操作完成的回調(diào)函數(shù),到操作系統(tǒng)的內(nèi)核。所以說,異步IO有的時候,也叫做信號驅(qū)動 IO 。
異步IO模型缺點:需要完成事件的注冊與傳遞,這里邊需要底層操作系統(tǒng)提供大量的支持,去做大量的工作。
目前來說, Windows 系統(tǒng)下通過 IOCP 實現(xiàn)了真正的異步 I/O。但是,就目前的業(yè)界形式來說,Windows 系統(tǒng)很少作為百萬級以上或者說高并發(fā)應(yīng)用的服務(wù)器操作系統(tǒng)來使用。
而在 Linux 系統(tǒng)下,異步IO模型在2.6版本才引入,目前并不完善。所以這也是在 Linux 下,實現(xiàn)高并發(fā)網(wǎng)絡(luò)編程時都是以 IO 復(fù)用模型模式為主。
這里介紹完了IO的幾種基礎(chǔ)模型,接下來解釋一下同步異步,阻塞非阻塞的概念之后進而說明Java中的IO實現(xiàn)
同步與異步
- 同步【synchronous】: 同步是一種可靠的有序運行機制,任務(wù)需要一個一個執(zhí)行。
- 異步【asynchronous】: 異步就需要等待上一個任務(wù)執(zhí)行完畢,可以依靠事件、回調(diào)等機制執(zhí)行
同步和異步的最大區(qū)別在于:異步不需要等待處理結(jié)果,被調(diào)用者會通過回調(diào)等機制來通知調(diào)用者其返回結(jié)果。
阻塞和非阻塞
- 阻塞【Blocking】: 阻塞就是發(fā)起一個請求,調(diào)用者一直等待請求結(jié)果返回,也就是當(dāng)前線程會被掛起,無法從事其他任務(wù),只有當(dāng)條件就緒才能繼續(xù)。
- 非阻塞:【Non Blocking】 非阻塞就是發(fā)起一個請求,調(diào)用者不用等著結(jié)果返回,可以先去干其他事情。
通過生活中燒水的例子解釋一下同步阻塞、同步非阻塞、異步阻塞、異步非阻塞代表什么?
燒水需要一個人【張三】和一個水壺
同步阻塞:張三用比較落后的水壺在爐子上燒水,因為安全起見,燒水過程中張三等待不做其他任何事情【阻塞】,水開之后張三為了不浪費燃料,手動將火關(guān)掉【同步】;
同步非阻塞:張三發(fā)現(xiàn)水開的時候有滋滋滋聲,點火之后就去看電視了【非阻塞】,聽到水開之后,回來將火關(guān)掉【同步】;
此處發(fā)現(xiàn):同步就是需要手動進行下一步操作,阻塞與非阻塞的區(qū)別就在于就是在執(zhí)行任務(wù)時是否需要等待完成
異步阻塞:張三使用了先進的電熱水壺,水開之后會自動關(guān)閉【異步】,但是這哥們不放心科技產(chǎn)品,非要等著水燒好水壺自己斷電才行【阻塞】
異步非阻塞:時間久了之后張三發(fā)現(xiàn)產(chǎn)品沒有問題,每次都可以正常斷電,他就把電通上之后就去忙其他事情【非阻塞】,水燒開之后,電水壺自動跳電【異步】
此處發(fā)現(xiàn):異步是根據(jù)水壺根據(jù)水是否燒開的事件來觸發(fā)斷電這個流程,而非手動調(diào)用斷電
Java中的BIO,NIO,AIO
Java 中的 BIO、NIO和 AIO 理解為是 Java 語言對上述所介紹的操作系統(tǒng)的各種 IO 模型的封裝。在使用這些 API 的時候,不需要關(guān)心操作系統(tǒng)層面的知識,也不需要根據(jù)不同操作系統(tǒng)編寫不同的代碼。只需要使用Java的API就可以了。我們首先了解一下Java中各種IO的特點和演進之路
IO
I/O是Input和Output的簡寫,Input對應(yīng)的是輸入,Output對應(yīng)的是輸出,可以理解為依靠什么模式來完成數(shù)據(jù)的發(fā)送和接收,很大程度上決定了數(shù)據(jù)傳輸?shù)男阅?/p>
對于計算機來說,鍵盤打字屬于將字符輸入到計算機內(nèi),點擊鼠標(biāo)將信號輸入到計算機內(nèi),這屬于輸入。顯示器是將文字,圖像顯示出來,音響將聲音播放出來這屬于輸出。
Java具體實現(xiàn)的IO有三種:BIO、NIO、AIO
BIO
BIO是Java的第一代IO模型,Blocking Input Output的縮寫,是一種同步阻塞型IO,服務(wù)器實現(xiàn)模式為一個連接一個線程,即客戶端有連接請求時服務(wù)器端就需要啟動一個線程進行處理,如果這個連接不作任何事情會造成不必要的線程開銷
也就是一次輸入或者輸出操作必須等待它完成之后才會繼續(xù)向下運行其他的操作,如果一個輸入或者輸出操作需要很長的時間,比如要上傳一個5G的文件,需要等待上傳完才能繼續(xù)執(zhí)行其他操作,這會造成不必要的時間浪費
NIO
Java 1.4中引入了NIO,也就是Java的第二代IO模型,有人稱之為Non-blocking IO,也有的人稱為New IO,它是一種多路復(fù)用的同步非阻塞IO模型,對應(yīng)上邊的第三種IO模型
多路復(fù)用:指的就是用同一個線程處理大量連接
多路:指的就是大量連接
復(fù)用:指的就是復(fù)用線程,使用一個線程來進行處理
服務(wù)器實現(xiàn)模式為一個線程處理多個請求(連接),即客戶端發(fā)送的連接請求會被注冊到多路復(fù)用器上,多路復(fù)用器輪詢到有 I/O 請求就會進行處理。
AIO
Java 7中引入AIO,是Asynchronous Input Output的縮寫,可以稱之為NIO第二代,是一種異步非阻塞IO模型,異步IO模型是基于事件和回調(diào)機制實現(xiàn)的,當(dāng)應(yīng)用發(fā)起調(diào)用請求之后會直接返回不會阻塞在那里,當(dāng)后臺進行數(shù)據(jù)處理完成后,操作系統(tǒng)便會通知對應(yīng)的線程來進行后續(xù)的數(shù)據(jù)處理。
從效率上來看,AIO 無疑是最高的,然而,美中不足的是目前作為廣大服務(wù)器使用的系統(tǒng) linux 對 AIO 的支持還不完善,導(dǎo)致我們還不能愉快的使用 AIO 這項技術(shù),Netty實際也是使用過AIO技術(shù),但是實際并沒有帶來很大的性能提升,目前還是基于Java NIO實現(xiàn)。