用C語言實(shí)現(xiàn)Linux 下幾個(gè)文件操作命令
本文章中的示例代碼是在 CentOS 5.4 64 位環(huán)境下運(yùn)行通過的,在其它 unix 系統(tǒng)上沒有測試過。
Linux 操作系統(tǒng)中的命令實(shí)際上是編譯好的可執(zhí)行程序,比如說 ls 這個(gè)命令,這個(gè)文件位于 /bin 目錄下面,當(dāng)我們用 file /bin/ls 命令查看的時(shí)候會(huì)有以下輸出:
[root@localhost ~]# file /bin/ls /bin/ls: ELF 64-bit LSB executable, AMD x86-64, version 1 (SYSV), for GNU/Linux 2.6.9, dynamically linked (uses shared libs), for GNU/Linux 2.6.9, stripped
這個(gè)命令通過調(diào)用 stat 系統(tǒng)調(diào)用和 /usr/share/file/magic.mgc 文件來決定文件的類型。如上的 /bin/ls 是一個(gè) ELF 格式的動(dòng)態(tài)鏈接的 64 位的可執(zhí)行文件。
系統(tǒng)調(diào)用是用戶程序和操作系統(tǒng)內(nèi)核之間的接口,我們可以使用操作系統(tǒng)提供的系統(tǒng)調(diào)用來請求分配資源和服務(wù)。我們可以通過 man 2 章節(jié)來查找 Linux 提供的系統(tǒng)調(diào)用的具體使用方法。有關(guān)文件操作的常見系統(tǒng)調(diào)用命令有:open、creat、close、read、write、lseek、opendir、readdir、mkdir、stat 等等。
cp 命令的實(shí)現(xiàn)
cp 命令的模擬實(shí)現(xiàn)
大家也都知道 cp 這個(gè)命令主要的作用就是把一個(gè)文件從一個(gè)位置復(fù)制到另一個(gè)位置。比如現(xiàn)在 /root 目錄下有一個(gè) test.txt 文件,如果我們用 cp test.txt test2.txt 命令的話,在同一個(gè)目錄下面就會(huì)生成一個(gè)同樣內(nèi)容的 test2.txt 文件了。
那么 cp 命令是怎么實(shí)現(xiàn)的呢,我們看如下代碼:
清單 1. cp 命令實(shí)現(xiàn)代碼
#include #include #include #include #define BUFFERSIZE 4096 #define COPYMODE 0644 void oops(char *, char *); main(int argc, char * argv[]) { int in_fd, out_fd, n_chars; char buf[BUFFERSIZE]; if ( argc != 3 ){ fprintf( stderr, "usage: %s source destination\n", *argv); exit(1); } if ( (in_fd=open(argv[1], O_RDONLY)) == -1 ){ oops("Cannot open ", argv[1]); } if ( (out_fd=creat( argv[2], COPYMODE)) == -1 ){ oops( "Cannot creat", argv[2]); } while ( (n_chars = read(in_fd , buf, BUFFERSIZE)) > 0 ){ if ( write( out_fd, buf, n_chars ) != n_chars ){ oops("Write error to ", argv[2]); } } if ( n_chars == -1 ){ oops("Read error from ", argv[1]); } if ( close(in_fd) == -1 || close(out_fd) == -1 ) oops("Error closing files",""); } void oops(char *s1, char *s2) { fprintf(stderr,"Error: %s ", s1); perror(s2); exit(1); }
該程序的主要實(shí)現(xiàn)思想是:打開一個(gè)輸入文件,創(chuàng)建一個(gè)輸出文件,建立一個(gè) BUFFERSIZE 大小的緩沖區(qū);然后在判斷輸入文件未完的循環(huán)中,每次讀入多少就向輸出文件中寫入多少,直到輸入文件結(jié)束。
cp 命令實(shí)現(xiàn)的說明
讓我來詳細(xì)的講述一下這個(gè)程序:
·開頭四行包含了 4 個(gè)頭文件, 文件包含了 fprintf、perror 的函數(shù)原型定義; 文件包含了 read、write 的函數(shù)原型定義; 文件包含了 open、creat 的函數(shù)原型定義、 文件包含了 exit 的函數(shù)原型定義。這些函數(shù)原型有些是系統(tǒng)調(diào)用、有些是庫函數(shù),通常都可以在 /usr/include 目錄中找到這些頭文件。
·接下來的 2 行以宏定義的方式定義了 2 個(gè)常量。BUFFERSIZE 用來表示緩沖區(qū)的大小、COPYMODE 用來定義創(chuàng)建文件的權(quán)限。
·接下來的一行定義了一個(gè)函數(shù)原型 oops,該函數(shù)的具體定義在最后出現(xiàn),用來輸出出錯(cuò)信息到 stderr,也就是標(biāo)準(zhǔn)錯(cuò)誤輸出的文件流。
·接下來主程序開始。首先定義了 2 個(gè)文件描述符、一個(gè)存放讀出字節(jié)數(shù)的變量 n_chars、和一個(gè) BUFFERSIZE 大小的字符數(shù)組用來作為拷貝文件的緩沖區(qū)。
·接下來判斷輸入?yún)?shù)的個(gè)數(shù)是否為 3,也就是程序名 argv[0]、拷貝源文件 argv[1]、目標(biāo)文件 argv[2]。不為 3 的話就輸出錯(cuò)誤信息到 stderr,然后退出程序。
·接下來的 2 行,用 open 系統(tǒng)調(diào)用以 O_RDONLY 只讀模式打開拷貝源文件,如果打開失敗就輸出錯(cuò)誤信息并退出。如果想了解文件打開模式的詳細(xì)內(nèi)容請使用命令 man 2 open,來查看幫助文檔。
·接下來的 2 行,用 creat 系統(tǒng)調(diào)用以 COPYMODE 的權(quán)限建立一個(gè)文件,如果建立失敗函數(shù)的返回值為 -1 的話,就輸出錯(cuò)誤信息并退出。
·接下來的循環(huán)是拷貝的主要過程。它從輸入文件描述符 in_fd 中,讀入 BUFFERSIZE 字節(jié)的數(shù)據(jù),存放到 buf 字符數(shù)組中。在正常讀入的情況下,read 函數(shù)返回實(shí)際讀入的字節(jié)數(shù),也就是說只要沒有異常情況和文件沒有讀到結(jié)尾,那么 n_chars 中存放的就是實(shí)際讀出的字節(jié)的數(shù)字。然后 write 函數(shù)將從 buf 緩沖區(qū)中,讀出 n_chars 個(gè)字符,寫入 in_out 輸出文件描述符。由于 write 系統(tǒng)調(diào)用返回的是實(shí)際寫入成功的字節(jié)數(shù)。所以當(dāng)讀出 N 個(gè)字符,又成功寫入 N 個(gè)字符到輸出文件描述符中去的時(shí)候,就表示寫成功了,否則就報(bào)告寫入錯(cuò)誤。
·最后就是用 close 系統(tǒng)調(diào)用關(guān)閉打開的輸入和輸出文件描述符。#p#
rm 命令的實(shí)現(xiàn)
rm 命令的模擬實(shí)現(xiàn)
rm 命令主要是用來刪除一個(gè)文件。
該命令的實(shí)現(xiàn)代碼如下:
清單 2. rm 命令代碼
#include #include #include int main(int argc , char * argv[]) { int rt; if(argc != 2){ exit(2); }else{ if((rt = unlink(argv[1])) != 0){ fprintf(stderr,"error."); exit(3); } } return 0; }
其中程序的關(guān)鍵是 unlink 系統(tǒng)調(diào)用,unlink 函數(shù)原型包含在 頭文件里面。
用 strace 來跟蹤命令
我們從這個(gè)程序的創(chuàng)建過程來分析這個(gè)程序。
這個(gè)命令的模擬程序是怎么寫出來的呢?
首先,我們可以在機(jī)器上 touch test 建立一個(gè) test 文件,然后調(diào)用 strace rm test 命令來查看 rm 命令具體使用了那些系統(tǒng)調(diào)用。
通過查看,我們看到主要使用的系統(tǒng)調(diào)用如下:
[root@localhost aa]# strace rm test execve("/bin/rm", ["rm", "test"], [/* 24 vars */]) = 0 brk(0) = 0xcc66000 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x2aff83ffb000 uname({sys="Linux", node="localhost.localdomain", ...}) = 0 ... ... lstat("test", {st_mode=S_IFREG|0644, st_size=0, ...}) = 0 stat("test", {st_mode=S_IFREG|0644, st_size=0, ...}) = 0 geteuid() = 0 getegid() = 0 getuid() = 0 getgid() = 0 access("test", W_OK) = 0 unlink("test") = 0 close(1) = 0 exit_group(0) = ?
我們可以看到起主要作用的就是 unlink(“test”) 這個(gè)系統(tǒng)調(diào)用。
讓我們來分析一下這些輸出的含義:
·首先第一行 execve 系統(tǒng)調(diào)用。該系統(tǒng)調(diào)用執(zhí)行參數(shù)“/bin/rm”中的程序(以 #! 開頭的可執(zhí)行腳本也可以),后面第一個(gè)方括號(hào)中表示執(zhí)行的參數(shù),第二個(gè)方括號(hào)中表示執(zhí)行的環(huán)境變量。
·接下來的 brk 和 mmap 命令,主要是用來給可執(zhí)行命令分配內(nèi)存空間。
·后面的 lstat 系統(tǒng)調(diào)用用來確定文件的 mode 信息,包括文件的類型和權(quán)限,文件大小等等。
·然后 access 系統(tǒng)調(diào)用檢查當(dāng)前用戶進(jìn)程對于 test 文件的寫入訪問權(quán)限。這里返回值為 0 也就是說進(jìn)程對于 test 文件有寫入的權(quán)限。
·最后調(diào)用 unlink 系統(tǒng)調(diào)用刪除文件。
這里如果我們建立一個(gè)目錄 test1,然后用 rm test1 去刪除這個(gè)目錄會(huì)有什么結(jié)果呢?
我們看到有如下輸出:
rm: cannot remove `test1': Is a directory
這時(shí)我們用 strace 命令來追蹤一下,發(fā)現(xiàn)輸出主要是如下不同。
unlink("test") = -1 EISDIR (Is a directory)
這里說明了刪除不掉的原因是 unlink 系統(tǒng)調(diào)用報(bào)錯(cuò),unlink 它認(rèn)為 test 是一個(gè)目錄,不予處理。
那么怎么刪除一個(gè)目錄呢?應(yīng)該是用 rmdir 系統(tǒng)調(diào)用,這樣就不會(huì)出現(xiàn)上述的問題了。#p#
mkdir 命令的實(shí)現(xiàn)
mkdir 命令的模擬實(shí)現(xiàn)
再讓我們來看看 mkdir 的實(shí)現(xiàn)。
完整的代碼如下:
清單 3. mkdir 實(shí)現(xiàn)代碼
#include #include #include int main(int argc, char *argv[]){ int rt; if( (rt = mkdir (argv[1],10705)) == -1 ){ fprintf(stderr,"cannot mkdir"); } return 0; }
這段代碼也比較簡單,我這里就不逐行解釋了,主要說以下幾點(diǎn):
首先 mkdir 函數(shù)是定義于 和 頭文件之中的。
而 fprintf 函數(shù)是位于 文件之中的。
mkdir 的函數(shù)原型如下:
int mkdir(const char *pathname, mode_t mode);
mode 聲明為 mode_t 類型。
那么 mode_t 數(shù)據(jù)類型是什么數(shù)據(jù)類型,應(yīng)該從哪個(gè)文件去查看它的定義呢?
mode_t 數(shù)據(jù)類型究竟是什么類型
讓我們逐步查找一下。
首先從文件 /usr/include/sys/stat.h 中找到 mode_t 類型
/usr/include/sys/stat.h -> typedef __mode_t mode_t;
說明 mode_t 只是對 __mode_t 的一種定義。
然后從 /usr/include/bits/types.h 中找到 __mode_t 類型
/usr/include/bits/types.h -> __STD_TYPE __MODE_T_TYPE __mode_t;
說明 __mode_t 也只是對 __MODE_T_TYPE 的一種定義。
/usr/include/bits/typesizes.h -> #define __MODE_T_TYPE __U32_TYPE
說明 __MODE_T_TYPE 是對 __U32_TYPE 的一種定義。
/usr/include/bits/types.h -> #define __U32_TYPE unsigned int
最后 __U32_TYPE 是一種無符號(hào)的整數(shù)的定義。
從上述推導(dǎo)可以看出,mode_t 實(shí)際上也就是一種無符號(hào)整數(shù)。
另外如下結(jié)構(gòu) struct stat 定義中的 st_mode 成員變量也是使用的 mode_t 類型的變量。
從 man 2 stat 中可以找到結(jié)構(gòu) struct stat 的定義,如下:
struct stat { dev_t st_dev; /* ID of device containing file */ ino_t st_ino; /* inode number */ mode_t st_mode; /* protection */ nlink_t st_nlink; /* number of hard links */ uid_t st_uid; /* user ID of owner */ gid_t st_gid; /* group ID of owner */ dev_t st_rdev; /* device ID (if special file) */ off_t st_size; /* total size, in bytes */ blksize_t st_blksize; /* blocksize for filesystem I/O */ blkcnt_t st_blocks; /* number of blocks allocated */ time_t st_atime; /* time of last access */ time_t st_mtime; /* time of last modification */ time_t st_ctime; /* time of last status change */ };
該結(jié)構(gòu)也是我們在后面的 tac 命令實(shí)現(xiàn)中需要用到的結(jié)構(gòu)體。我們需要用到結(jié)構(gòu)體中的 st_size 成員,該成員反映了被讀取的文件描述符對應(yīng)的文件的大小。#p#
tac 命令的實(shí)現(xiàn)
tac 命令的模擬實(shí)現(xiàn)
tac 命令主要用來以倒序的方式顯示一個(gè)文本文件的內(nèi)容,也就是先顯示最后一行的內(nèi)容,最后顯示第一行的內(nèi)容。代碼如下:
清單 4. tac 命令實(shí)現(xiàn)代碼
#include #include #include #include #include #include #include #include #define SIZE 1000001 #define NLINE '\n' int main(int argc , char *argv[]){ char buf[SIZE]; char *p1,*p2,*p3,*p4; struct stat *fp; int fd; fp=(struct stat *)malloc(sizeof(struct stat)); if(argc != 2){ fprintf(stderr,"input error %s \n"); exit(1); } if( (fd=open(argv[1],O_RDONLY)) == -1 ){ fprintf(stderr,"open error %s \n",strerror(errno)); exit(1); } if(fstat(fd,fp)== -1){ fprintf(stderr,"fstat error %s \n",strerror(errno)); exit(2); } if(fp->st_size > (SIZE-1)){ fprintf(stderr,"buffer size is not big enough \n"); exit(3); } if(read(fd,buf,fp->st_size) == -1){ fprintf(stderr,"read error.\n"); exit(4); } p1=strchr(buf,NLINE); p2=strrchr(buf,NLINE); *p2='\0'; do{ p2=strrchr(buf,NLINE); p4=p2; p3=p2+sizeof(char); printf("%s\n",p3); *p4='\0'; }while(p2 != p1); if(p2 == p1){ *p2 = '\0'; printf("%s\n",buf); } return 0; }
讓我們來運(yùn)行一下該程序:
程序的運(yùn)行情況如下,假設(shè)編譯后的可執(zhí)行文件名為 emulatetac,有一個(gè)文本文件 test.txt。
# gcc emulatetac.c -o emulatetac # cat test.txt 1 2 3 a b # ./emulatetac test.txt b a 3 2 1
可以看出文件內(nèi)容以倒序方式顯示輸出了。
tac 命令實(shí)現(xiàn)的說明
下面逐行講解:
·#include 的頭文件,都應(yīng)該通過 man 2 系統(tǒng)調(diào)用命令來查找,這里就不多說了。
·下面定義了一個(gè)宏常量 SIZE,該常量主要用來表示能夠讀入最大多少個(gè)字節(jié)的文件,當(dāng)文件過大的時(shí)候程序就不執(zhí)行,直接退出。然后定義了宏常量 NLINE 表示換行符'\n'。
·接下來主程序體開始了:首先定義一個(gè)字符數(shù)組 buf,用來把讀入文件的每個(gè)字節(jié)都存在該數(shù)組里面。
·然后定義了 4 個(gè)字符串指針,一個(gè)指向結(jié)構(gòu)體 struct stat 的指針 fp,一個(gè)文件描述符。
·然后為指向結(jié)構(gòu)體的指針 fp 分配存儲(chǔ)空間。
·接下來判斷輸入?yún)?shù)是否為 2 個(gè),也就是命令本身和文件名。不是 2 個(gè)就直接退出。
·然后以只讀方式打開輸入文件名的文件,也就是 test.txt。打開成功的話,把打開的文件賦值到文件描述符 fd 中,錯(cuò)誤的話退出。
·然后用 fstat 系統(tǒng)調(diào)用把文件描述符 fd 中對應(yīng)文件的元信息,存放到結(jié)構(gòu)體指針 fp 指向的結(jié)構(gòu)中。
·下面判斷當(dāng)文件的大小超過緩沖區(qū)數(shù)組 buf 的大小 SIZE-1 時(shí),就退出。
·下面將把文件 test.txt 中的每個(gè)字符存放到數(shù)組 buf 中。
·下面是程序的核心部分:首先我們找到字符串 buf 中的第一個(gè)換行字符存放到 p1 指針里面,然后把最后一個(gè)換行字符置為字符串結(jié)束符。
·接下來我們從后往前查找字符串 buf 中的換行符,直到遇到第一個(gè)換行符 p1。同時(shí)打印每個(gè)找到的換行符'\n'中的下一個(gè)字符開始的字符串,也就剛好是一行文本。
·最后當(dāng)從后向前找到第一個(gè)換行字符時(shí),打印第一行,程序結(jié)束。#p#
df 命令的實(shí)現(xiàn)
df 命令的模擬實(shí)現(xiàn)
通過 strace 命令查看 df 主要使用了如下的系統(tǒng)調(diào)用:open、fstat、read、statfs
我這里實(shí)際上是模擬實(shí)現(xiàn)的 df --block-size=4096 這個(gè)命令,也就是說以 4096 字節(jié)為塊大小來顯示磁盤使用情況。
這里最為關(guān)鍵的是 statfs 這個(gè)結(jié)構(gòu)體,該結(jié)構(gòu)體的某些字段被用作 df 命令的輸出字段:
struct statfs { long f_type; /* type of filesystem (see below) */ long f_bsize; /* optimal transfer block size */ long f_blocks; /* total data blocks in file system */ long f_bfree; /* free blocks in fs */ long f_bavail; /* free blocks avail to non-superuser */ long f_files; /* total file nodes in file system */ long f_ffree; /* free file nodes in fs */ fsid_t f_fsid; /* file system id */ long f_namelen; /* maximum length of filenames */ }; 比如:df --block-size=4096 的輸出如下(縱向列出): Filesystem /dev/sda1 4K-blocks 5077005 f_blocks 字段 Used 145105 f_blocks 字段 -f_bfree 字段 Available 4669841 f_bavail 字段 Use% 4% (f_blocks-f_bfree)/ f_blocks*100% 來計(jì)算磁盤使用率。 Mounted on /
模擬實(shí)現(xiàn)的代碼如下:
清單 5. 模擬實(shí)現(xiàn)代碼
#include #include #include #include #include #include #define SIZE1 100 #define FN "/etc/mtab" #define SPACE ' ' int displayapartition(char * pt,char * pt1); int main(void){ char tmpline[SIZE1]; FILE * fp; char * pt1; char * pt2; char * pt3; if( (fp = fopen(FN,"r")) == NULL ){ fprintf(stderr,"%s \n",strerror(errno)); exit(5); } while( fgets(tmpline, SIZE1, fp) != NULL ){ pt1=strchr(tmpline, SPACE); pt2=pt1+sizeof(char); *pt1='\0'; pt3=strchr(pt2,SPACE); *pt3='\0'; if(strstr(tmpline,"/dev") != NULL ){ displayapartition(tmpline,pt2); } } return 0; } int displayapartition(char * pt,char * pt1){ struct statfs buf; statfs(pt1,&buf); int usage; usage=ceil((buf.f_blocks-buf.f_bfree)*100/buf.f_blocks); printf("%s ",pt); printf("%ld ",buf.f_blocks); printf("%ld ",buf.f_blocks-buf.f_bfree); printf("%ld ",buf.f_bavail); printf("%d%% ",usage); printf("%s ",pt1); printf("\n"); return 0; }
df 命令實(shí)現(xiàn)的說明
下面解釋一下這個(gè)程序:
·首先,該程序定義了一個(gè)函數(shù) displayapartition, 這里先定義它的函數(shù)原型。
·然后我們從主程序說起:首先定義了一個(gè) char tmpline[SIZE1] 數(shù)組,該數(shù)組用來存放從宏定義常量 FN 代表的文件中,打開后存入文件的每行記錄。
·接著定義了一個(gè)文件流指針和 3 個(gè)字符串指針。
·接下來打開文件 FN 并把結(jié)果賦值給文件流變量 fp, 如果打開失敗就退出。
·下面從打開的文件流中讀出 SIZE1 個(gè)字符到臨時(shí)數(shù)組 tmpline。比如讀出一行數(shù)據(jù)為:/dev/sda1 / ext3 rw 0 0 將把 /dev/sda1 放入數(shù)組 tmpline,把加載點(diǎn) / 放入指針 pt2,同時(shí)判斷字符串 tmpline 是否包含 /dev 字符串,這樣來判斷是否是一個(gè)磁盤文件,如果是的話就調(diào)用子函數(shù) displayapartition,不是則返回。
·子函數(shù) displayapartition 是做什么的呢?該函數(shù)接受 2 個(gè)參數(shù),一個(gè)是行 /dev/sda1 / ext3 rw 0 0 中的第一列比如:/dev/sda1 也就是實(shí)際磁盤作為 pt 指針,一個(gè)是行中的第二列比如:/ 也就是掛載點(diǎn)作為 pt1 指針。然后子函數(shù)通過 pt1 指針,讀取掛載上的文件系統(tǒng)信息到 buf 數(shù)據(jù)結(jié)構(gòu)里面。
·根據(jù)開頭介紹過的 statfs 結(jié)構(gòu)體,buf.f_blocks 表示打開的文件系統(tǒng)的總數(shù)據(jù)塊,buf.f_blocks-buf.f_bfree 表示已經(jīng)使用的數(shù)據(jù)塊,buf.f_bavail 表示非超級用戶可用的剩余數(shù)據(jù)塊,磁盤使用率就是前面列出過的計(jì)算表達(dá)式:(f_blocks- f_bfree)/ f_blocks*100%。通過子函數(shù)就可以打印出 df 需要顯示的所有信息到標(biāo)準(zhǔn)輸出了。
小結(jié)
本文依次講述了 cp、rm、mkdir、tac、df 命令的主要功能實(shí)現(xiàn)代碼,當(dāng)然每個(gè)命令還有很多參數(shù),我這個(gè)模擬實(shí)現(xiàn)代碼甚至連主要功能的很多細(xì)節(jié)都沒有實(shí)現(xiàn),比如 df 命令的輸出頭我沒有打印出來,這牽涉到打印頭和輸出格式化等很多細(xì)節(jié)。所以,從這里我們就可以推斷出,真實(shí)的源代碼肯定是考慮得非常全面、嚴(yán)謹(jǐn)和健壯的。我這里只是拋磚引玉,希望能給愛好 Linux 的朋友們提供一種理解 Linux 系統(tǒng)的思路。
原文鏈接:http://www.ibm.com/developerworks/cn/linux/l-cn-commands/index.html?ca=drs-
【編輯推薦】