漫談.NET開(kāi)發(fā)中的字符串編碼

作者：金旭亮 2010-11-25 15:59:33

本文將向讀者介紹將字符串對(duì)象的序列化，編碼方面的問(wèn)題希望能引起大家的重視，以更方便把它們保存到文件流（FileStream）中。

說(shuō)明：

在《.NET 4.0面向?qū)ο缶幊搪劇坊A(chǔ)篇《13.2.1 序列化與流》中，向大家介紹了如何向流中序列化一個(gè)對(duì)象。

本篇擴(kuò)充閱讀將向讀者介紹將字符串對(duì)象的序列化，這里面的關(guān)鍵是字符串應(yīng)該如何編碼和解碼為二進(jìn)制數(shù)值，從而可以把它們保存到文件流（FileStream）中，或者通過(guò)網(wǎng)絡(luò)流（NetworkStream）將它們遠(yuǎn)程發(fā)送到另一臺(tái)計(jì)算機(jī)上。

1 引子

在實(shí)際開(kāi)發(fā)中，經(jīng)常需要將一些字符串寫(xiě)入到文本文件中，或者從文本文件中讀入字符串，在.NET應(yīng)用程序中，通常使用StreamReader或StreamWriter兩個(gè)類(lèi)完成這一工作，比如以下代碼將fileContent字串寫(xiě)入到FileName文件中：

static void WriteFileUseStreamWriter(String fileContent, String FileName)  
{  
　　using (StreamWriter writer = new StreamWriter(FileName))  
　　{  
　　　　writer.Write(fileContent);  
　　}  
}

如果你使用.NET基類(lèi)庫(kù)中相關(guān)類(lèi)（比如StreamReader或下面用到的File類(lèi)）去讀取這個(gè)文件，你會(huì)發(fā)現(xiàn)一切如你所愿地正常運(yùn)轉(zhuǎn)：

WriteFileUseStreamWriter("中國(guó)ab", "test.txt");  
Console.WriteLine(File.ReadAllText("test.txt"));  //輸出：“中國(guó)ab”

由于多數(shù)情況下我們都工作在中文Windows下，而且往往都是某個(gè).NET程序?qū)懀硪粋€(gè).NET程序讀，所以，不少.NET程序員可能都沒(méi)注意到這其中其實(shí)存在著一個(gè)字符編碼的問(wèn)題，在特定的場(chǎng)合下，這一問(wèn)題會(huì)給我們帶來(lái)麻煩。

請(qǐng)看圖1：

圖 1 記事本支持的編碼方式

默認(rèn)情況下，Windows記事本以ANSI編碼方式保存文件。如圖1所示，如果文本內(nèi)容為“中國(guó)ab”，記事本將其以ASNI方式保存為“test.txt”，則以下代碼將“罷工”了（參看圖2）：

Console.WriteLine(File.ReadAllText("test.txt"));

圖 2 漢字將顯示為亂碼

如圖 2所示，F(xiàn)ile.ReadAllText方法打開(kāi)“test.txt”文件時(shí)，會(huì)發(fā)現(xiàn)英文字符可以正常顯示，但中文將顯示為亂碼。

2 了解字符的編碼

我們可以做個(gè)試驗(yàn)，使用記事本將“中國(guó)ab”這個(gè)中英混雜的字符串以不同編碼方式保存為多個(gè)“.txt”文件，然后直接查看其二進(jìn)制內(nèi)容

圖 3 比對(duì)字符編碼

圖 3展示了“中國(guó)ab”按四種編碼方式（ANSI、UTF8、Unicode、Unicode Big Endian）得到的不同二進(jìn)制數(shù)據(jù)。

以英文字符“a”為例，ANSI和UTF8得到的數(shù)值都是“61”，但Unicode將它擴(kuò)充為2個(gè)字節(jié)16位的二進(jìn)制（“61 00”和“00 61”），所以我們又將這種編碼方式稱(chēng)為UTF-16。

UTF-16又可以細(xì)分為2種編碼方式：Big Endian方式與Little_Edian方式，這兩者的唯一區(qū)別在于字節(jié)排列順序剛好相反， Little_Edian方式將“a”編碼為“61 00”，而B(niǎo)ig Endian方式則編碼為“00 61”。

現(xiàn)在看看中文字符，“中國(guó)”兩個(gè)漢字，ANSI編碼為“D6 D0 B9 FA”，4個(gè)字節(jié)，一個(gè)漢字占兩個(gè)字節(jié)，而UTF8則編碼為“E4 B8 AD E5 9B BD”，6個(gè)字節(jié)，一個(gè)漢字占3個(gè)字節(jié)！這說(shuō)明UTF8是一種“變長(zhǎng)”的編碼，可能使用1~4個(gè)字節(jié)來(lái)表示某個(gè)字符。

另外，我們看到UTF8和Unicode編碼（不管是Big Endian還是Little Endian）前面都有幾個(gè)標(biāo)記字符，這些字符放在文本文件的開(kāi)頭，稱(chēng)為“BOM（Byte Order Mark，字節(jié)順序標(biāo)記）”指明了文本的編碼方式，以下是.NET程序中常見(jiàn)的字符編碼方式的BOM值：

編碼	BOM值
UTF-8	EF BB BF
UTF-16 big endian	FE FF
UTF-16 little endian	FF FE
UTF-32 big endian	00 00 FE FF
UTF-32 little endian	FF FE 00 00

了解了上述基礎(chǔ)知識(shí)，我們就可以依據(jù)BOM值自動(dòng)檢測(cè)字符串的編碼方式，從而正確從二進(jìn)制數(shù)據(jù)流中解碼，以下代碼檢測(cè)文本二進(jìn)制數(shù)據(jù)是否采用UTF8編碼：

//打開(kāi)文件讀取二進(jìn)制數(shù)據(jù)  
byte[] FileContents = File.ReadAllBytes(FilePath);  
int filelength = FileContents.Length;  
//檢測(cè)BOM  
if (FileContents[0] == 0xef && FileContents[1] == 0xbb && FileContents[2] == 0xbf)  
{    
   //按UTF8解碼字符串，注意要排除掉BOM占用的3個(gè)字節(jié)。  
   String content= Encoding.UTF8.GetString( FileContents, 3, filelength - 3);  
   Console.WriteLine(content);  
}

其他的編碼方式都可以“依樣畫(huà)葫蘆”。

3 詳解.NET基類(lèi)庫(kù)中與字符編碼相關(guān)的類(lèi)

前述代碼中的Encoding類(lèi)是.NET實(shí)現(xiàn)字符編碼解碼的核心類(lèi)型。圖4展示了它的屬性：

圖 4 Encoding類(lèi)型

如圖4所示，Encoding類(lèi)型提供了UTF8、Unicode等編碼和解碼器，調(diào)用它的Get系列方法完成編碼和解碼工作，以下為示例代碼：

//編碼  
byte[] bytes = Encoding.UTF8.GetBytes("中國(guó)ab");  
foreach (byte value in bytes)  
   Console.Write(" {0}", value.ToString("x")); //轉(zhuǎn)化為16進(jìn)制  
Console.WriteLine();  
//解碼  
char[] chars = Encoding.UTF8.GetChars(bytes);  
foreach (char ch in chars)  
    Console.Write(" {0}", ch);

運(yùn)行結(jié)果如下：

圖5 編碼和解碼

需要注意的是上述二進(jìn)制值不包括BOM。

事實(shí)上，.NET中的StreamWriter默認(rèn)采用UTF8編碼格式編碼字符串，但并不將UTF8所對(duì)應(yīng)的BOM值（“EF BB BF”）寫(xiě)入到二進(jìn)制流中。以下是StreamWriter的一個(gè)構(gòu)造函數(shù)聲明：

public StreamWriter(string path) : this(path, false, UTF8NoBOM, 0x400)  
{    }

類(lèi)似地，F(xiàn)ile.ReadAllText()方法在內(nèi)部使用UTF8來(lái)讀取指定文件中的字符串：

public static string ReadAllText(string path)  
{  
    //……  
    return InternalReadAllText(path, Encoding.UTF8);  
}

由于默認(rèn)編碼方式一致，所以配套使用StreamWriter和File.ReadAllText()方法可以正確地從流中存取字符串。

出于提升代碼可維護(hù)性考慮，正確的用法應(yīng)該是明確地指明編碼方式：

static void WriteFileUseStreamWriterUseUTF8(String fileContent, String FileName)  
{  
    using (StreamWriter writer = new StreamWriter(FileName, false, Encoding.UTF8))  
    {  
                   writer.Write(fileContent);  
    }  
}

這時(shí)，StreamWriter會(huì)在文件開(kāi)頭寫(xiě)入U(xiǎn)TF8的BOM標(biāo)記，從而讓其他的應(yīng)用程序可以很明確地知道本文件中字符串的編碼方式。

4 談?wù)動(dòng)腥さ腅ncoding.Default屬性

Encoding類(lèi)中有一個(gè)有趣的Default屬性，它的類(lèi)型很奇怪，叫作“DBCSCodePageEncoding”，這個(gè)類(lèi)型在MSDN中是查不到的。

“DBCS”代表“double-byte character set（雙字節(jié)字符集）”，它是與“SBCS（single-byte character set，單字節(jié)字符集）”相對(duì)應(yīng)的，SBCS中，所有字符都只占一個(gè)字節(jié)，所以能表示的字符數(shù)有限，但在DBCS中，英文字母占一個(gè)字節(jié)，漢字等特殊字符占有兩個(gè)字節(jié)，從而擴(kuò)充了Windows能顯示的字符數(shù)量。

DBCSCodePageEncoding中的“Code Page”被稱(chēng)為“代碼頁(yè)”，每個(gè)代碼頁(yè)定義了特定的編碼將如何對(duì)應(yīng)于特定的字符（比如簡(jiǎn)體和繁體中文就分別定義在不同的代碼頁(yè)中），因此，同樣的二進(jìn)制數(shù)值，在不同的代碼頁(yè)中，會(huì)代表不同的字符。中文Windows通過(guò)使用基于代碼頁(yè)的DBCS編碼方式，可以方便地以多種編碼方式顯示和處理字符串。

我們?cè)贛SDN中可以查到所有代碼頁(yè)的編號(hào)，下面列出了可能比較常用的代碼頁(yè)標(biāo)識(shí)：

代碼頁(yè)標(biāo)識(shí)值	.NET中的名字
936	gb2312
950	big5
1200	utf-16
52936	hz-gb-2312
54936	GB18030
65000	utf-7
65001	utf-8

.NET應(yīng)用程序可以通過(guò)以下方式獲取指定代碼頁(yè)的編碼對(duì)象：

Encoding encode=Encoding.GetEncoding(CodePage);

以下代碼將按照指定代碼頁(yè)編碼字符串，并將其寫(xiě)入到文件中：

static void WriteFileUseStreamWriterUseCodePage(String fileContent,String FileName,int CodePage)  
{  
   using (StreamWriter writer = new StreamWriter(FileName, false, Encoding.GetEncoding(CodePage)))  
   {  
        writer.Write(fileContent);  
   }  
}

現(xiàn)在，使用以下代碼將按照UTF8編碼字符串：

WriteFileUseStreamWriterUseCodePage("中國(guó)ab", "test.txt", 65001);

5 結(jié)束語(yǔ)

除了本文所介紹的將字符串保存到文本文件的這種場(chǎng)景，字符串的編碼方式在基于套接字的TCP/UDP網(wǎng)絡(luò)編程也非常重要，比如.NET提供了一個(gè)NetworkStream封裝Socket實(shí)現(xiàn)網(wǎng)絡(luò)通訊，如果希望將一個(gè)命令字符串從客戶(hù)端送到服務(wù)端，服務(wù)端通過(guò)讀取這個(gè)字符串完成特定的工作，則編碼方式就很重要了，客戶(hù)端與服務(wù)端必須采用一致的編碼方式傳送命令，否則，網(wǎng)絡(luò)服務(wù)就有可能因?yàn)闊o(wú)法解析客戶(hù)端發(fā)送過(guò)來(lái)的數(shù)據(jù)而Down掉。有關(guān)網(wǎng)絡(luò)編程的內(nèi)容很有趣，我的下一篇文章會(huì)介紹.NET套接字編程。

好了，這篇介紹字符串編碼的短文寫(xiě)完了，希望本文能對(duì)讀者有所幫助，如有錯(cuò)誤，敬請(qǐng)指正。

原文鏈接：http://www.cnblogs.com/bitfan/archive/2010/11/25/1887590.html

【編輯推薦】