成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Unicode與JavaScript詳解

開發(fā) 前端
Unicode 源于一個很簡單的想法:將全世界所有的字符包含在一個集合里,計算機(jī)只要支持這一個字符集,就能顯示所有的字符,再也不會有亂碼了。

上個月,我做了一次分享,詳細(xì)介紹了 Unicode 字符集,以及 JavaScript 語言對它的支持。下面就是這次分享的講稿。

[[124341]]

一、Unicode 是什么?

Unicode 源于一個很簡單的想法:將全世界所有的字符包含在一個集合里,計算機(jī)只要支持這一個字符集,就能顯示所有的字符,再也不會有亂碼了。

它從 0 開始,為每個符號指定一個編號,這叫做"碼點(diǎn)"(code point)。比如,碼點(diǎn) 0 的符號就是 null(表示所有二進(jìn)制位都是0)。

  1. U+0000 = null 

上式中,U+ 表示緊跟在后面的十六進(jìn)制數(shù)是 Unicode 的碼點(diǎn)。

目前,Unicode 的***版本是 7.0 版,一共收入了 109449 個符號,其中的中日韓文字為 74500 個。可以近似認(rèn)為,全世界現(xiàn)有的符號當(dāng)中,三分之二以上來自東亞文字。比如,中文"好"的碼點(diǎn)是十六進(jìn)制的 597D。

  1. U+597D = 好 

這么多符號,Unicode 不是一次性定義的,而是分區(qū)定義。每個區(qū)可以存放 65536 個(216)字符,稱為一個平面(plane)。目前,一共有 17 個(25)平面,也就是說,整個 Unicode 字符集的大小現(xiàn)在是221。

最前面的 65536 個字符位,稱為基本平面(縮寫 BMP),它的碼點(diǎn)范圍是從 0 一直到216-1,寫成 16 進(jìn)制就是從U+0000 到U+FFFF。所有最常見的字符都放在這個平面,這是 Unicode ***定義和公布的一個平面。

剩下的字符都放在輔助平面(縮寫 SMP),碼點(diǎn)范圍從U+010000 一直到U+10FFFF。

二、UTF-32 與 UTF-8

Unicode 只規(guī)定了每個字符的碼點(diǎn),到底用什么樣的字節(jié)序表示這個碼點(diǎn),就涉及到編碼方法。

最直觀的編碼方法是,每個碼點(diǎn)使用四個字節(jié)表示,字節(jié)內(nèi)容一一對應(yīng)碼點(diǎn)。這種編碼方法就叫做 UTF-32。比如,碼點(diǎn) 0 就用四個字節(jié)的 0 表示,碼點(diǎn) 597D 就在前面加兩個字節(jié)的0。

  1. U+0000 = 0x0000 0000 
  2. U+597D = 0x0000 597D 

UTF-32 的優(yōu)點(diǎn)在于,轉(zhuǎn)換規(guī)則簡單直觀,查找效率高。缺點(diǎn)在于浪費(fèi)空間,同樣內(nèi)容的英語文本,它會比 ASCII 編碼大四倍。這個缺點(diǎn)很致命,導(dǎo)致實(shí)際上沒有人使用這種編碼方法,HTML 5 標(biāo)準(zhǔn)就明文規(guī)定,網(wǎng)頁不得編碼成 UTF-32。

[[124342]]

人們真正需要的是一種節(jié)省空間的編碼方法,這導(dǎo)致了 UTF-8 的誕生。UTF-8 是一種變長的編碼方法,字符長度從 1 個字節(jié)到 4 個字節(jié)不等。越是常用的字符,字節(jié)越短,最前面的 128 個字符,只使用 1 個字節(jié)表示,與 ASCII 碼完全相同。

編號范圍 字節(jié)
0x0000 - 0x007F 1
0x0080 - 0x07FF 2
0x0800 - 0xFFFF 3
0x010000 - 0x10FFFF 4
 

三、UTF-16 簡介

由于 UTF-8 這種節(jié)省空間的特性,導(dǎo)致它成為互聯(lián)網(wǎng)上最常見的網(wǎng)頁編碼。不過,它跟今天的主題關(guān)系不大,我就不深入了,具體的轉(zhuǎn)碼方法,可以參考我多年前寫的《字符編碼筆記》。

UTF-16 編碼介于 UTF-32 與 UTF-8 之間,同時結(jié)合了定長和變長兩種編碼方法的特點(diǎn)。

它的編碼規(guī)則很簡單:基本平面的字符占用 2 個字節(jié),輔助平面的字符占用 4 個字節(jié)。也就是說,UTF-16 的編碼長度要么是 2 個字節(jié)(U+0000 到U+FFFF),要么是 4 個字節(jié)(U+010000 到U+10FFFF)。

于是就有一個問題,當(dāng)我們遇到兩個字節(jié),怎么看出它本身是一個字符,還是需要跟其他兩個字節(jié)放在一起解讀?

說來很巧妙,我也不知道是不是故意的設(shè)計,在基本平面內(nèi),從U+D800 到U+DFFF 是一個空段,即這些碼點(diǎn)不對應(yīng)任何字符。因此,這個空段可以用來映射輔助平面的字符。

具體來說,輔助平面的字符位共有220個,也就是說,對應(yīng)這些字符至少需要 20 個二進(jìn)制位。UTF-16 將這 20 位拆成兩半,前 10 位映射在U+D800 到U+DBFF(空間大小210),稱為高位(H),后 10 位映射在U+DC00 到U+DFFF(空間大小210),稱為低位(L)。這意味著,一個輔助平面的字符,被拆成兩個基本平面的字符表示。

所以,當(dāng)我們遇到兩個字節(jié),發(fā)現(xiàn)它的碼點(diǎn)在U+D800 到U+DBFF 之間,就可以斷定,緊跟在后面的兩個字節(jié)的碼點(diǎn),應(yīng)該在U+DC00 到U+DFFF 之間,這四個字節(jié)必須放在一起解讀。

四、UTF-16 的轉(zhuǎn)碼公式

Unicode 碼點(diǎn)轉(zhuǎn)成 UTF-16 的時候,首先區(qū)分這是基本平面字符,還是輔助平面字符。如果是前者,直接將碼點(diǎn)轉(zhuǎn)為對應(yīng)的十六進(jìn)制形式,長度為兩字節(jié)。

  1. U+597D = 0x597D   

如果是輔助平面字符,Unicode 3.0 版給出了轉(zhuǎn)碼公式。

  1. H = Math.floor ((c-0x10000) / 0x400)+0xD800 
  2. L = (c - 0x10000) % 0x400 + 0xDC0 

[[124343]]

以字符[[124344]]為例,它是一個輔助平面字符,碼點(diǎn)為U+1D306,將其轉(zhuǎn)為 UTF-16 的計算過程如下。

  1. H = Math.floor ((0x1D306-0x10000)/0x400)+0xD800 = 0xD834 
  2. L = (0x1D306-0x10000) % 0x400+0xDC00 = 0xDF06 

所以,字符[[124345]]的 UTF-16 編碼就是 0xD834 DF06,長度為四個字節(jié)。

#p#

五、JavaScript 使用哪一種編碼?

[[124346]]

JavaScript 語言采用 Unicode 字符集,但是只支持一種編碼方法。

這種編碼既不是 UTF-16,也不是 UTF-8,更不是 UTF-32。上面那些編碼方法,JavaScript 都不用。

JavaScript 用的是 UCS-2!

[[124347]]

六、UCS-2 編碼

怎么突然殺出一個 UCS-2?這就需要講一點(diǎn)歷史。

互聯(lián)網(wǎng)還沒出現(xiàn)的年代,曾經(jīng)有兩個團(tuán)隊(duì),不約而同想搞統(tǒng)一字符集。一個是 1989 年成立的 Unicode 團(tuán)隊(duì),另一個是更早的、1988 年成立的 UCS 團(tuán)隊(duì)。等到他們發(fā)現(xiàn)了對方的存在,很快就達(dá)成一致:世界上不需要兩套統(tǒng)一字符集。

1991 年 10 月,兩個團(tuán)隊(duì)決定合并字符集。也就是說,從今以后只發(fā)布一套字符集,就是 Unicode,并且修訂此前發(fā)布的字符集,UCS 的碼點(diǎn)將與 Unicode 完全一致。

當(dāng)時的實(shí)際情況是,UCS 的開發(fā)進(jìn)度快于 Unicode,早在 1990 年,就公布了***套編碼方法 UCS-2,使用 2 個字節(jié)表示已經(jīng)有碼點(diǎn)的字符。(那個時候只有一個平面,就是基本平面,所以 2 個字節(jié)就夠用了。)UTF-16 編碼遲至 1996 年 7 月才公布,明確宣布是 UCS-2 的超集,即基本平面字符沿用 UCS-2 編碼,輔助平面字符定義了 4 個字節(jié)的表示方法。

兩者的關(guān)系簡單說,就是 UTF-16 取代了 UCS-2,或者說 UCS-2 整合進(jìn)了 UTF-16。所以,現(xiàn)在只有 UTF-16,沒有 UCS-2。

七、JavaScript 的誕生背景

那么,為什么 JavaScript 不選擇更高級的 UTF-16,而用了已經(jīng)被淘汰的 UCS-2 呢?

答案很簡單:非不想也,是不能也。因?yàn)樵?JavaScript 語言出現(xiàn)的時候,還沒有 UTF-16 編碼。

1995 年 5 月,Brendan Eich 用了 10 天設(shè)計了 JavaScript 語言;10 月,***個解釋引擎問世;次年 11 月,Netscape 正式向 ECMA 提交語言標(biāo)準(zhǔn)(整個過程詳見《JavaScript 誕生記》)。對比 UTF-16 的發(fā)布時間(1996 年 7 月),就會明白 Netscape 公司那時沒有其他選擇,只有 UCS-2 一種編碼方法可用!

八、JavaScript 字符函數(shù)的局限

由于 JavaScript 只能處理 UCS-2 編碼,造成所有字符在這門語言中都是 2 個字節(jié),如果是 4 個字節(jié)的字符,會當(dāng)作兩個雙字節(jié)的字符處理。JavaScript 的字符函數(shù)都受到這一點(diǎn)的影響,無法返回正確結(jié)果。

還是以字符[[124349]]為例,它的 UTF-16 編碼是 4 個字節(jié)的 0xD834 DF06。問題就來了,4 個字節(jié)的編碼不屬于 UCS-2,JavaScript 不認(rèn)識,只會把它看作單獨(dú)的兩個字符U+D834 和U+DF06。前面說過,這兩個碼點(diǎn)是空的,所以 JavaScript 會認(rèn)為[[124350]]是兩個空字符組成的字符串!

上面代碼表示,JavaScript 認(rèn)為字符[[124351]]的長度是2,取到的***個字符是空字符,取到的***個字符的碼點(diǎn)是 0xDB34。這些結(jié)果都不正確!

[[124352]]

解決這個問題,必須對碼點(diǎn)做一個判斷,然后手動調(diào)整。下面是正確的遍歷字符串的寫法。

  1. while (++index < length) { 
  2.   // ... if (charCode >= 0xD800 && charCode <= 0xDBFF) { 
  3.     output.push (character + string.charAt (++index)); 
  4.   } else { 
  5.     output.push (character); 
  6.   } 

上面代碼表示,遍歷字符串的時候,必須對碼點(diǎn)做一個判斷,只要落在 0xD800 到 0xDBFF 的區(qū)間,就要連同后面 2 個字節(jié)一起讀取。

類似的問題存在于所有的 JavaScript 字符操作函數(shù)。 

  1. String.prototype.replace () 
  2. String.prototype.substring () 
  3. String.prototype.slice () 
  4. ...     

上面的函數(shù)都只對 2 字節(jié)的碼點(diǎn)有效。要正確處理 4 字節(jié)的碼點(diǎn),就必須逐一部署自己的版本,判斷一下當(dāng)前字符的碼點(diǎn)范圍。

九、ECMAScript 6

[[124353]]

JavaScript 的下一個版本 ECMAScript 6(簡稱 ES6),大幅增強(qiáng)了 Unicode 支持,基本上解決了這個問題。

(1)正確識別字符

ES6 可以自動識別 4 字節(jié)的碼點(diǎn)。因此,遍歷字符串就簡單多了。

  1. for (let s of string ) { 
  2.   // ... } 

但是,為了保持兼容,length 屬性還是原來的行為方式。為了得到字符串的正確長度,可以用下面的方式。

  1. Array.from(string) .length   

(2)碼點(diǎn)表示法

JavaScript 允許直接用碼點(diǎn)表示 Unicode 字符,寫法是"斜杠 +u+ 碼點(diǎn)"。

  1. '好' === '\u597D' // true 

但是,這種表示法對 4 字節(jié)的碼點(diǎn)無效。ES6 修正了這個問題,只要將碼點(diǎn)放在大括號內(nèi),就能正確識別。

(3)字符串處理函數(shù)

ES6 新增了幾個專門處理 4 字節(jié)碼點(diǎn)的函數(shù)。

  1. String.fromCodePoint ():從 Unicode 碼點(diǎn)返回對應(yīng)字符 
  2. String.prototype.codePointAt ():從字符返回對應(yīng)的碼點(diǎn) 
  3. String.prototype.at ():返回字符串給定位置的字符    

(4)正則表達(dá)式

ES6 提供了u修飾符,對正則表達(dá)式添加 4 字節(jié)碼點(diǎn)的支持。

(5)Unicode 正規(guī)化

有些字符除了字母以外,還有附加符號。比如,漢語拼音的ǒ,字母上面的聲調(diào)就是附加符號。對于許多歐洲語言來說,聲調(diào)符號是非常重要的。

Unicode 提供了兩種表示方法。一種是帶附加符號的單個字符,即一個碼點(diǎn)表示一個字符,比如ǒ的碼點(diǎn)是U+01D1;另一種是將附加符號單獨(dú)作為一個碼點(diǎn),與主體字符復(fù)合顯示,即兩個碼點(diǎn)表示一個字符,比如ǒ可以寫成O(U+004F) + ˇ(U+030C)。

  1. // 方法一 '\u01D1' // 'ǒ' 
  2.  
  3. // 方法二 '\u004F\u030C' // 'ǒ' 

這兩種表示方法,視覺和語義都完全一樣,理應(yīng)作為等同情況處理。但是,JavaScript 無法辨別。

  1. '\u01D1'==='\u004F\u030C'  
  2. //false   

ES6 提供了 normalize 方法,允許"Unicode 正規(guī)化",即將兩種方法轉(zhuǎn)為同樣的序列。

  1. '\u01D1'.normalize () === '\u004F\u030C'.normalize ()  
  2.  // true 

關(guān)于 ES6 的更多介紹,請看《ECMAScript 6 入門》。

==========================

[[124357]]

我的講稿就是上面這些內(nèi)容,當(dāng)天的 PPT 請看這里

原文鏈接:http://www.ruanyifeng.com/blog/2014/12/unicode.html

責(zé)任編輯:張偉 來源: 阮一峰的網(wǎng)絡(luò)日志
相關(guān)推薦

2010-09-10 16:21:58

JavaScript

2009-09-28 11:34:49

Javascript

2019-01-07 15:42:00

JavaScript前端 編碼

2011-08-23 09:56:52

UnicodeLua

2012-02-14 09:45:02

JavaScript

2013-05-08 10:36:07

JavaScriptJS詳解JavaScrip

2016-09-07 20:43:36

Javascript異步編程

2016-10-11 20:33:17

JavaScriptThisWeb

2015-07-08 10:25:05

Javascript上下文作用域

2017-09-13 10:58:51

JavaScript轉(zhuǎn)換規(guī)則

2017-09-05 16:17:35

JavaScript運(yùn)算轉(zhuǎn)換

2020-09-21 08:56:00

GolangUnicode編碼

2009-03-10 10:58:22

Javascript函數(shù)

2023-03-13 16:08:00

JavaScript數(shù)組函數(shù)

2015-11-06 13:59:01

JavaScript事件處理

2015-11-10 09:34:58

JavaScript方式

2015-12-24 09:48:40

JavaScriptthis指針深

2017-03-20 14:45:42

JavaScript詳解

2016-06-30 10:24:47

JavaScript節(jié)流Throttle

2017-09-14 13:48:20

Vue.js機(jī)制應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 天天躁日日躁狠狠躁2018小说 | 亚洲免费在线观看视频 | 最新一级毛片 | 中文字幕不卡视频在线观看 | 精品一级 | 久久爱黑人激情av摘花 | 欧美中文字幕一区二区三区亚洲 | www.日韩在线| 久久亚洲一区二区 | 91在线网站 | 91pron在线 | 欧美综合在线视频 | 免费麻豆视频 | 日韩欧美国产不卡 | 中文字幕视频一区二区 | 成人免费视频7777777 | 四虎影院在线播放 | 日韩毛片 | 91麻豆久久久 | 精品影视| 888久久久| 国产乱精品一区二区三区 | 91亚洲视频在线 | 精品国产91乱码一区二区三区 | 国产成人精品一区二区三区在线 | 亚洲成人一级 | 国产精品久久久久一区二区 | 黄色毛片在线观看 | 91视频一区二区 | 亚洲网站在线观看 | 日韩第一区 | 人人射人人草 | 国产美女精品视频 | 欧洲国产精品视频 | 亚洲色视频 | 国产精品久久 | 伊人网在线看 | 国产成人黄色 | 久久av在线播放 | 免费h在线 | 伊人网伊人网 |