MySQL怎么存文本不亂碼？

作者：佚名 2017-12-11 10:12:26

MySQL里怎么存儲(chǔ)那些看起來(lái)會(huì)亂碼的字符？我在“UTF8字符集的表怎么直接轉(zhuǎn)UTF8MB4”一文中介紹了如何把表字符集由UTF8直接轉(zhuǎn)換成UTF8MB4的幾種方法。

導(dǎo)讀

MySQL里怎么存儲(chǔ)那些看起來(lái)會(huì)亂碼的字符？

我在“UTF8字符集的表怎么直接轉(zhuǎn)UTF8MB4”一文中介紹了如何把表字符集由UTF8直接轉(zhuǎn)換成UTF8MB4的幾種方法。

1、只修改字符集（使用默認(rèn)校驗(yàn)集）

yejr@imysql.com> alter table t1 convert to character set utf8mb4

2、同時(shí)修改表字符集和校驗(yàn)集

yejr@imysql.com> alter table t1 convert to  character set utf8mb4 collate utf8mb4_bin;

3、只修改某列的字符集

yejr@imysql.com> alter table t1 modify c1 varchar(20)  character set utf8mb4 not null default ‘’

4、同時(shí)修改某列的字符集和校驗(yàn)集

yejr@imysql.com> alter table t1 modify c1 varchar(20)  character set utf8mb4  collate utf8mb4_unicode_ci  not null default ‘’

好了，有個(gè)字符集為UTF8MB4的表中想存儲(chǔ)各類不同字符集的文本，有哪些注意事項(xiàng)億避免亂碼？

如果是通過(guò)WEB接口存儲(chǔ)數(shù)據(jù)，則建議在browser端、server端全都采用UTF8字符集，MySQL Server端采用UTF8/UTF8MB4均可（針對(duì)大多數(shù)文本，其實(shí)UTF8字符集就足夠存儲(chǔ)的了）。

其中，MySQL端的字符集設(shè)置比較讓人頭大，涉及到的字符集有好幾個(gè)：

character_set_server，server端默認(rèn)字符集；
character_set_database，database默認(rèn)字符集，若未設(shè)定，則和 character_set_server 的設(shè)定一樣；database中的數(shù)據(jù)表/stored procedure/stored function 也可以自行設(shè)定字符集，若未指定，則和 character_set_database 的設(shè)置一樣；數(shù)據(jù)表中的字符類型列，也可以單獨(dú)設(shè)定字符集，若未設(shè)定，則和該表指定的字符集一樣；
character_set_client，客戶端顯示讀取結(jié)果的字符集；
character_set_connection，客戶端從server端讀取數(shù)據(jù)時(shí)傳輸字符集；
character_set_results，server端將數(shù)據(jù)發(fā)送給客戶端時(shí)的字符集；

可見(jiàn)，涉及到字符集的因素實(shí)在太多，因此我們強(qiáng)烈建議各個(gè)環(huán)節(jié)全部采用同一種字符集，避免出現(xiàn)意外狀況。

MySQL采用UTF8MB4字符集時(shí)，存儲(chǔ)文本實(shí)際消耗字節(jié)數(shù)是由文本內(nèi)容的字節(jié)數(shù)決定的，并非總是需要4字節(jié)，列舉幾種情況：

總結(jié)建議

附1，關(guān)于編碼簡(jiǎn)介

ASCII碼，占7bit，由128個(gè)字符組成，包括大小寫字母、數(shù)字0-9、標(biāo)點(diǎn)符號(hào)、非打印字符（換行符、制表符等4個(gè)）以及控制字符（退格、響鈴等）組成；
latin1，占1byte，在ASCII基礎(chǔ)上，增加128 ～ 255區(qū)間的字符；
GB2312等CJK字符集，可變長(zhǎng)字符集，最多占2bytes，用于存儲(chǔ)常見(jiàn)的CJK字符；
UTF8，可變長(zhǎng)字符集，最多占3bytes，可以囊括ASCII、CJK及其他絕大多數(shù)常用語(yǔ)言文字；這中間其實(shí)還有個(gè)UNICODE字符集，它也是2bytes的，也能囊括ASCII字符，但即便是ASCII字符也需要消耗2bytes，存在一定浪費(fèi)，而用UTF8存儲(chǔ)ASCII字符時(shí)，實(shí)際只需要1byte，更為節(jié)省存儲(chǔ)空間；
UTF8MB4，可變長(zhǎng)字符集，最多占4bytes，可以包含上面其他幾種字符集；同樣地，以UTF8MB4存儲(chǔ)ASCII字符時(shí)，實(shí)際上也是只占用1bytes，存儲(chǔ)一般的漢字占用3bytes，而存儲(chǔ)個(gè)別漢字則需要4bytes，存儲(chǔ)emoji也至少需要4bytes；

附2，字符集兼容在線測(cè)試

為了方便大家，我寫了個(gè)簡(jiǎn)單的PHP接口供測(cè)試，可以提交一些不常見(jiàn)的漢字，或者emoji表情符，看看是否都能正常顯示。

開(kāi)發(fā)這個(gè)接口時(shí)，發(fā)現(xiàn)釘釘中的個(gè)別表情符是由2個(gè)4字節(jié)編碼組成的，也就是說(shuō)一個(gè)emoji表情符，其實(shí)是需要8個(gè)字節(jié)的。

這個(gè)接口***輸出的格式是：

字符串 : 字節(jié)數(shù)

比如 "a齒a : 5" ，表示 "a齒a" 這個(gè)字符串共消耗 5個(gè)字節(jié)，因?yàn)?"齒" 其實(shí)只需要3個(gè)字節(jié)來(lái)存儲(chǔ)，雖然看起來(lái)挺大一坨的。

相應(yīng)的代碼如下：

select vchar, length(vchar) as vcharlen

測(cè)試接口鏈接： utf8mb4字符集兼容性測(cè)試接口

如果想要寫入4字節(jié)的漢字，可以從龍泉寺提供的字庫(kù)拷貝過(guò)來(lái)，或者插入emoji表情符。

參考及延伸閱讀

責(zé)任編輯：龐桂玉來(lái)源：數(shù)據(jù)庫(kù)開(kāi)發(fā)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看