散文網(wǎng) » 科技 »學(xué)習(xí) » 計(jì)算機(jī)編碼常識(shí)

計(jì)算機(jī)編碼常識(shí)

2023-06-28 15:22 作者:2015圣誕節(jié)HD 0人讀過(guò) | 我要投稿

序論

????在計(jì)算機(jī)內(nèi)部，所有的信息最終都表示為一個(gè)二進(jìn)制的字符串。每一個(gè)二進(jìn)制位（bit）有0和1兩種狀態(tài)，因此八個(gè)二進(jìn)制位就可以組合出256種狀態(tài)，這被稱(chēng)為一個(gè)字節(jié)（byte）。也就是說(shuō)，一個(gè)字節(jié)一共可以用來(lái)表示256種不同的狀態(tài)，每一個(gè)狀態(tài)對(duì)應(yīng)一個(gè)符號(hào)，就是256個(gè)符號(hào)，從00000000到11111111。

ASCII 編碼

????上個(gè)世紀(jì)60年代，美國(guó)制定了一套字符編碼，對(duì)英語(yǔ)字符與二進(jìn)制位之間的關(guān)系，做了統(tǒng)一規(guī)定。這被稱(chēng)為ASCII碼，一直沿用至今。
????ASCII碼一共規(guī)定了128個(gè)字符的編碼，比如空格"SPACE"是32（二進(jìn)制00100000），大寫(xiě)的字母A是65（二進(jìn)制01000001）。這128個(gè)符號(hào)（包括32個(gè)不能打印出來(lái)的控制符號(hào)），只占用了一個(gè)字節(jié)的后面7位，最前面的1位統(tǒng)一規(guī)定為0。

Unicode 編碼

????世界上存在著多種編碼方式，同一個(gè)二進(jìn)制數(shù)字可以被解釋成不同的符號(hào)。因此，要想打開(kāi)一個(gè)文本文件，就必須知道它的編碼方式，否則用錯(cuò)誤的編碼方式解讀，就會(huì)出現(xiàn)亂碼。為什么電子郵件常常出現(xiàn)亂碼？就是因?yàn)榘l(fā)信人和收信人使用的編碼方式不一樣。
????可以想象，如果有一種編碼，將世界上所有的符號(hào)都納入其中。每一個(gè)符號(hào)都給予一個(gè)獨(dú)一無(wú)二的編碼，那么亂碼問(wèn)題就會(huì)消失。這就是Unicode，就像它的名字都表示的，這是一種所有符號(hào)的編碼。
????Unicode當(dāng)然是一個(gè)很大的集合，現(xiàn)在的規(guī)?？梢匀菁{100多萬(wàn)個(gè)符號(hào)。每個(gè)符號(hào)的編碼都不一樣，比如，U+0639表示阿拉伯字母Ain，U+0041表示英語(yǔ)的大寫(xiě)字母A，U+4E25表示漢字"嚴(yán)"。

??UTF-8 編碼

????互聯(lián)網(wǎng)的普及，強(qiáng)烈要求出現(xiàn)一種統(tǒng)一的編碼方式。UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種Unicode的實(shí)現(xiàn)方式。其他實(shí)現(xiàn)方式還包括UTF-16（字符用兩個(gè)字節(jié)或四個(gè)字節(jié)表示）和UTF-32（字符用四個(gè)字節(jié)表示），不過(guò)在互聯(lián)網(wǎng)上基本不用。重復(fù)一遍，這里的關(guān)系是，UTF-8是Unicode的實(shí)現(xiàn)方式之一。

??常見(jiàn)的編碼場(chǎng)景

????NodeJs 在 windows 命令行中默認(rèn)返回 latin1 / binary 格式的編碼；

????當(dāng)需要在控制臺(tái)中展示時(shí)，需要先進(jìn)行解碼，再編碼為 cp936 格式；

????當(dāng)需要在瀏覽器中展示時(shí)，需要解碼并編碼為 utf-8 格式；

標(biāo)簽：