UTF編碼 - UNICODE,GBK,UTF-8區別

4、UTF編碼

　　UTF-8就是以8位為單元對UCS進行編碼。從UCS-2到UTF-8的編碼方式如下：

　　UCS-2編碼(16進制) UTF-8 字節流(二進制)

　　0000 - 007F 0xxxxxxx

　　0080 - 07FF 110xxxxx 10xxxxxx

　　0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

　　例如“漢”字的Unicode編碼是6C49。6C49在0800-FFFF之間，所以肯定要用3字節模板了：1110xxxx 10xxxxxx 10xxxxxx。將6C49寫成二進制是：0110 110001 001001，用這個比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

　　讀者可以用記事本測試一下我們的編碼是否正確。需要注意，UltraEdit在打開utf-8編碼的文本文件時會自動轉換為UTF-16，可能產生混淆。你可以在設置中關掉這個選項。更好的工具是Hex Workshop。

　　UTF-16以16位為單元對UCS進行編碼。對于小于0x10000的UCS碼，UTF-16編碼就等于UCS碼對應的16位無符號整數。對于不小于0x10000的UCS碼，定義了一個算法。不過由于實際使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以認為UTF-16和UCS-2基本相同。但UCS-2只是一個編碼方案，UTF-16卻要用于實際的傳輸，所以就不得不考慮字節序的問題。

　　5、UTF的字節序和BOM

　　UTF-8以字節為編碼單元，沒有字節序的問題。UTF-16以兩個字節為編碼單元，在解釋一個UTF-16文本前，首先要弄清楚每個編碼單元的字節序。例如“奎”的Unicode編碼是594E，“乙”的Unicode編碼是4E59。如果我們收到UTF-16字節流“594E”，那么這是“奎”還是“乙”?

　　Unicode規范中推薦的標記字節順序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte order Mark。BOM是一個有點小聰明的想法：

　　在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的編碼是FEFF。而FFFE在UCS中是不存在的字符，所以不應該出現在實際傳輸中。UCS規范建議我們在傳輸字節流前，先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。

　　這樣如果接收者收到FEFF，就表明這個字節流是Big-Endian的;如果收到FFFE，就表明這個字節流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。

　　UTF-8不需要BOM來表明字節順序，但可以用BOM來表明編碼方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF(讀者可以用我們前面介紹的編碼方法驗證一下)。所以如果接收者收到以EF BB BF開頭的字節流，就知道這是UTF-8編碼了。

　　Windows就是使用BOM來標記文本文件的編碼方式的。

　　6、進一步的參考資料

　　本文主要參考的資料是 "Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)。

　　我還找了兩篇看上去不錯的資料，不過因為我開始的疑問都找到了答案，所以就沒有看：

　　"Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a)

　　"Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)

　　我寫過UTF-8、UCS-2、GBK相互轉換的軟件包，包括使用Windows API和不使用Windows API的版本。以后有時間的話，我會整理一下放到我的個人主頁上(http://fmddlmyy.home4u.china.com)。

　　我是想清楚所有問題后才開始寫這篇文章的，原以為一會兒就能寫好。沒想到考慮措辭和查證細節花費了很長時間，竟然從下午1:30寫到9:00。希望有讀者能從中受益。

　　附錄1 再說說區位碼、GB2312、內碼和代碼頁

　　有的朋友對文章中這句話還有疑問：

　　“GB2312的原文還是區位碼，從區位碼到內碼，需要在高字節和低字節上分別加上A0?！?/p>

　　我再詳細解釋一下：

　　“GB2312的原文”是指國家1980年的一個標準《中華人民共和國國家標準信息交換用漢字編碼字符集基本集 GB 2312-80》。這個標準用兩個數來編碼漢字和中文符號。第一個數稱為“區”，第二個數稱為“位”。所以也稱為區位碼。1-9區是中文符號，16-55區是一級漢字，56-87區是二級漢字?，F在Windows也還有區位輸入法，例如輸入1601得到“啊”。(這個區位輸入法可以自動識別16進制的GB2312和10進制的區位碼，也就是說輸入B0A1同樣會得到“啊”。)

　　內碼是指操作系統內部的字符編碼。早期操作系統的內碼是與語言相關的?，F在的Windows在系統內部支持Unicode，然后用代碼頁適應各種語言，“內碼”的概念就比較模糊了。微軟一般將缺省代碼頁指定的編碼說成是內碼。

　　內碼這個詞匯，并沒有什么官方的定義，代碼頁也只是微軟這個公司的叫法。作為程序員，我們只要知道它們是什么東西，沒有必要過多地考證這些名詞。

　　所謂代碼頁(code page)就是針對一種語言文字的字符編碼。例如GBK的code page是CP936，BIG5的code page是CP950，GB2312的code page是CP20936。

　　Windows中有缺省代碼頁的概念，即缺省用什么編碼來解釋字符。例如Windows的記事本打開了一個文本文件，里面的內容是字節流：BA、BA、D7、D6。Windows應該去怎么解釋它呢?

　　是按照Unicode編碼解釋、還是按照GBK解釋、還是按照BIG5解釋，還是按照ISO8859-1去解釋?如果按GBK去解釋，就會得到“漢字”兩個字。按照其它編碼解釋，可能找不到對應的字符，也可能找到錯誤的字符。所謂“錯誤”是指與文本作者的本意不符，這時就產生了亂碼。

　　答案是Windows按照當前的缺省代碼頁去解釋文本文件里的字節流。缺省代碼頁可以通過控制面板的區域選項設置。記事本的另存為中有一項ANSI，其實就是按照缺省代碼頁的編碼方法保存。

　　Windows的內碼是Unicode，它在技術上可以同時支持多個代碼頁。只要文件能說明自己使用什么編碼，用戶又安裝了對應的代碼頁，Windows就能正確顯示，例如在HTML文件中就可以指定charset。

　　有的HTML文件作者，特別是英文作者，認為世界上所有人都使用英文，在文件中不指定charset。如果他使用了0x80-0xff之間的字符，中文Windows又按照缺省的GBK去解釋，就會出現亂碼。這時只要在這個html文件中加上指定charset的語句，例如：

　　如果原作者使用的代碼頁和ISO8859-1兼容，就不會出現亂碼了。

　　再說區位碼，啊的區位碼是1601，寫成16進制是0x10,0x01。這和計算機廣泛使用的ASCII編碼沖突。為了兼容00-7f的ASCII編碼，我們在區位碼的高、低字節上分別加上A0。這樣“啊”的編碼就成為B0A1。我們將加過兩個A0的編碼也稱為GB2312編碼，雖然GB2312的原文根本沒提到這一點。

閱讀全文

上一頁 12全文

本文導航

第 1 頁：UNICODE,GBK,UTF-8區別
第 2 頁：UTF編碼

Unicode(12459) Unicode(12459)
GBK(7075) GBK(7075)
UTF-8(7779) UTF-8(7779)

請教ml4803與fan4803區別

請教ml4803與fan4803區別可以代用嗎？

2011-06-26 15:14:35

MySQL巨坑：永遠不要在MySQL中使用UTF-8！！

當然，他們并沒有對新的字符集廣而告之（可能是因為這個bug讓他們覺得很尷尬），以致于現在網絡上仍然在建議開發者使用“utf8”，但這些建議都是錯誤的。

2023-08-21 14:47:04

114

驍龍x75與x70區別

驍龍x75與x70區別驍龍X75與X70區別分析近年來，計算機科技的發展速度越來越快，尤其是智能手機所配備的芯片技術也越來越先進。作為手機芯片行業的佼佼者，驍龍系列的芯片技術在市場上表現得非常

2023-08-17 11:09:29

1826

unicode如何轉GBK字庫制作

UTF-8（8 位元，Universal Character Set/Unicode Transformation Format）是針對 Unicode 的一種可變長度字符編碼。UCS 字符

2023-08-14 10:45:22

Python字符編碼轉換

-*- coding:utf- 8 -*-utf_8_a = '我愛中國' gbk_a = utf_8_a. decode ( 'utf-8' ). encode ( 'gbk' ) print (gbk_a. decode ( 'gbk' )) 輸出結果：我愛中國 Python3中定義的字符串默認

2023-07-05 16:25:23

570

為什么不建議在MySQL中使用UTF-8？

Unicode 字符集包含了上百萬個字符。最簡單的編碼是 UTF-32，每個字符使用 32 位。這樣做最簡單，因為一直以來，計算機將 32 位視為數字，而計算機最在行的就是處理數字。但問題是，這樣太浪費空間了。

2023-03-13 10:37:36

290

pip安裝報錯：UnicodeDecodeError 'utf-8' codec can't decode byte 0xc3 in position 4解決方法

continuation byte 因為windows下命令行的代碼頁為GBK，但是程序編碼是UTF-8。解決辦法找到python安裝目錄下\\Lib\\site-packages\\pip

2023-01-13 09:50:10

2844

詳細介紹python中文件操縱相關知識

encoding:可以不寫。不寫參數，默認的編碼本是操作系統默認的編碼本。windows默認gbk，linux默認utf-8，mac默認utf-8。

2022-09-13 11:40:17

458

UTF8String是如何編碼的？

UniversalString和UTF8String 都支持完全相同的字符集，前64K 字符都是BMPString 中的字符集。請注意，BMPString 的前128 個字符與IA5String

2022-08-26 09:55:26

1114

LCD顯示GBK字庫里面的漢字

單片機程序中添加代碼直接顯示漢字;或者顯示接收上位機發送過來的UTF_8編碼規則的信息。提示：以下是本篇文章正文內容，下面案例可供參考一、編碼規則從網上引來一段從UNICODE到UTF8的轉換規則：UTF-8: 1~3字節可變UNICODE: 2字節一個字符GB2312: 2字節一

2021-12-02 11:36:19

"stm32單片機平臺上ASCII(GBK,GB2312)轉unicode轉UTF-8"

ASCII(GBKGB2312)?，F在升級STM32單片機程序，發現需要UTF-8編碼，APP和服務器最好不動，不然修改太大。所以就出現了ASCII(GBKGB2312)轉unicode轉UTF-8需求以下ASCII(GBKGB2312)，統稱為GBK，因為ASCII是GB2312子集，G

2021-11-30 15:06:05

單片機中UTF-8如何轉換得到GBK編碼

概述我們在單片機開發中常會遇到需要將UTF-8轉換為GBK編碼的需求。在我們了解各種編碼格式的情況下可知，UFT-8不能直接轉成GBK，需中轉成unicode再轉換為gbk。而unicode

2021-11-26 10:51:04

iphone13mini和iphone13區別哪款更值得入手

2021-09-27 10:32:39

60146

蘋果13和12區別大嗎

　蘋果13和12區別大嗎？蘋果13和蘋果iPhone12有什么區別？下面小編進行簡單的說明。

2021-09-23 14:49:47

15964

Unicode和UTF-8、UTF-16到底有什么不同？

對于同一個二進制數據，不同的編碼會解析出不同的字符。

2021-06-11 16:14:14

4273

adc0832是什么_adc0832和adc0809區別

本文首先闡述了adc0832的概念，其次闡述了adc0832的特點，最后介紹了adc0832和adc0809區別。

2020-04-26 08:42:20

31792

MySQL中utf8和utf8mb4有什么區別

MySQL在5.5.3之后增加了這個utf8mb4的編碼，mb4就是most bytes 4的意思，專門用來兼容四字節的unicode。

2020-04-12 19:21:24

12242

從ASCII碼->Unicode-> UTF-8歷史變遷，及其差異

從ASCII碼->Unicode->UTF-8歷史變遷，及其差異

2020-02-27 15:56:19

1821

為什么計算機編碼有ASCII與Unicode及UTF-8的區分

計算機只能處理數字，如果要處理文本，就必須先把文本轉換為數字才能處理。最早的計算機在設計時采用8個比特（bit）作為一個字節（byte），所以一個字節能表示的最大的整數就是255，如果要表示更大

2020-02-15 10:20:33

3190

如何進行GB2312、 BIG5、UTF8和Unicode之間的互換

本文檔的主要內容詳細介紹的是如何進行GB2312、 BIG5、UTF8和Unicode之間的互換。先轉成寬字符

2019-04-16 17:27:37

PHP和UTF-8亂碼問題的解決方法資料分析

PHP亂碼問題，UTF-8亂碼問題比較常見，通過下面的方法基本上就可以解決php亂碼問題了，確實總結的不錯。

2019-02-28 17:59:43

一文看懂ds1302與ds12c887區別

本文主要介紹了ds1302與ds12c887區別，還各自介紹了ds1302與ds12c887的引腳圖及功能、特點、工作原理等。

2018-04-10 17:19:08

11980

一文看懂mpu9150和mpu6050區別

本文開始對mpu9150進行了介紹，其次介紹了mpu6050的定義、mpu6050感測范圍以及mpu6050的特征，最后闡述了mpu9150和mpu6050區別。

2018-03-08 10:07:11

40722

ascii和utf8的區別_ASCII編碼與UTF-8的關系

UTF-8是一種針對Unicode的可變長度字符編碼，又稱萬國碼。由Ken Thompson于1992年創建。現在已經標準化為RFC 3629。UTF-8用1到6個字節編碼Unicode字符。ASCII是基于拉丁字母的一套電腦編碼系統，主要用于顯示現代英語和其他西歐語言。

2018-01-30 13:34:11

24603

max7219與74hc595區別

本文主要介紹了max7219與74hc595區別，分別介紹了max7219與74hc595引腳圖及功能。MAX7219跟74HC595不同的是：74HC595的移位寄存器是8位的，而MAX7219

2018-01-17 13:01:29

18220

scikit-learn的操作流程幾一體化實現的優勢

`encoding = None`:編碼方式。當前文本文件的編碼方式一般為“utf-8”，如果不指明編碼方式（encoding=None），那么文件內容將會按照bytes處理，而不是unicode處理。

2017-12-08 13:40:46

2831

scikit-learn的操作流及一體化實現的優勢詳解

2017-12-08 13:40:46

4083

ds1302和ds1307區別_ds1302和ds12c887區別

ds1302和ds1307區別：ds1302是半SPI接口，ds1307是I2C接口；ds1302和ds12c887區別，ds1302要用戶自己安裝后備電池和串口通訊，而且需要32.768晶振。ds12c887自帶后備電池，并口通訊，無需外圍元件，自帶晶體振蕩器和鋰電池，在沒有外部電源的情況下可工作10年。

2017-08-26 20:18:18

22911

RS232與RS485區別

RS232與RS485區別，很好的學習資料，快來下載吧

2016-01-18 18:03:08

液晶電視網絡板USB培訓教材

解決方法一：把網上下載的字幕內碼通過電腦另存為GB2312的編碼格式文件，電視機的字幕編碼選GBK，這樣可正常顯示。解決方法二、用戶手動在電視編碼中更改為UTF-8格式或者GBK格式，

2011-04-13 17:48:18

296

已全部加載完成

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史