Demon's Blog » 程序设计 » UTF-16与UCS-2的区别

UTF-16与UCS-2的区别

标题: UTF-16与UCS-2的区别
作者: Demon
链接: https://demon.tw/programming/utf-16-ucs-2.html
版权: 本博客的所有文章，都遵守“署名-非商业性使用-相同方式共享 2.5 中国大陆”协议条款。

UTF-16和UCS-2都是Unicode的编码方式。

Unicode使用一个确定的名字和一个叫做码位（code point）的整数来定义一个字符。例如©字符被命名为“copyright sign”并且有一个值为U+00A9（0xA9，十进制169）的码位。

Unicode的码空间从U+0000到U+10FFFF，共有1,112,064个码位(code point)可用来映射字符. Unicode的码空间可以划分为17个平面(plane)，每个平面包含2¹⁶(65,536)个码位。每个平面的码位可表示为从U+xx0000到U+xxFFFF, 其中xx表示十六进制值从00₁₆ 到10₁₆，共计17个平面。

第一个Unicode平面(码位从U+0000至U+FFFF)包含了最常用的字符，该平面被称为基本多语言平面（Basic Multilingual Plane），缩写为BMP。其他平面称为辅助平面(Supplementary Planes)。

UCS-2 (2-byte Universal Character Set)是一种定长的编码方式，UCS-2仅仅简单的使用一个16位码元来表示码位，也就是说在0到0xFFFF的码位范围内，它和UTF-16基本一致。

UTF-16 (16-bit Unicode Transformation Format)是UCS-2的拓展，它可以表示BMP以为的字符。UTF-16使用一个或者两个16位的码元来表示码位，这样就可以对0到0x10FFFF的码位进行编码。

例如，在UCS-2和UTF-16中，BMP中的字符U+00A9 copyright sign（©）都被编码为0x00A9。

但是在BMP之外的字符，例如𝌆，只能用UTF-16进行编码，使用两个16为码元来表示：0xD834 0xDF06。这被称作代理对，值得注意的是一个代理对仅仅表示一个字符，而不是两个。UCS-2并没有代理对的概念，所以会将0xD834 0xDF06解释为两个字符。

简单的说，UTF-16可看成是UCS-2的父集。在没有辅助平面字符（surrogate code points）前，UTF-16与UCS-2所指的是同一的意思。（严格的说这并不正确，因为在UTF-16中从U+D800到U+DFFF的码位不对应于任何字符，而在使用UCS-2的时代，U+D800到U+DFFF内的值被占用。）但当引入辅助平面字符后，就称为UTF-16了。

参考链接：http://zh.wikipedia.org/wiki/UTF-16

赞赏

微信赞赏支付宝赞赏

随机文章:

这篇文章发布于 2012年05月4日，星期五，23:30，归类于程序设计。您可以跟踪这篇文章的评论通过 RSS 2.0 feed。您可以留下评论，或者从您的站点trackback。

一条评论发表在“UTF-16与UCS-2的区别”上

【字符编码】彻底理解字符编码 – leesf – | 长流技术说道：

2016年07月11日 11:43

[…] UTF-16与UCS-2的区别 […]

回复

UTF-16与UCS-2的区别

一条评论 发表在“UTF-16与UCS-2的区别”上

留下回复

一条评论发表在“UTF-16与UCS-2的区别”上