查看文章
 
编码收集(2)
2010年05月09日 星期日 15:46

6Unicode字符集

      1.名称的由来

   Unicode字符集编码,支持世界上超过650种语言的国际字符集。Unicode允许在同一服务器上混合使用不同语言组的不同语言。它是由一个名为 Unicode 学术学会(Unicode Consortium(社团,协会,联盟))的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2005331Unicode 4.1.0Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

      2.编码方法

     Unicode 标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”。

      3UTF-8 编码

     UTF-8Unicode的其中一个使用方式。 UTF Unicode Translation Format,即把Unicode转做某种格式的意思。

     UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字,使得双字节的Unicode能够在现存的处理单字节的系统上正确传输。

     UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

      4UTF-16 UTF-32 编码

UTF-32UTF-16 UTF-8 Unicode 标准的编码字符集的字符编码方案,UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码;UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数

      7ANSI编码

ANSI英文全称: American National Standards Institute.中文名称:美国国家标准协会。

   ansiunicode都是字符代码的一种表示形式。

   不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。

   不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。

  

  

  

   相关了解:

      1big endianlittle endian

        big endianlittle endianCPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是big endian。还是将49写在前面,就是little endian

我们一般将endian翻译成“字节序”,将big endianlittle endian称作“大尾”和“小尾”。

     


类别:资料储备||添加到搜藏 |分享到i贴吧|浏览(46)|评论 (0)
 
最近读者:
 
网友评论:
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
     

   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu