百度空间 | 百度首页 
 
查看文章
 
GB18030 编码
2008-10-15 20:02

从计算机的应用开始,我国已经颁布了多种中文信息编码标准,常用的是 GB2312-1980,GB12345,GB13000 (GBK),以及最新标准 GB18030。最新的 GB18030 标准将要作为强制标准实行,所有不支持 GB18030 标准的软件将不能作为产品出售,当然,这里有个时间限制,类似 WAPI。Microsoft 已经发布了 Windows NT / XP 的相关 patch。

从 GB2312-1980 编码开始,汉字都是采用双字节编码。为了与系统中基本的 ASCII 字符集区分开,所有汉字编码的每个字节的第一位都是 1。例如:“啊”字的编码为 0xB0A1。

GB2312 的汉字编码规则为:

第一个字节的值在 0xB0 到 0xF7 之间,第二个字节的值在0xA0 到 0xFE 之间。

GB12345 和 GB13000 是对 GB2312-1980 的扩充,所有已经包含在 GB2312 中的汉字编码不变,另外增加更多的码位。

其编码规则大致为:第一个字节的值在 0x81 到 0xFE 之间,第二个字节的值在 0x40 到 0xFE 之间。由于 GB13000 是对GB2312 的扩展,所以也被称为 GBK。

GB18030 也是对 GB2312 的扩展 (原有编码不变),其编码长度由 2 个字节变为 1 - 4 个字节。其中包括:

单字节,其值从 0 到 0x7F;
双字节,第一个字节的值从 0x81 到 0xFE,第二个字节的值从 0x40 到 0xFE (不包括 0x7F);
四字节,第一个字节的值从 0x81 到 0xFE,第二个字节的值从 0x30 到 0x39,第三个字节的值从 0x81 到 0xFE,第四个字节的值从 0x30 到 0x39。


类别:开发资料 | 添加到搜藏 | 浏览() | 评论 (0)
 
最近读者:
 
网友评论:
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请点击后输入四位验证码,字母不区分大小写
      

     

©2009 Baidu