系统如何支持GB18030
[问题点数:200分,结帖人camelials]
系统如何支持GB18030
[问题点数:200分,结帖人camelials]
不显示删除回复
显示所有回复
显示星级回复
显示得分回复
只显示楼主
2013年5月 C++ Builder大版内专家分月排行榜第三2012年7月 C++ Builder大版内专家分月排行榜第三2012年5月 C++ Builder大版内专家分月排行榜第三2011年5月 C++ Builder大版内专家分月排行榜第三2011年3月 C++ Builder大版内专家分月排行榜第三2010年12月 C++ Builder大版内专家分月排行榜第三2010年10月 C++ Builder大版内专家分月排行榜第三2010年1月 C++ Builder大版内专家分月排行榜第三2009年9月 C++ Builder大版内专家分月排行榜第三2009年7月 C++ Builder大版内专家分月排行榜第三2009年6月 C++ Builder大版内专家分月排行榜第三2009年5月 C++ Builder大版内专家分月排行榜第三2006年3月 C++ Builder大版内专家分月排行榜第三2005年9月 C++ Builder大版内专家分月排行榜第三
2009年5月 .NET技术大版内专家分月排行榜第三
2009年5月 .NET技术大版内专家分月排行榜第三
本帖子已过去太久远了,不再提供回复功能。GB2312、GBK和GB18030三种文字编码标准有什么区别和联系?_百度知道GBK、GB18030、GB2312&区别
GBK、GB18030、GB2312 区别
标准标准编号:GB
标准名称:信息交换用汉字编码字符集 基本集
标准状态:现行
英文标题:Code of chinese graphic character set for information
Primary set
GB年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。
码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集----基本集》,由国家标准总局发布,日实施,通行于大陆。新加坡等地也使用此编码。
GB2312 收录简化汉字及符号、字母、日文假名等共 7445 个图形字符,其中汉字占 6763 个。GB2312
规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。
GB2312 将代码表分为 94 个区,对应第一字节;每个区 94 个位,对应第二字节,两个字节的值分别为区号值和位号值加
32(2OH),因此也称为区位码。01-09 区为符号、数字区,16-87 区为汉字区,10-15 区、88-94
区是有待进一步标准化的空白区。GB2312 将收录的汉字分成两级:第一级是常用汉字计 3755 个,置于 16-55
区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计 3008 个,置于 56-87
区,按部首/笔画顺序排列。故而GB2312最多能表示 6763 个汉字。
GB2312 的编码范围为 EH,与 ASCII 有重叠,通行方法是将 GB 码两个字节的最高位置 1
以示区别。
&&1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。
GBK是GB18030的子集&,&
GBK是包括中日韩字符的大字符集合
在90年代初期,制定了一个GBK的规范,就是在大陆的6763字后面,增加BIG5里面的15000汉字的部分.这个部分是字型与台湾的字型是一样的,但是编码仍然是SO2022.
全国信息技术化技术委员会于日《汉字内码扩展规范》。GBK 向下与 GB2312 完全兼容,向上支持 ISO
10646 国际标准,在前者向后者过渡过程中起到的承上启下的作用。GBK 亦采用双字节表示,总体编码范围为 8140-FEFE
之间,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 XX7F 一条线。
GBK 共收入 21886 个汉字和图形符号,包括:
* GB2312 中的全部汉字、非汉字符号。
* BIG5 中的全部汉字。
* 与 ISO 10646 相应的国家标准 GB13000 中的其它 CJK 汉字,以上合计 20902 个汉字。
* 其它汉字、部首、符号,共计 984 个。
微软公司自 Windows 95 简体中文版开始支持GBK代码,但目前的多数搜索引擎都不能很好地支持 GBK 汉字。
GBK 编码区分三部分:
* 汉字区,包括:
GBK/2:OXBOA1-F7FE, 收录 GB2312 汉字 6763 个,按原序排列;
GBK/3:OX8140-AOFE,收录 CJK 汉字 6080 个;
GBK/4:OXAA40-FEAO,收录 CJK 汉字和增补的汉字 8160 个。
* 图形符号区,包括:
GBK/1:OXA1A1-A9FE,除 GB2312 的符号外,还增补了其它符号
GBK/5:OXA840-A9AO,扩除非汉字区。
* 用户自定义区:
即 GBK 区域中的空白区,用户可以自己定义字符。
3、&& 标准编号:GB
标准名称:信息技术 中文编码字符集
标准状态:现行
英文标题:Information technology -- Chinese coded character set
替代情况:GB
颁布部门: 国家标准化管理委员会
内容简介:本标准规定了信息技术用的中文图形字符及其二进制编码的十六进制表示。
2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说,GB18030在GB902个汉字的基础上增加了CJK扩展A的6582个汉字(Unicode码0xdb5),一共收录了27484个汉字。
GB18030的编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的6582个汉字。
GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030
编码是一二四字节变长编码。一字节部分从 0x0~0x7F 与 ASCII 编码兼容。 二字节部分, 首字节从 0x81~0xFE,
尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK 标准基本兼容。 四字节部分,
第一字节从&0x81~0xFE, 第二字节从 0x30~0x39,
第三和第四字节的范围和前两个字节分别相同。 四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有 Unicode
3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8
编码类似。
目前最新的 glibc 2.2.x 系列已经全面支持了 GB18030 Locale 和 GB18030 与 UCS-4
之间的编码转换, 也就是说在系统层上 Linux 已经可以支持 GB18030 标准了。 下面问题的关键就是怎样让 XFree86
窗口系统也支持 GB18030 标准。
是通行于台湾、香港地区的一个繁体字编码方案。虽然存在一些瑕疵,但广泛应用于电脑行业,尤其是互联网中,从而成为一种事实上的行业标准。
1983年10月,台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》,后经修订于1992年5月公布,更名为《中文标准交换码》,BIG5
是台湾资讯工业策进会根据以上标准制定的编码方案。
BIG5 码是双字节编码方案,其中第一个字节的值在 OXAO-OXFE 之间,第二个字节在 OX40-OX7E 和
OXA1-OXFE 之间。
BIG5 收录 13461 个汉字和符号,包括:
* 符号 408 个,编码位置 A140-A3BE
* 常用字 5401 个,编码位置 A440-C67E,包括台湾教育部颁布的《常用国字标准字体表》的全部汉字 4808
个,台湾教科书常用字 587 个,异体字 6 个。
* 次常用字 7652 个,编码位置 C940-F9D5,包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字 6341
个,《罕用国字标准字体表》中使用频率较高的字 1311 个。
4、GB13000
GB13000 等同于国际标准的《通用多八位编码字符集 (UCS)》 ISO10646.1,就是等同于 Unicode
的标准,代码页等等的都使用UTF的一套标准。
从 ASCII、GB2312、GBK 到
GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为
0。按照程序员的称呼,GB2312、GBK 到 GB18030 都属于双字节字符集 (DBCS)。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。谷歌翻译中文简体GBK和gb18030有什么区别?_百度知道综合(10)
& & & &GB2312 是中国国家标准简体中文字符集,由中国国家标准总局发布,日实施。GB2312编码通行于中国大陆。新加坡等地也采用此编码,中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。
& & & &GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。GB 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字,GB 2312不能处理,因此后来GBK及GB 18030汉字字符集相继出现以解决这些问题。
& & & & 编码方式:
& & & &GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。
01-09区为特殊符号
16-55区为一级汉字,按拼音排序
56-87区为二级汉字,按部首/笔画排序
10-15区及88-94区则未有编码
GBK即汉字内码扩展规范,K即扩展。1993年,Unicode 1.1版本推出,收录中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,902个。中国大陆订定了等同于Unicode 1.1版本的“GB ”“信息技术通用多八位编码字符集(UCS)第一部分。
& & & &由于GB 2312-80只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“?”),部分人名用字(如中国前总理朱?基的“?”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是微软利用GB 2312-80未使用的编码空间,收录GB 全部字符制定了GBK编码。GBK是对GB2312-80的扩展,也就是CP936字码表 (Code Page 936)的扩展(之前CP936和GB 2312-80一模一样),最早实现Windows
95简体中文版。虽然GBK收录GB 的全部字符,但编码方式并不相同。
& & & &GBK自身并非国家标准,只是曾相关部门公布为“技术规范指导性文件”。原始GB13000一直未被业界采用,后续国家标准GB18030技术上兼容GBK而非GB13000。
& & & &编码方式
& & & &字符有一字节和双字节编码,00-7F范围内是一位,和ASCII一致,此范围内严格上说有96个文字和32个控制符号。GBK向下完全兼容GB2312-80编码。 支持GB2312-80编码不支持的部分中文姓,中文繁体,日文假名,还包括希腊字母以及俄语字母等字母。不过这种编码不支持韩国字,也是其在实际使用中与unicode编码相比欠缺的部分。
之后的双字节中,前一字节是双字节的第一位。总体上说第一字节的范围是81-FE(也就是不含80和FF),第二字节的一部分领域在40-7E,其他领域在80-FE。
3. GB18030
& & & &GB 18030,是中国现时最新的内码字集,是GB 的修订版。与GB 完全兼容,与GBK基本兼容,支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个。
& & & &GB 18030主要有以下特点: &
与 UTF-8 相同,采用多字节编码,每个字可以由1个、2个或4个字节组成编码空间庞大,最多可定义161万个字符
支持中国国内少数民族的文字,不需要动用造字区
汉字收录范围包含繁体汉字以及日韩汉字
& & & & 单字节,其值从0到0x7F。
& & & 双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
& & & 四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。
& & & GB ,兼容 Unicode 3.0 中日韩统一表意文字,共收27533个汉字;日发布
& & & GB ,更新至 Unicode 3.1 中日韩统一表意文字及增加少数民族文字,共有70244个汉字;日发布、日实施
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:56586次
积分:1163
积分:1163
排名:千里之外
原创:53篇
转载:40篇
(2)(1)(7)(19)(21)(18)(5)(4)(5)(8)(5)