`

ANSI和Unicode中的汉字编码 (转)

    博客分类:
  • JAVA
阅读更多

ANSI:汉字区的内码范围高字节从B0-F7,低字节从A1-FE
Unicode:汉字的Unicode编码范围为\u4E00-\u9FA5 \uF900-\uFA2D,如果不在这个范围内就不是汉字了.

GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

Unicode 汉字内码的汉字区为4E00-9FA5, 共有20902个汉字

BIG5 是台湾计算机界实行的汉字编码字符集。它包含了 420 个图形符号和 13070 个汉字(不包含简化汉字)。编码范围是 0x8140-0xFE7E、0x81A1-0xFEFE,其中 0xA140-0xA17E、0xA1A1-0xA1FE 是图形符号区,0xA440-0xF97E、0xA4A1-0xF9FE 是汉字区。

 

概况

1993年,Unicode 1.1版本推出,收录了中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,902个。

中国大陆订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面”。

由于GB 2312-80只收录了6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有 收录在内。中文电脑开发商,于是利用了GB 2312-80未有使用的编码空间,收录了所有出现在Unicode 1.1及GB 13000.1-93之中的汉字,制定了GBK编码。

根据西方资料,GBK最初是由微软对GB2312的扩展,也就是CP936字码表 (Code Page 936)的扩展(原来的CP936和GB 2312-80一模一样),最初出现于Windows 95简体中文版中,由于Windows产品的流行和在大陆广泛被使用,中华人民共和国国家有关部门将其作为技术规范。注意GBK并非国家正式标准,只是国 家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然GBK收录了所有Unicode 1.1及GB 13000.1-93之中的汉字,但是编码方式与Unicode 1.1及GB 13000.1-93不同。仅仅是GB 2312到GB 13000.1-93之间的过渡方案。

中华人民共和国国家标准总局于2000年推出了GB 18030-2000标准,以取代GBK。GB 18030-2000除了保留了全部GBK编码的汉字外,还增加了大约一百个汉字及四位元组编码空间。

 

 

unicode码的分布情况

*******************************************************
0000..007F;   Basic   Latin
0080..00FF;   Latin-1   Supplement
0100..017F;   Latin   Extended-A
0180..024F;   Latin   Extended-B
0250..02AF;   IPA   Extensions
02B0..02FF;   Spacing   Modifier   Letters
0300..036F;   Combining   Diacritical   Marks
0370..03FF;   Greek
0400..04FF;   Cyrillic
0530..058F;   Armenian
0590..05FF;   Hebrew
0600..06FF;   Arabic
0700..074F;   Syriac    
0780..07BF;   Thaana
0900..097F;   Devanagari
0980..09FF;   Bengali
0A00..0A7F;   Gurmukhi
0A80..0AFF;   Gujarati
0B00..0B7F;   Oriya
0B80..0BFF;   Tamil
0C00..0C7F;   Telugu
0C80..0CFF;   Kannada
0D00..0D7F;   Malayalam
0D80..0DFF;   Sinhala
0E00..0E7F;   Thai
0E80..0EFF;   Lao
0F00..0FFF;   Tibetan
1000..109F;   Myanmar  
10A0..10FF;   Georgian
1100..11FF;   Hangul   Jamo
1200..137F;   Ethiopic
13A0..13FF;   Cherokee
1400..167F;   Unified   Canadian   Aboriginal   Syllabics
1680..169F;   Ogham
16A0..16FF;   Runic
1780..17FF;   Khmer
1800..18AF;   Mongolian
1E00..1EFF;   Latin   Extended   Additional
1F00..1FFF;   Greek   Extended
2000..206F;   General   Punctuation
2070..209F;   Superscripts   and   Subscripts
20A0..20CF;   Currency   Symbols
20D0..20FF;   Combining   Marks   for   Symbols
2100..214F;   Letterlike   Symbols
2150..218F;   Number   Forms
2190..21FF;   Arrows
2200..22FF;   Mathematical   Operators
2300..23FF;   Miscellaneous   Technical
2400..243F;   Control   Pictures
2440..245F;   Optical   Character   Recognition
2460..24FF;   Enclosed   Alphanumerics
2500..257F;   Box   Drawing
2580..259F;   Block   Elements
25A0..25FF;   Geometric   Shapes
2600..26FF;   Miscellaneous   Symbols
2700..27BF;   Dingbats
2800..28FF;   Braille   Patterns
2E80..2EFF;   CJK   Radicals   Supplement
2F00..2FDF;   Kangxi   Radicals
2FF0..2FFF;   Ideographic   Description   Characters
3000..303F;   CJK   Symbols   and   Punctuation
3040..309F;   Hiragana
30A0..30FF;   Katakana
3100..312F;   Bopomofo
3130..318F;   Hangul   Compatibility   Jamo
3190..319F;   Kanbun
31A0..31BF;   Bopomofo   Extended
3200..32FF;   Enclosed   CJK   Letters   and   Months
3300..33FF;   CJK   Compatibility
3400..4DB5;   CJK   Unified   Ideographs   Extension   A
4E00..9FFF;   CJK   Unified   Ideographs
A000..A48F;   Yi   Syllables
A490..A4CF;   Yi   Radicals
AC00..D7A3;   Hangul   Syllables
D800..DB7F;   High   Surrogates
DB80..DBFF;   High   Private   Use   Surrogates
DC00..DFFF;   Low   Surrogates
E000..F8FF;   Private   Use
F900..FAFF;   CJK   Compatibility   Ideographs
FB00..FB4F;   Alphabetic   Presentation   Forms
FB50..FDFF;   Arabic   Presentation   Forms-A
FE20..FE2F;   Combining   Half   Marks
FE30..FE4F;   CJK   Compatibility   Forms
FE50..FE6F;   Small   Form   Variants
FE70..FEFE;   Arabic   Presentation   Forms-B
FEFF..FEFF;   Specials
FF00..FFEF;   Halfwidth   and   Fullwidth   Forms
FFF0..FFFD;   Specials
10300..1032F;   Old   Italic
10330..1034F;   Gothic
10400..1044F;   Deseret
1D000..1D0FF;   Byzantine   Musical   Symbols
1D100..1D1FF;   Musical   Symbols
1D400..1D7FF;   Mathematical   Alphanumeric   Symbols
20000..2A6D6;   CJK   Unified   Ideographs   Extension   B
2F800..2FA1F;   CJK   Compatibility   Ideographs   Supplement
E0000..E007F;   Tags
F0000..FFFFD;   Private   Use
100000..10FFFD;   Private   Use

分享到:
评论
1 楼 Stark_Summer 2015-08-09  
赞  就是感觉过于概念了。还是不能很明白

相关推荐

    汉字内码查询器,包括unicode和Ansi码

    汉字内码查询器,包括unicode和Ansi码,本人已经验证过可以用的!

    C++Builder String,UNICODE,UTF8,ANSI互转的类.rar_c

    C++Builder String,UNICODE,UTF8,ANSI互转的类,类的互相转换

    编码批量转换工具

    批量字符编码转换工具可以在gbk,gb23123,unicode,utf8,ansi之间进行汉字编码转换。 【软件特点】 1 支持格式众多的字符串编码转换器 支持几十种字符编码转换。比如utf8转gbk,gb2312转utf8,ansi转utf8,utf8 unicode...

    Qt中的字符编码转换:UTF8、Unicode、GBK、ASCII、16进制字符、16进制数值

    Qt字符转换,串口接收数据转为中文显示可用。Qt中的字符编码转换:UTF8、Unicode、GBK、ASCII、16进制字符、16进制数值

    UNICODE_2.00_编码转换.rar

    Text、ansi、unicode、unibigend、UTF-8、UTF-7之间的编码转换 汉字转ucs2格式

    unicode、utf-8、ansi的故事及其相互转换.txt

    Unicode一种压缩形式,英文A在unicode中表示为0x0041,老外觉得这种存储方式太浪费,因为浪费了50%的空间,于是就把英文压缩成1 个字节,成了utf8编码,但是汉字在utf8中占3个字节,显然用做中文不如ansi合算,这...

    UTF-8 Unicode Ansi 汉字GB2321几种编码转换程序

    今天搞sxna,遇到了编码转换的难题,搞了一个多小时,历尽千辛万苦,总算总结了如下的汉字转换为各种UTF-8 Unicode Ansi编码的程序.不敢独享,特此奉献给各位编程爱好者! ——————————————————...

    批量字符编码转换工具 20070709

    批量字符编码转换工具可以在gbk,gb23123,unicode,utf8,ansi之间进行汉字编码转换。 批量字符编码转换工具的特色: 1 支持格式众多的字符串编码转换器 支持几十种字符编码转换。比如utf8转gbk,gb2312转utf8,ansi转...

    浅谈文字编码和Unicode

    浅谈文字编码和Unicode, 详细讲解了汉字在计算机中是如何编码和存储的,让你明白为什么我们打开文档时有时会出现乱码!

    PB的utf-8转换

    PB的utf-8转换,包括加码解码等等 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

    【编程】编码互转工具

    简介:输入汉字或编码后,点击后面的转换选项即可。 可实现汉字、ANSI编码、UTF-8编码、UniCode编码之间相互转化。 更正:窗体内空白处单击,会清除前四个文本档内的内容。

    文本字符串编码查询v2.0

    目前最好用的编码查询工具,可以在 Text、ANSI、Unicode、Unicode Big Endian、UTF-8、 UTF-7 之间的互相转换,转换结果使用十六进制表示。 输入汉字可查询相应的十六进制码 输入十六进制码也可以反查汉字

    VC++6.0核心编程源码.rar

    第一部分 程序员必读 第一章 对程序错误的处理 在我们开始介绍Microsoft Windows应该提供的许多特性之前,我们首先...关于Unicode的问题,我在本书的每一章中几乎都要讲到,而且本书中给出的所有示例应用程序都是...

    love string 超好用的字符编码查询工具

     文本字符串编码在 Text、ANSI、Unicode、Unicode Big Endian、UTF-8、 UTF-7 之间的互相转换,转换结果使用十六进制表示。 ******* STR *****************  * 运行环境 *  本软件在 Windows 98、Windows 2000...

    BasicExcel_demo

    BasicExcel_demo采用com方式实现,访问速度快,api接口也比较简单,可以随意设置excel中field内容的类型,但是对于中文的支持不好,要自己处理汉字编码,支持ansi字符和unicode字符。刚开始的时候写入的汉字都是乱码...

    计算机网络安全技术:文本文件是如何用二进制表示的.pdf

    几种不同的汉字编码标准,圈越大表示包含的汉字越多。 一、文字编码 2.ANSI编码: 在windows 自带的记事本程序写 几个字 “锦瑟无端五十弦”,以默 认的编码方式ANSI 保存文件。 (ANSI 对于英文用ASCII 编码,对 于...

    MFC界面实现文件转码

    MFC界面实现文件转码,目前支持Unicode、ANSI、UTF8三种编码格式相互转化,利用C++多态性质采用工厂模式,便于扩展更多编码格式;部分采用多线程

    超级批量文本替换工具

    4.支持Unicode/UTF8编码的文件格式 5.支持文件备份并且可以进行文件恢复操作 6.多重替换无限量,可自行编辑替换规则 7.支持多目录查找以及将查找到的文件作为目标替换文件 8.实时进度显示,可以在替换过程中暂停和...

    SuperNotepad

    24) 可设置字符内部编码 (注:分Unicdoe和ANSI两种;[设置]->[设置字符编码类型]中设定) 6.计算功能支持函数清单: (注:num 表示数字; "" 表示字符/串请保留双引号""; ... 表示数字或字符/串; [] 表示可选参数)...

Global site tag (gtag.js) - Google Analytics