
Unicode 5.0标準
《Unicode 5.0标準》是清华大学出版社于2010年出版的图书,由Unicode协会 编,孙伟峰、李德龙译。
基本介绍
- 书名:Unicode 5.0标準
- 作者:Unicode协会
- 译者:孙伟峰、李德龙
- ISBN:9787302212447
- 页数:1358页
- 定价:198.00
- 出版社:清华大学出版社
- 出版时间:2010-1-1
- 装帧:平装
- 开本:16开
- 字数:2057000
编辑推荐
以上权威人士和其他软体领域的专家都意识到,Unicode已经成为一个支撑与日俱增的全球化市场必不可少的工具。作为一个表示全世界所有字母的标準的综合系统,Unicode是现代编程技术(Windows、XML、Python、PERL、Mac OS和Linux)和当今操作中每种搜寻引擎及浏览器的基础。
Unicode最新版的官方参考手册已经在最新的Unicode标準修订版文档中有了几百页的更新。其中包括对文本、图表、定义和一致性语句的修订,并为常见问题提供了清晰和正确的答案。《Unicode 5.0标準》首次包含了Unicode标準附属档案,附属档案中说明了一些诸如文本标準化和标识符分解等重要的处理过程。
这些改进非常重要,所以Unicode标準5.0版本是微软公司最新的Windows 7作业系统的基础,同时该版本也是Google、Yahoo和ICU升级方案的一部分。
Unicode标準5.0版本与以前版本的不同之处:
Unicode安全机制的稳固基础
Unicode校勘算法和通用区域资料库(CLDP)的属性数据
改进的UTF-8 Unicode编码模式
严密稳定的大小写重叠和标识符间更好的互用性及后台兼容性——能够利用新的方法最佳化代码
更可靠的文本处理系统框架——涵盖合成字元、Unicode字元串、断行和分段等
Unicode最新版的官方参考手册已经在最新的Unicode标準修订版文档中有了几百页的更新。其中包括对文本、图表、定义和一致性语句的修订,并为常见问题提供了清晰和正确的答案。《Unicode 5.0标準》首次包含了Unicode标準附属档案,附属档案中说明了一些诸如文本标準化和标识符分解等重要的处理过程。
这些改进非常重要,所以Unicode标準5.0版本是微软公司最新的Windows 7作业系统的基础,同时该版本也是Google、Yahoo和ICU升级方案的一部分。
Unicode标準5.0版本与以前版本的不同之处:
Unicode安全机制的稳固基础
Unicode校勘算法和通用区域资料库(CLDP)的属性数据
改进的UTF-8 Unicode编码模式
严密稳定的大小写重叠和标识符间更好的互用性及后台兼容性——能够利用新的方法最佳化代码
更可靠的文本处理系统框架——涵盖合成字元、Unicode字元串、断行和分段等
内容简介
在计算机发展的初期,由于各个计算机系统都是相对独立诞生的,因此曾出现过多达数百种编码系统,但每种编码系统都不能包含全部的字元,并且系统相互之间并不兼容,给信息交换带来了麻烦和安全隐患。于是,很多国家都制定了计算机信息交换用的字元编码集,如美国的扩展ASCII码、中国的GB2312-80、日本的JIS等,作为相应国家信息处理的基础,起着统一编码的重要作用。
但随着Web的广泛套用,尤其是近年来支持多语言(如中、英、日)的套用已成为大势所趋。这些国家标準字元集编码也出现了範围重叠、相互间的信息交换比较困难的情况,造成软体各个本地化版本的维护成本较高,基于不同环境的程式编写越来越複杂。
Unicode有效解决了这些问题,它几乎包括所有的(超过十万个)语言字元。基于Unicode编码标準的信息和程式能够在不同平台和环境下高效地进行交换和运行,极大简化了套用的开发过程。为此,Windows早在90年代就已经将Unicode作为自身的编码标準,XML和Python、PERL、Mac OS和Linux等程式语言也都提供了对Unicode编码的支持。
目前,国内关于Unicode的书籍非常少,为了满足读者的迫切需求,清华大学出版社引进了这本由致力于Unicode编码系统研究、推广和套用的国际权威组织——The Unicode Consortium(Unicode协会)组织编写的经典图书。为了保持原书的系统性和规範性,儘可能为读者提供标準的第一手资料,我们对该书的中文版译本做了一些调整,主要体现在以下几个方面:
● 第1~6章是完整的中文译本。前5章主要是关于Unicode标準的基本概念、原理、一致性、字元属性和实现方法等内容,第6章主要是世界範围内使用的书写系统和标点的相关介绍。
● 第7~16章採用英文影印的方式,最大化地保留了原书的内容,但为了方便读者查找相关内容,我们加了中文导读信息。这部分主要是关于各种语言文字及符号的基本介绍,如拉丁字元、中东字元、南亚字元、东亚字元、新增的现代字元、各种符号、特殊区域和格式字元等基本信息。
● 第17章是完整的Unicode编码表,这部分内容按照不同字元块的分区,以表格的形式体现出来,以便于读者查阅。
● 第18章是汉字偏旁-笔画索引,因这部分内容是我们日常使用最广泛的信息,故完全採用中文译本。
● 附录A~F、术语表、参考文献、Unicode名称索引以及Unicode标準附属档案全部採用英文影印方式,以便于读者查阅最原始的资料、文献和技术标準。
但随着Web的广泛套用,尤其是近年来支持多语言(如中、英、日)的套用已成为大势所趋。这些国家标準字元集编码也出现了範围重叠、相互间的信息交换比较困难的情况,造成软体各个本地化版本的维护成本较高,基于不同环境的程式编写越来越複杂。
Unicode有效解决了这些问题,它几乎包括所有的(超过十万个)语言字元。基于Unicode编码标準的信息和程式能够在不同平台和环境下高效地进行交换和运行,极大简化了套用的开发过程。为此,Windows早在90年代就已经将Unicode作为自身的编码标準,XML和Python、PERL、Mac OS和Linux等程式语言也都提供了对Unicode编码的支持。
目前,国内关于Unicode的书籍非常少,为了满足读者的迫切需求,清华大学出版社引进了这本由致力于Unicode编码系统研究、推广和套用的国际权威组织——The Unicode Consortium(Unicode协会)组织编写的经典图书。为了保持原书的系统性和规範性,儘可能为读者提供标準的第一手资料,我们对该书的中文版译本做了一些调整,主要体现在以下几个方面:
● 第1~6章是完整的中文译本。前5章主要是关于Unicode标準的基本概念、原理、一致性、字元属性和实现方法等内容,第6章主要是世界範围内使用的书写系统和标点的相关介绍。
● 第7~16章採用英文影印的方式,最大化地保留了原书的内容,但为了方便读者查找相关内容,我们加了中文导读信息。这部分主要是关于各种语言文字及符号的基本介绍,如拉丁字元、中东字元、南亚字元、东亚字元、新增的现代字元、各种符号、特殊区域和格式字元等基本信息。
● 第17章是完整的Unicode编码表,这部分内容按照不同字元块的分区,以表格的形式体现出来,以便于读者查阅。
● 第18章是汉字偏旁-笔画索引,因这部分内容是我们日常使用最广泛的信息,故完全採用中文译本。
● 附录A~F、术语表、参考文献、Unicode名称索引以及Unicode标準附属档案全部採用英文影印方式,以便于读者查阅最原始的资料、文献和技术标準。
媒体评论
多年来,Unicode标準的複製版本已经成为我的个人藏书中最重要和使用频率最高的一本书。
——高德纳,美国着名计算机科学家,图灵奖获得者,被誉为现代计算机科学的鼻祖
十几年来,Unicode已经成为许多微软产品和技术的基础。Unicode标準5.0版本将给客户提供更多新的功能。
——比尔·盖茨,微软公司创始人,前任董事长兼执行长
W3C使网路上的文本真正全球化,而W3C遵从的正是Unicode标準。
——蒂姆·伯纳斯-李,Web发明者和全球资讯网联盟(W3C)主席
没有Unicode,Java就不能称之为Java,网际网路也不能很好地连线全世界的人们。
——詹姆斯·戈士林,Java之父,SUN公司全球副总裁
目录
第1章 绪论 3
1.1 覆盖範围 4
1.1.1 Unicode标準覆盖面 5
1.1.2 新字元 5
1.2 设计目标 5
1.3 文本处理 6
第2章 总结构 11
2.1 前后结构关係 11
2.1.1 基本文本处理过程 11
2.1.2 文本要素、字元和文本处理过程 12
2.1.3 文本处理和编码 13
2.2 Unicode 设计原则 14
2.2.1 通用性 14
2.2.2 有效性 15
2.2.3 字元,而非字形 15
2.2.4 语义 17
2.2.5 纯文本 17
2.2.6 逻辑顺序 18
2.2.7 一致性 19
2.2.8 动态合成 20
2.2.9 稳定性 21
2.2.10 可转换性 21
2.3 兼容性字元 21
2.3.1 兼容性变数 21
2.3.2 兼容性可分解字元 22
2.3.3 映射兼容性字元 22
2.4 代码点和字元 23
2.5 编码格式 25
2.5.1 UTF-32 27
2.5.2 UTF-16 28
2.5.3 UTF-8 28
2.5.4 UTF-32、UTF-16和UTF-8优点的比较 29
2.6 编码方案 30
2.7 Unicode 字元串 32
2.8 Unicode分配 33
2.8.1 平面 33
2.8.2 分配区域和字元代码块 34
2.8.3 代码点的分配 35
2.9 字元分配 35
2.9.1 Plane 0(BMP) 36
2.9.2 Plane 1 38
2.9.3 Plane 2 39
2.9.4 其他平面 39
2.10 书写方向 39
2.11 合成字元 40
2.11.1 基本字元序列和读音符号 41
2.11.2 多重合成字元 42
2.11.3 连字式多重基本字元 44
2.11.4 隔离中的非间隔标记 44
2.11.5 “字元”和字形串 44
2.12 等价序列和规範化 45
2.13 特殊字元和非字元 48
2.13.1 特殊非字元代码点 48
2.13.2 位元组顺序标记(BOM) 48
2.13.3 布局和格式控制字元 48
2.13.4 替换字元 49
2.13.5 控制码 49
2.14 Unicode标準的一致性 49
2.14.1 一致性实现的特徵 49
2.14.2 不可接受的行为 49
2.14.3 可接受的行为 50
2.14.4 支持的子集 50
第3章 一致性 53
3.1 Unicode标準的版本 53
3.1.1 稳定性 54
3.1.2 版本编号 54
3.1.3 勘误表 55
3.1.4 Unicode标準引用 55
3.1.5 版本引用的精确性 55
3.1.6 Unicode字元属性的引用 56
3.1.7 Unicode算法的引用 56
3.2 一致性要求 56
3.2.1 抽象字元的未指派代码点 57
3.2.2 说明 57
3.2.3 修改 58
3.2.4 字元编码格式 58
3.2.5 字元编码方案 59
3.2.6 双向文本 59
3.2.7 标準化格式 59
3.2.8 标準引用 59
3.2.9 Unicode算法 60
3.2.10 默认大小写算法 60
3.2.11 标準附属档案 60
3.3 语义 61
3.3.1 定义 61
3.3.2 字元特性及其语义 61
3.4 字元与编码 62
3.5 属性 64
3.5.1 属性的类型 65
3.5.2 属性值 65
3.5.3 标準化属性与信息化属性 67
3.5.4 上下文依赖属性 69
3.5.5 属性的稳定性 69
3.5.6 简单属性与衍生属性 70
3.5.7 属性别名 70
3.5.8 私人使用 71
3.6 合成 71
3.7 分解 73
3.7.1 兼容分解 74
3.7.2 规範分解 74
3.8 替代 75
3.9 Unicode编码格式 76
3.9.1 UTF-32 78
3.9.2 UTF-16 79
3.9.3 UTF-8 79
3.9.4 编码格式转换 81
3.10 Unicode编码方案 81
3.11 规範排序行为 84
3.11.1 合成标记的套用 85
3.11.2 合成类 88
3.11.3 规範排序 89
3.12 连线Jamo行为 90
3.12.1 定义 90
3.12.2 确定Hangul音节界限 91
3.12.3 标準韩语音节 92
3.12.4 Hangul音节构成 93
3.12.5 Hangul音节分解 94
3.12.6 Hangul音节名的生成 95
3.13 默认大小写算法 95
3.13.1 定义 95
3.13.2 默认大小写转换 96
3.13.3 默认大小写探测 97
3.13.4 默认无大小写匹配 98
第4章 字元属性 101
4.1 Unicode字元资料库 102
4.2 大小写形式 103
4.3 合成类 104
4.4 定向 108
4.5 一般分类 108
4.6 数值 110
4.7 Bidi镜像 112
4.8 名称 112
4.9 Unicode 1.0中的名称 114
4.10 字母、字母文字和表意字元 114
4.11 文本边界属性 115
4.12 特殊属性的字元 115
第5章 实现原则 121
5.1 与其他标準的编码转换 121
5.1.1 讨论 121
5.1.2 多级表 122
5.2 程式语言和数据类型 123
5.3 不可知字元和遗漏字元 124
5.3.1 保留字元代码和专用字元代码 124
5.3.2 可解释但不可引用的字元 125
5.3.3 默认属性值 125
5.3.4 默认可忽略代码点 125
5.3.5 与低级系统的互动 125
5.4 UTF-16中替代对的处理 125
5.5 数字的处理 127
5.6 标準化 128
5.7 压缩 129
5.8 换行原则 129
5.8.1 定义 130
5.8.2 行分隔设定和段落分隔设定 131
5.8.3 建议 131
5.9 正则表达式 133
5.10 纯文本中的语言信息 133
5.10.1 使用语言标籤的条件 133
5.10.2 语言标籤和汉字的统一 134
5.11 编辑和选择 134
5.12 非间隔标记的处理策略 136
5.12.1 键盘输入 137
5.12.2 字元的截短 137
5.13 非间隔标记的显示 138
5.13.1 规範等价 141
5.13.2 定位方法 142
5.14 定位文本元素边界 144
5.15 标识符 144
5.16 排序与搜寻 144
5.16.1 结合文化背景的排序和搜寻 144
5.16.2 对语言不敏感的排序(Language-Insensitive Sorting) 145
5.16.3 搜寻 145
5.16.4 次线性搜寻(Sublinear Searching) 146
5.17 二进制排序 146
5.17.1 UTF-16顺序的UTF-8编码 147
5.17.2 UTF-8顺序的UTF-16编码 147
5.18 大小写映射 148
5.18.1 标题样式 149
5.18.2 大小写映射的複杂性 149
5.18.3 可逆性 151
5.18.4 无大小写区别的匹配 151
5.18.5 标準化 153
5.19 Unicode的安全性 154
5.20 默认的可忽略代码点 156
第6章 书写系统与标点符号 161
6.1 书写系统 161
6.2 一般标点符号 164
6.2.1 标点符号块 166
6.2.2 格式控制符 166
6.2.3 间隔字元 166
6.2.4 破折号与连字元 168
6.2.5 成对的标点符号 169
6.2.6 引号的使用方法 170
6.2.7 撇号 172
6.2.8 其他标点符号 172
6.2.9 古代的标点符号和编辑标记 175
6.2.10 印度标点符号 177
6.2.11 CJK标点符号 177
6.2.12 未知的或难以获得的表意文字 178
6.2.13 CJK兼容格式 179
第7章 欧洲字元 183
7.1 拉丁文 184
7.2 希腊文 195
7.3 科普特文 201
7.4 西里尔文 203
7.5 格拉哥里文 204
7.6 亚美尼亚文 205
7.7 乔治亚文 207
7.8 修饰字母 208
7.9 合成标记 210
第8章 中东字元 221
8.1 希伯来文 222
8.2 阿拉伯文 227
8.3 叙利亚文 241
8.4 马尔地夫文 249
第9章 南亚字元-I 253
9.1 天城体 254
9.2 孟加拉文 270
9.3 果鲁穆奇文 275
9.4 古吉拉特文 279
9.5 奥里亚文 280
9.6 泰米尔文 282
9.7 泰卢固文 288
9.8 埃纳德文 289
9.9 马拉雅拉姆文 292
第10章 南亚字元-Ⅱ 299
10.1 僧伽罗文 299
10.2 藏文 301
10.3 八思巴字 311
10.4 林布文 318
10.5 Syloti Nagri 321
10.6 迦娄士悌文 322
第11章 东南亚字元 331
11.1 泰文 331
11.2 寮国文 334
11.3 缅甸文 337
11.4 高棉文 340
11.5 德宏傣文 351
11.6 新傣文 352
11.7 菲律宾文 353
11.8 布吉文 355
11.9 巴厘文 357
第12章 东亚字元 365
12.1 汉字 366
12.2 象形描述字元 385
12.3 注音符号 389
12.4 平假名和片假名 391
12.5 半角和全形字元 392
12.6 韩文 393
12.7 彝文 396
第13章 附加的现代字元 403
13.1 衣索比亚文 403
13.2 蒙古文 406
13.3 奥斯马尼亚文 415
13.4 提非纳文 415
13.5 N'Ko字母 416
13.6 切罗基文 420
13.7 加拿大土着语 421
13.8 德塞雷特大学音标 422
13.9 萧伯纳速记符号 424
第14章 古代字元 429
14.1 欧甘文 430
14.2 古义大利文 431
14.3 如尼文 433
14.4 哥特文 435
14.5 线形文字B 436
14.6 赛普勒斯音节文字 437
14.7 腓尼基文 438
14.8 乌加里特楔形文字 440
14.9 古波斯文 441
14.10 苏美尔-阿卡德楔形文字 441
第15章 符号 447
15.1 货币符号 448
15.2 类似字母符号 450
15.3 数字格式 456
15.4 数学符号 460
15.5 不可见数学运算符 465
15.6 技术符号 466
15.7 几何符号 470
15.8 杂类符号和装饰符号 472
15.9 带括弧的字母数字和矩形符号 475
15.10 盲文符号 477
15.11 西方音乐符号 478
15.12 拜占庭音乐符号 483
15.13 古希腊音乐符号 484
第16章 特殊区域和格式字元 489
16.1 控制代码 490
16.2 布局控制符 492
16.3 不推荐使用的格式字元 501
16.4 字型变换选择器 503
16.5 专用字元 504
16.6 替代区域 506
16.7 非字元区域 507
16.8 特殊字元 508
16.9 标籤字元 512
第17章 编码表 521
17.1 字元名称列表 521
17.2 CJK统一表意文字 527
17.3 韩语音节 528
第18章 汉字偏旁-笔画索引 981
附录A 符号规定 1035
附录B Unicode出版物和资源 1041
附录C 与ISO/IEC 10646的关係 1049
附录D Unicode标準版本的发展历程 1057
附录E 统一汉字字元集的历史 1073
附录F Unicode编码稳定性策略 1077
术语表 1083
参考文献 1111
Unicode名称索引 1137
Unicode标準附属档案#9 1189
Unicode标準附属档案#11 1213
Unicode标準附属档案#14 1221
Unicode标準附属档案#15 1271
Unicode标準附属档案#24 1303
Unicode标準附属档案#29 1311
Unicode标準附属档案#31 1331
Unicode标準附属档案#34 1343
Unicode标準附属档案#41 1349
名家书评 1357
转载请注明出处海之美文 » Unicode 5.0标準