最初期统一汉字
最初期的统一汉字(20,902字)字源来自以下字集: G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58个香港字和2个吏读字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字) T1:CNS 11643-1986第一字面:5,401+9字(含9个计量用汉字)
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字) J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字 K0:KS C 5601-87:4,888字(含268个重见字)
K1:KS C 5657-91:2,856字
以上的来源字集会实施字源分离原则。
另外还有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。
很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字,其实不然. 这6千多个汉字分别从以下字典或字集中取得:中国大陆 《康熙字典》5357字(独有1892字)
《汉语大字典》5888字(独有339字)
G3:GB 7589-87 繁体字:2391字
G5:GB 7590-87 繁体字:1226字
G7:120字 GS:新加坡汉字226字 台湾 T3:CNS 11643-1992 第三字面(原本为CNS 11643-1986第十四字面)新加入字元
T4:CNS 11643-1992 第四字面
T5:CNS 11643-1992 第五字面
T6:CNS 11643-1992 第六字面
T7:CNS 11643-1992 第七字面
TF:CNS 11643-1992 第十五字面
日本 JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
南韩 K2:PKS C 5700-1:1994 K3:PKS C 5700-2:1994
越南 V0:TCVN 5773:1993 V1:TCVN 6056:1995
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:
CNS 11643的第4平面到第15平面所收录的30,177个汉字;
在《汉语大字典》中出现的28,914个未收录汉字;
在《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现汉字);
在北朝鲜的国家标准所收录的5,642个汉字;
在越南的国家标准所收录的4,232个字喃;
HKSCS中出现的1,081个未收录汉字;
《汉语大词典》中出现的553个未收录汉字;
《四库全书》中出现的522个未收录汉字;
日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;
1980年代版本的《辞海》中出现的247个未收录汉字;
大韩民国PKS 5700-3:1998中出现的166个未收录汉字;
《中国大百科全书》中出现的86个未收录汉字;
《辞源》中出现的66个未收录汉字;
北大方正排版系统中出现的65个未收录汉字;
这堆汉字中重复的汉字有不少,所以经过整理之后,总数实际上只有42,711个汉字。
另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。 为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。
扩展C区按计划,中日韩统一表意文字扩展C区将收录4,251个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。字源分离原则
字源分离原则字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇、中国大陆作点、日本作横,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。
例如,日本的JIS标准同时收录了“剣”字与“剑”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。于是,字源分离原则因而诞生。
字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。
已统一的汉字原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是我的电脑提供的字型,未必代表该地区的标准写法)。 扩充区D包含的都是所谓的「急用汉字」,合共222个新汉字,于2010年下旬发布的Unicode6.0中,编码范围为 U+2B740 至 U+2B81F(实际有字符为 U+2B740 至 U+2B81D)。
扩展D区原本计划放置扩展C区未收录的16,000多个汉字,但在2007年5月,台湾撤消了6,545个第二部分字集内私用汉字,不再使用字,原因是那些人名用字的拥有人或已去世或已移居外地,此后扩展D区缩减到大约10,000字左右。,由于各种阻碍,协议先把数量较少,又急切要收录的汉字提交出来,就是「急用汉字」,以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字(本来有二百二十三字,但中国大陆撤回其中一字)。现在文字小组把第二部分字集延后到扩充E区。
中日韩越统一表意文字的字源
最初期统一汉字最初期的统一汉字(20,902字)字源来自以下字集: G0:GB 2312-80:6,763字G1:GB 12345-90:2,352字(含58个香港字和2个吏读字,不包括和G0重覆的字)G3:GB 7589-87:7,237字G5:GB 7590-87:7,039字G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)G8...
中日韩越统一表意文字的没有统一的汉字
值得注意的是字源分离原则由扩展A集 (ExtensionA) 开始已没有使用,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些字只有第一个会编入正式字集(包括Extension A,B,C) 中,其余的编入位于第二辅助平面的表意文字补充兼容区 (Compatibility Ideographs Supplement) 中。以下是所有摘...
中日韩越统一表意文字没有统一的汉字
中日韩越等东亚国家的文字在历史上曾试图统一表意文字,但因为遵循字源分离原则,导致一些字在不同地区有不同的写法,未能完全统一。Unicode标准中,为了避免混淆,只有部分字被编入正式字集,如Extension A、B、C,而形相近但未统一的字则被归入第二辅助平面的表意文字补充兼容区。以下是一些例子:U+4...
中日韩越统一表意文字的介绍
但中国认为,若各国各自为汉字编码,将不利于统一处理汉字,因而反对。为了日后关于汉字编码的讨论及方针能顺利进行,并呼吁WG 2 特别设置了中日韩联合研究小组(CJK-JRG,JointResearch Group,为表意文字小组的前身),以持续讨论。
国际标准CJK汉字字符集的选字原则是什么
CJK是CJKUnifiedIdeographs的缩写,C代表Chinese中文,J代表Japanese日本语,K代表Korean朝鲜语,中文意思是:中日韩统一表意文字。CJK的目的是要把分别来自中文、日文、韩文、越文中,本质、意义相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO10646及...
怎么打出中日韩统一表意文字?
氵:𣿅dǒng,𣿅𣿅口:𡀇dǒng,𡀇嘴 忄:懂dǒng,懂事 木:㯵 中日韩统一表意文字扩充A区 女:嬞dǒng,陈嬞 月:𦡂dǒng 中日韩统一表意文字扩充A区 厂:𠪵中日韩统一表意文字扩充B区 ...
浅谈汉字编码
CJK编码是中日韩统一表意文字的标准,包含了87888个字符,用于处理汉字文化圈的交流。至于"烫烫烫"的具体表现,比如在UTF-16和UTF-8编码中,不同的编码方式对应着不同的字符映射,这在编码转换过程中可能会引发误解和错误。总之,编程中的"烫烫烫"现象是编码问题的体现,了解编码原理能帮助我们更好地...
中文一共有多少个汉字,是字的都算!
GB 18030是中华人民共和国现时最新的内码字集,GBK收录简体、繁体及日语、韩语汉字20912个,而早期的GB 2312收录简体汉字6763个。而Unicode的中日韩统一表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字。初期的汉字系统字数不足,很多事物以通假字表示,使文字的表述存在较大歧义...
汉字的来源和传说
而Unicode的中日韩统一表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字。初期的汉字系统字数不足,很多事物以通假字表示,使文字的表述存在较大歧义。为完善表述的明确性,汉字经历了逐步复杂、字数大量增加的阶段。汉字数量的过度增加又引发了汉字学习的困难,单一汉字能表示的意义有限,于是有许多...
我国的汉字是怎样演变来的
汉字的演变过程从甲骨文(商代)-金文(西周)-篆书{大篆-小篆}(西周-秦代)-楷书(东汉)草书(汉代)-行书(东汉末年),我们今天所通用的汉字手写正体字便是东汉时期楷书。1、甲骨文指的是在殷商时代刻在龟甲和兽骨上的文字。其的内容主要是殷代王室刻在占卜用过的龟甲和兽骨上的记录,所以人们...