Unicode 1.0 - 通信用語の基礎知識

Unicodeの最初の版。

概要
沿革
特徴

対応言語
削除された6字
1.0.1での仕様変更
1.1での仕様変更

変更点
NON-SPACING → COMBINING
チベット文字
統廃合
符号位置変更

概要

Unicode 1.0の仕様書は、Latin部と漢字部の二分冊で出された。

Latin部のVolume 1は1991(平成3)年10月に、漢字部のVolume 2は1992(平成4)年6月に出版されている。

そして漢字部が出た際、Addendum(追補)としてUnicode 1.0.1という仕様変更を伴う修正が出されている。

1.0.1は、6文字の削除と、外字領域の符号位置の変更などがある。削除は、DIS 10646第二版(ISO/IEC 10646-1の前身)で採用されなかったため、とされている。

沿革

1991(平成3)年10月: Unicode 1.0.0
1992(平成4)年6月: Unicode 1.0.1

特徴

対応言語

Unicode 1.0.0時点では、まだ漢字に対応していない。CJK統合漢字は、Volume 2である1.0.1から追加された。

Unicode 1.0.1で利用可能な文字の種類は次のとおりである(文字番号順)。

Basic Latin (基本ラテン文字、ASCII)
Latin-1 Supplement (西欧のラテン文字、ISO/IEC 8859-1)
Latin Extended (東欧、北欧などのラテン文字)
Greek and Coptic (現代ギリシャ語[gre、ell、el]、コプト語[cop])
Cyrillic (キリル文字、ロシア語[rus、ru]など)
Armenian (アルメニア語[arm、hye、hy])
Hebrew (ヘブライ語[heb、he])
Arabic (アラビア語[ara、ar])
Devanagari (デヴァナガリ文字、サンスクリット語[san、sa])
Bengali (ベンガル語[ben、bn])
Gurmukhi (グルムキー文字、パンジャーブ語[pan、pa])
Gujarati (グジャラート語[guj、gu])
Oriya (オリヤー語[ori、or])
Tamil (タミル語[tam、ta])
Telugu (テルグ語[tel、te])
Kannada (カンナダ語[kan、kn])
Malayalam (マラヤーラム語[mal、ml])
Thai (タイ語[tha、th])
Lao (ラーオ語[lao、lo])
Tibetan (チベット語[tib、bod、bo])
Georgian (グルジア語[geo、kat、ka])
Hangul (ハングル、朝鮮語[kor、ko])
CJK統合漢字
ユーザー定義外字
CJK互換漢字

記号に近いものとして、次のような文字も収録されている。

Hiragana (日本語[jpn、ka])
Katakana (日本語[jpn、ka])
Bopomofo (注音字母(最少元素理解法))
Hangul字母 (ハングル、朝鮮語[kor、ko])
Kaeriten (返り点、IDEOGRAPHIC ANNOTATION)

削除された6字

Unicode 1.0.0にあり、Unicode 1.0.1で削除された2字は、次の通りである。

U+2300 APL COMPOSE OPERATOR
U+2301 APL OUT

Unicode 1.0.0にあり、Unicode 1.0.1で統廃合された4字は、次の通りである。

U+04C5→U+049A CYRILLIC CAPITAL LETTER KA OGONEK
U+04C6→U+049B CYRILLIC SMALL LETTER KA OGONEK
U+04C9→U+04B2 CYRILLIC CAPITAL LETTER KHA OGONEK
U+04CA→U+04B3 CYRILLIC SMALL LETTER KHA OGONEK

1.0.1での仕様変更

Unicode 1.0.1では、次の仕様変更が行なわれている。

CJK統合漢字の追加 (U+4E00～U+9FA5)
ユーザー定義外字の符号位置変更 (U+E800～U+FDFF→U+E000～U+F7FF)
CJK互換漢字の追加 (U+F900～U+FA2D)

このほか、Unicode 1.0.0ではBOMに使われるU+FEFFが「BYTE ORDER MARK」というそのままの名前だったが、Unicode 1.0.1では「ZERO WIDTH NO-BREAK SPACE」という名前に変更されている。

1.1での仕様変更

変更点

Unicode 1.0から、次の版であるUnicode 1.1で仕様変更になるのは、次の箇所である。

NON-SPACING → COMBINING
チベット文字(U+1000～U+104C)の削除
「仝」など幾つかの文字の統廃合
旧JISマーク「〓」の符号位置変更

詳細は、Unicode 1.1の項を参照のこと。

NON-SPACING → COMBINING

U+03xxなどを中心に存在する「NON-SPACING」(文字送りをしない)文字は、次のUnicode 1.1以降では「COMBINING」(結合)に変更されている。

名前と若干の機能が変更になっているようである。

新旧の両者を「同一の文字」と見なせるのかどうかは、議論の対象であろう。

チベット文字

Unicode 1.0.1までは、U+1000～U+104Cにチベット文字が存在したが、次のUnicode 1.1では文字が全て削除されている。

チベット文字は、Unicode 2.0から符号位置をU+0F00～U+0FFFに変えて、再定義された(配置、文字数などは異なる)。

統廃合

Unicode 1.1になるに際し、重複等を理由として統合される文字は、次の通りである。

矢印の左側がUnicode 1.0.0の番号、右がUnicode 1.1の番号だが、右の文字はUnicode 1.0にも存在する。つまり、右の文字番号に統廃合されたことになる。文字の名前は、Unicode 1.0での名称である。

U+0371→U+0314 GREEK NON-SPACING DASIA PNEUMATA
U+0372→U+0313 GREEK NON-SPACING PSILI PNEUMATA
U+0384→U+030D GREEK NON-SPACING TONOS
U+04C5→U+049A CYRILLIC CAPITAL LETTER KA OGONEK
U+04C6→U+049B CYRILLIC SMALL LETTER KA OGONEK
U+04C9→U+04B2 CYRILLIC CAPITAL LETTER KHA OGONEK
U+04CA→U+04B3 CYRILLIC SMALL LETTER KHA OGONEK
U+3004→U+4EDD IDEOGRAPHIC DITTO MARK

Unicode 1.0→1.1以降のコンバーターを作る場合は、片方向変換をすることになる。

符号位置変更

以下の文字は、Unicode 1.1以降で符号位置が変更になる。

U+0370→U+0345 GREEK NON-SPACING IOTA BELOW
U+0385→U+0344 GREEK NON-SPACING DIAERESIS TONOS
U+03D7→U+037E GREEK QUESTION MARK
U+03D8→U+0374 GREEK UPPER NUMERAL SIGN
U+03D9→U+0375 GREEK LOWER NUMERAL SIGN
U+03F3→U+0384 GREEK SPACING TONOS
U+03F4→U+0385 GREEK SPACING DIAERESIS TONOS
U+03F5→U+037A GREEK SPACING IOTA BELOW
U+05F5→U+FB1E HEBREW POINT VARIKA
U+32FF→U+3004 JAPANESE INDUSTRIAL STANDARD SYMBOL

リンク

用語の所属

Unicode
関連する用語