Unicodeの最初の版。
Unicode 1.0の仕様書は、Latin部と漢字部の二分冊で出された。
Latin部のVolume 1は1991(平成3)年10月に、漢字部のVolume 2は1992(平成4)年6月に出版されている。
そして漢字部が出た際、Addendum(追補)としてUnicode 1.0.1という仕様変更を伴う修正が出されている。
1.0.1は、6文字の削除と、外字領域の符号位置の変更などがある。削除は、DIS 10646第二版(ISO/IEC 10646-1の前身)で採用されなかったため、とされている。
- 1991(平成3)年10月: Unicode 1.0.0
- 1992(平成4)年6月: Unicode 1.0.1
Unicode 1.0.0時点では、まだ漢字に対応していない。CJK統合漢字は、Volume 2である1.0.1から追加された。
Unicode 1.0.1で利用可能な文字の種類は次のとおりである(文字番号順)。
- Basic Latin (基本ラテン文字、ASCII)
- Latin-1 Supplement (西欧のラテン文字、ISO/IEC 8859-1)
- Latin Extended (東欧、北欧などのラテン文字)
- Greek and Coptic (現代ギリシャ語[gre、ell、el]、コプト語[cop])
- Cyrillic (キリル文字、ロシア語[rus、ru]など)
- Armenian (アルメニア語[arm、hye、hy])
- Hebrew (ヘブライ語[heb、he])
- Arabic (アラビア語[ara、ar])
- Devanagari (デヴァナガリ文字、サンスクリット語[san、sa])
- Bengali (ベンガル語[ben、bn])
- Gurmukhi (グルムキー文字、パンジャーブ語[pan、pa])
- Gujarati (グジャラート語[guj、gu])
- Oriya (オリヤー語[ori、or])
- Tamil (タミル語[tam、ta])
- Telugu (テルグ語[tel、te])
- Kannada (カンナダ語[kan、kn])
- Malayalam (マラヤーラム語[mal、ml])
- Thai (タイ語[tha、th])
- Lao (ラーオ語[lao、lo])
- Tibetan (チベット語[tib、bod、bo])
- Georgian (グルジア語[geo、kat、ka])
- Hangul (ハングル、朝鮮語[kor、ko])
- CJK統合漢字
- ユーザー定義外字
- CJK互換漢字
記号に近いものとして、次のような文字も収録されている。
- Hiragana (日本語[jpn、ka])
- Katakana (日本語[jpn、ka])
- Bopomofo (注音字母(最少元素理解法))
- Hangul字母 (ハングル、朝鮮語[kor、ko])
- Kaeriten (返り点、IDEOGRAPHIC ANNOTATION)
Unicode 1.0.0にあり、Unicode 1.0.1で削除された2字は、次の通りである。
- U+2300 APL COMPOSE OPERATOR
- U+2301 APL OUT
Unicode 1.0.0にあり、Unicode 1.0.1で統廃合された4字は、次の通りである。
- U+04C5→U+049A CYRILLIC CAPITAL LETTER KA OGONEK
- U+04C6→U+049B CYRILLIC SMALL LETTER KA OGONEK
- U+04C9→U+04B2 CYRILLIC CAPITAL LETTER KHA OGONEK
- U+04CA→U+04B3 CYRILLIC SMALL LETTER KHA OGONEK
Unicode 1.0.1では、次の仕様変更が行なわれている。
- CJK統合漢字の追加 (U+4E00〜U+9FA5)
- ユーザー定義外字の符号位置変更 (U+E800〜U+FDFF→U+E000〜U+F7FF)
- CJK互換漢字の追加 (U+F900〜U+FA2D)
このほか、Unicode 1.0.0ではBOMに使われるU+FEFFが「BYTE ORDER MARK」というそのままの名前だったが、Unicode 1.0.1では「ZERO WIDTH NO-BREAK SPACE」という名前に変更されている。
変更点
Unicode 1.0から、次の版であるUnicode 1.1で仕様変更になるのは、次の箇所である。
- NON-SPACING → COMBINING
- チベット文字(U+1000〜U+104C)の削除
- 「仝」など幾つかの文字の統廃合
- 旧JISマーク「〓」の符号位置変更
詳細は、Unicode 1.1の項を参照のこと。
NON-SPACING → COMBINING
U+03xxなどを中心に存在する「NON-SPACING」(文字送りをしない)文字は、次のUnicode 1.1以降では「COMBINING」(結合)に変更されている。
名前と若干の機能が変更になっているようである。
新旧の両者を「同一の文字」と見なせるのかどうかは、議論の対象であろう。
チベット文字
Unicode 1.0.1までは、U+1000〜U+104Cにチベット文字が存在したが、次のUnicode 1.1では文字が全て削除されている。
チベット文字は、Unicode 2.0から符号位置をU+0F00〜U+0FFFに変えて、再定義された(配置、文字数などは異なる)。
統廃合
Unicode 1.1になるに際し、重複等を理由として統合される文字は、次の通りである。
矢印の左側がUnicode 1.0.0の番号、右がUnicode 1.1の番号だが、右の文字はUnicode 1.0にも存在する。つまり、右の文字番号に統廃合されたことになる。文字の名前は、Unicode 1.0での名称である。
- U+0371→U+0314 GREEK NON-SPACING DASIA PNEUMATA
- U+0372→U+0313 GREEK NON-SPACING PSILI PNEUMATA
- U+0384→U+030D GREEK NON-SPACING TONOS
- U+04C5→U+049A CYRILLIC CAPITAL LETTER KA OGONEK
- U+04C6→U+049B CYRILLIC SMALL LETTER KA OGONEK
- U+04C9→U+04B2 CYRILLIC CAPITAL LETTER KHA OGONEK
- U+04CA→U+04B3 CYRILLIC SMALL LETTER KHA OGONEK
- U+3004→U+4EDD IDEOGRAPHIC DITTO MARK
Unicode 1.0→1.1以降のコンバーターを作る場合は、片方向変換をすることになる。
符号位置変更
以下の文字は、Unicode 1.1以降で符号位置が変更になる。
- U+0370→U+0345 GREEK NON-SPACING IOTA BELOW
- U+0385→U+0344 GREEK NON-SPACING DIAERESIS TONOS
- U+03D7→U+037E GREEK QUESTION MARK
- U+03D8→U+0374 GREEK UPPER NUMERAL SIGN
- U+03D9→U+0375 GREEK LOWER NUMERAL SIGN
- U+03F3→U+0384 GREEK SPACING TONOS
- U+03F4→U+0385 GREEK SPACING DIAERESIS TONOS
- U+03F5→U+037A GREEK SPACING IOTA BELOW
- U+05F5→U+FB1E HEBREW POINT VARIKA
- U+32FF→U+3004 JAPANESE INDUSTRIAL STANDARD SYMBOL
用語の所属

文字コード

Unicode
関連する用語

CJK統合漢字

基本多言語面

Unicode 1.1