通信用語の基礎知識 IPv4
戻る
参加者募集中

Unicode 2.0

辞書:通信用語の基礎知識 通信技術文字集合編 (CTCHRS)
読み:ユニコード・にーてんゼロ
外語:Unicode 2.0 英語
品詞:固有名詞
2010/04/18 作成
2010/04/23 更新

Unicodeの版の一つで、Unicode 1.1に対する改訂版である。

Unicode 2.0は、Unicode 1.1に文字の追加や、一部仕様変更を加えた版である。

Unicode 1.1で一旦削除されたチベット文字の再登録や、ハングルの符号位置の変更など、大きな仕様変更も存在する。

Unicodeの大きな仕様変更はこの版を最後としており、以降は原則として追加のみである。

このためUnicodeの最も基本的な集合であるとも言え、もはや陳腐化したとも言えるTRONコードではUnicode 2.0の文字集合に対応する。

  • 1996(平成8)年7月: Unicode 2.0.0

対応ISO/IEC 10646

発行時期に相違がある(更に全てUnicode 2.0以降に発行)が、Unicode 2.0で採用されたのは、次の追補である。

  • ISO/IEC 10646-1:1993/Amd.1:1996 (Transformation Format for 16 planes of group 00 (UTF-16))
  • ISO/IEC 10646-1:1993/Amd.2:1996 (UCS Transformation Format 8 (UTF-8))
  • ISO/IEC 10646-1:1993/Amd.3:1996 (Code positions for control characters)
  • ISO/IEC 10646-1:1993/Amd.4:1996 (Removal of annex G (UTF-1))
  • ISO/IEC 10646-1:1993/Amd.5:1998 (Hangul syllables)
  • ISO/IEC 10646-1:1993/Amd.6:1997 (Tibetan)
  • ISO/IEC 10646-1:1993/Amd.7:1997 (33 additional characters)

詳細は後述するが、Amd.1のサロゲートペアを採用し、1.0にはあったチベット文字がAmd.6で復活し、そしてAmd.5でハングルの大移動がなされUnicode 1.xとの互換性を失った。

対応言語

追加されたラテン文字U+1E9Bは、古いアイルランド語で使われていたとされているが、現用ではない。

追加された文字から推定される新規対応言語は、以下の通りである。

  • ケルト語派
    • 中期アイルランド語[mga]
  • チベット語[tib、bod、bo]

追加文字

2.0から追加された文字は、次の通り(文字コード順)。

  • ヘブライ文字
    • U+0591〜U+05A1
    • U+05A3〜U+05AF
    • U+05C4
  • チベット文字
    • U+0F00〜U+0F47
    • U+0F49〜U+0F69
    • U+0F90〜U+0F95
    • U+0F97
    • U+0F99〜U+0FAD
    • U+0FB1〜U+0FB7
    • U+0FB9
  • ラテン文字
    • U+1E9B ‐ LATIN SMALL LETTER LONG S WITH DOT ABOVE
  • 通貨記号
    • U+20AB ‐ DONG SIGN
  • ハングル
    • U+AC00〜U+D7A3
  • サロゲート
    • U+D800〜U+D7A3

移動された字

ハングルが移動となった。

ハングルは組み合わせ文字なので、本来のUnicodeのコンセプトによれば連結文字のみで表現できるものである。KS X 1001にある2,350字の合成済みハングルはUnicode 1.1から追加されたが、全文字(11,172字)の追加が朝鮮人より強く要求された。

そこで、気を利かせて正規の配列順に11,172字、符号位置を変えて追加することになったが、今度はその点で文句を言われるようになった。結局、何をしても朝鮮人からは文句を言われるのである。

サロゲート

この版から、サロゲートペアについての枠組みが定められた。

  • 上位サロゲート1,024個(U+D800〜U+DBFF)
  • 下位サロゲート1,024個(U+DC00〜U+DFFF)

二種類のサロゲートを組み合わせ、10242で1,048,576字を追加で表現可能とし、この範囲を01面〜16面(U+010000〜U+10FFFF)に割り当てる。

もって、Unicodeは00面〜16面(U+000000〜U+10FFFF)までの計17面をもつ文字集合となった。

実際に文字が登録され始めるのは遥か後Unicode 4.0.0からで、実際に普及が始まるのはUnicode 5.0.0頃以降からである。

用語の所属
文字コード
Unicode
関連する用語
CJK統合漢字
基本多言語面
Unicode 1.1
Unicode 2.1

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.03 (16-May-2019)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club