通信用語の基礎知識 IPv4
戻る
参加者募集中

Unicode 1.0

辞書:通信用語の基礎知識 通信技術文字集合編 (CTCHRS)
読み:ユニコード・いってんぜろ
外語:Unicode 1.0 英語
品詞:固有名詞
2009/01/08 作成
2010/04/18 更新

Unicodeの最初の版。

Unicode 1.0の仕様書は、Latin部と漢字部の二分冊で出された。

Latin部のVolume 1は1991(平成3)年10月に、漢字部のVolume 2は1992(平成4)年6月に出版されている。

そして漢字部が出た際、Addendum(追補)としてUnicode 1.0.1という仕様変更を伴う修正が出されている。

1.0.1は、6文字の削除と、外字領域の符号位置の変更などがある。削除は、DIS 10646第二版(ISO/IEC 10646-1の前身)で採用されなかったため、とされている。

  • 1991(平成3)年10月: Unicode 1.0.0
  • 1992(平成4)年6月: Unicode 1.0.1

対応言語

Unicode 1.0.0時点では、まだ漢字に対応していない。CJK統合漢字は、Volume 2である1.0.1から追加された。

Unicode 1.0.1で利用可能な文字の種類は次のとおりである(文字番号順)。

  • Basic Latin (基本ラテン文字、ASCII)
  • Latin-1 Supplement (西欧のラテン文字、ISO/IEC 8859-1)
  • Latin Extended (東欧、北欧などのラテン文字)
  • Greek and Coptic (現代ギリシャ語[gre、ell、el]、コプト語[cop])
  • Cyrillic (キリル文字、ロシア語[rus、ru]など)
  • Armenian (アルメニア語[arm、hye、hy])
  • Hebrew (ヘブライ語[heb、he])
  • Arabic (アラビア語[ara、ar])
  • Devanagari (デヴァナガリ文字、サンスクリット語[san、sa])
  • Bengali (ベンガル語[ben、bn])
  • Gurmukhi (グルムキー文字、パンジャーブ語[pan、pa])
  • Gujarati (グジャラート語[guj、gu])
  • Oriya (オリヤー語[ori、or])
  • Tamil (タミル語[tam、ta])
  • Telugu (テルグ語[tel、te])
  • Kannada (カンナダ語[kan、kn])
  • Malayalam (マラヤーラム語[mal、ml])
  • Thai (タイ語[tha、th])
  • Lao (ラーオ語[lao、lo])
  • Tibetan (チベット語[tib、bod、bo])
  • Georgian (グルジア語[geo、kat、ka])
  • Hangul (ハングル朝鮮語[kor、ko])
  • CJK統合漢字
  • ユーザー定義外字
  • CJK互換漢字

記号に近いものとして、次のような文字も収録されている。

  • Hiragana (日本語[jpn、ka])
  • Katakana (日本語[jpn、ka])
  • Bopomofo (注音字母(最少元素理解法))
  • Hangul字母 (ハングル、朝鮮語[kor、ko])
  • Kaeriten (返り点、IDEOGRAPHIC ANNOTATION)

削除された6字

Unicode 1.0.0にあり、Unicode 1.0.1で削除された2字は、次の通りである。

  • U+2300 APL COMPOSE OPERATOR
  • U+2301 APL OUT

Unicode 1.0.0にあり、Unicode 1.0.1で統廃合された4字は、次の通りである。

  • U+04C5→U+049A CYRILLIC CAPITAL LETTER KA OGONEK
  • U+04C6→U+049B CYRILLIC SMALL LETTER KA OGONEK
  • U+04C9→U+04B2 CYRILLIC CAPITAL LETTER KHA OGONEK
  • U+04CA→U+04B3 CYRILLIC SMALL LETTER KHA OGONEK

1.0.1での仕様変更

Unicode 1.0.1では、次の仕様変更が行なわれている。

このほか、Unicode 1.0.0ではBOMに使われるU+FEFFが「BYTE ORDER MARK」というそのままの名前だったが、Unicode 1.0.1では「ZERO WIDTH NO-BREAK SPACE」という名前に変更されている。

1.1での仕様変更

変更点

Unicode 1.0から、次の版であるUnicode 1.1で仕様変更になるのは、次の箇所である。

  • NON-SPACING → COMBINING
  • チベット文字(U+1000〜U+104C)の削除
  • 「仝」など幾つかの文字の統廃合
  • 旧JISマーク「〄」の符号位置変更

詳細は、Unicode 1.1の項を参照のこと。

NON-SPACING → COMBINING

U+03xxなどを中心に存在する「NON-SPACING」(文字送りをしない)文字は、次のUnicode 1.1以降では「COMBINING」(結合)に変更されている。

名前と若干の機能が変更になっているようである。

新旧の両者を「同一の文字」と見なせるのかどうかは、議論の対象であろう。

チベット文字

Unicode 1.0.1までは、U+1000〜U+104Cにチベット文字が存在したが、次のUnicode 1.1では文字が全て削除されている。

チベット文字は、Unicode 2.0から符号位置をU+0F00〜U+0FFFに変えて、再定義された(配置、文字数などは異なる)。

統廃合

Unicode 1.1になるに際し、重複等を理由として統合される文字は、次の通りである。

矢印の左側がUnicode 1.0.0の番号、右がUnicode 1.1の番号だが、右の文字はUnicode 1.0にも存在する。つまり、右の文字番号に統廃合されたことになる。文字の名前は、Unicode 1.0での名称である。

  • U+0371→U+0314 GREEK NON-SPACING DASIA PNEUMATA
  • U+0372→U+0313 GREEK NON-SPACING PSILI PNEUMATA
  • U+0384→U+030D GREEK NON-SPACING TONOS
  • U+04C5→U+049A CYRILLIC CAPITAL LETTER KA OGONEK
  • U+04C6→U+049B CYRILLIC SMALL LETTER KA OGONEK
  • U+04C9→U+04B2 CYRILLIC CAPITAL LETTER KHA OGONEK
  • U+04CA→U+04B3 CYRILLIC SMALL LETTER KHA OGONEK
  • U+3004→U+4EDD IDEOGRAPHIC DITTO MARK

Unicode 1.0→1.1以降のコンバーターを作る場合は、片方向変換をすることになる。

符号位置変更

以下の文字は、Unicode 1.1以降で符号位置が変更になる。

  • U+0370→U+0345 GREEK NON-SPACING IOTA BELOW
  • U+0385→U+0344 GREEK NON-SPACING DIAERESIS TONOS
  • U+03D7→U+037E GREEK QUESTION MARK
  • U+03D8→U+0374 GREEK UPPER NUMERAL SIGN
  • U+03D9→U+0375 GREEK LOWER NUMERAL SIGN
  • U+03F3→U+0384 GREEK SPACING TONOS
  • U+03F4→U+0385 GREEK SPACING DIAERESIS TONOS
  • U+03F5→U+037A GREEK SPACING IOTA BELOW
  • U+05F5→U+FB1E HEBREW POINT VARIKA
  • U+32FF→U+3004 JAPANESE INDUSTRIAL STANDARD SYMBOL
用語の所属
文字コード
Unicode
関連する用語
CJK統合漢字
基本多言語面
Unicode 1.1

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.03 (16-May-2019)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club