UCS-4

読み:ユースィーエス・フォー
外語:UCS-4: Universal Multiple-Octet Coded Character Set-4
品詞:名詞,+規格

ISO/IEC 10646の全領域の文字集合のこと。

32ビット(実際に使われるのは、うち31ビット)の全てを用いる仕様で、理論上21億以上の文字種を表現できる。

そして一部にはUnicodeのコード体系が採用されている。

文字の配置

32ビットのコードは上位から8ビット毎に群・面・区・点と呼ばれるが、このうち幾つかについて、既に用途が決められている。

ISO/IEC 10646とUnicodeは直接の関係はないのだが、その経緯からUnicodeの文字集合を採用することになっていて、00群00面〜00群16面までにUnicodeの領域が配置されている。

00群00面はUnicode対応の全ての実装で、00群01面〜00群16面まではサロゲートなどに対応した実装で、それぞれ利用出来る。

用途

  • 00群00面 (0x0000nnnn) BMP 基本多言語面
  • 00群01面 (0x0001nnnn) SMP 補助多言語面
  • 00群02面 (0x0002nnnn) SIP 補助漢字面
  • 00群03面〜13面 (0x00030000〜0x000DFFFF): 予約
  • 00群14面 (0x000Ennnn) SSP 補助特殊用途面 (言語タグや異体字セレクタ)
  • 00群15面 (0x000Fnnnn) 予約
  • 00群16面 (0x0010nnnn) 予約
  • 00群17面〜223面 (0x00110000〜0x00DFFFFF): 未定義
  • 00群224面〜255面 (0x00E00000〜0x00FFFFFF): プライベートエリア(外字領域)
  • 01群〜95群 (0x01000000〜0x5FFFFFFF): 未定義
  • 96群〜127群 (0x60000000〜0x7FFFFFFF): プライベートエリア(外字領域)