文字コード

読み:もじコード
外語:character code 英語
品詞:名詞

文字に割り当てられる符号のこと。

目次

文字の符号には二種類の概念があり、それぞれ次のように呼ばれる。

  • 符号化文字集合 (CCS)
  • 符号化方法 (CES)

ある集合に、どのような文字をどのような番号で配置させるか、というのがCCSである。それを、実際に電子計算機等で扱えるような形式にしたものをCESという。

文字コードというのは俗語であり、上の二つはあまり区別されることなく一緒くたにして「文字コード」と呼ばれているため、混乱を招いている。

例えば日本語の処理を例とする。

標準

日本語を扱う文字集合として、日常よく使われるものに、次のようなものがある。

これらは、このままでは処理できないので、電子計算機で扱えるように符号化する。

JISの符号の場合、次のようなものがよく使われる。

Unicodeの符号の場合、次のようなものがよく使われる。

近年は、Webサイト用HTMLや文書ファイル用として、日本語環境でもUTF-8の人気が高まっている。

その他

応用例

標準化されたもの以外にも、漢字などに独自に附番された番号を使う例がある。

漢字字典等では、検索性や編集の都合等のため独自に漢字の番号(検字番号)を振ることが多い。そのような番号は著作権の対象とはならないため、応用が利く範囲内で広く使われることもある。

応用が確認されている範囲内で、次のようなものがある。

  • 独自の文字集合
  • 字典検字番号
  • 字典ページ数など
    • 康熙字典
    • 国字の字典 (菅原義三・飛田良文)

康熙字典は第一級の漢字字典であるが、番号は振られていない。そこで一般にはページ数と、そこからの登場順を符号化する。例えば「一」は75ページ目の1番目に登場するので「0075.01」のようにする。

国字の字典も番号は無いが、Glyphwikiのグループ:国字の字典では0001から1551までの連番を振る運用がなされている。

例外

また、次のようなものもある。

番号は大漢和辞典のものを劣化コピー(劣化パクリ)し、それを拡張したものである。

大漢和辞典とは微妙に互換性がなく、また自由な利用を認めないライセンス締結を要求している。危険なので文字コード界では触れてはならぬものとして〓〓〓〓〓などの伏せ字表現を使うこともある。

関連するリンク
文字コードの話
関連する用語
CCS
CES
漢字コード
JISコード

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club