文字コード
読み:もじコード
外語:character code

 文字に割り当てられる符号のこと。
目次

概要
 文字の符号には二種類の概念があり、それぞれ次のように呼ばれる。
 ある集合に、どのような文字をどのような番号で配置させるか、というのがCCSである。それを、実際に電子計算機等で扱えるような形式にしたものをCESという。
 文字コードというのは俗語であり、上の二つはあまり区別されることなく一緒くたにして「文字コード」と呼ばれているため、混乱を招いている。

特徴
 例えば日本語の処理を例とする。

標準
 日本語を扱う文字集合として、日常よく使われるものに、次のようなものがある。
 これらは、このままでは処理できないので、電子計算機で扱えるように符号化する。
 JISの符号の場合、次のようなものがよく使われる。
 Unicodeの符号の場合、次のようなものがよく使われる。
 近年は、Webサイト用HTMLや文書ファイル用として、日本語環境でもUTF-8の人気が高まっている。

その他

応用例
 標準化されたもの以外にも、漢字などに独自に附番された番号を使う例がある。
 漢字字典等では、検索性や編集の都合等のため独自に漢字の番号(検字番号)を振ることが多い。そのような番号は著作権の対象とはならないため、応用が利く範囲内で広く使われることもある。
 応用が確認されている範囲内で、次のようなものがある。
 康熙字典は第一級の漢字字典であるが、番号は振られていない。そこで一般にはページ数と、そこからの登場順を符号化する。例えば「一」は75ページ目の1番目に登場するので「0075.01」のようにする。
 国字の字典も番号は無いが、Glyphwikiのグループ:国字の字典では0001から1551までの連番を振る運用がなされている。

例外
 また、次のようなものもある。
 番号は大漢和辞典のものを劣化コピー(劣化パクリ)し、それを拡張したものである。
 大漢和辞典とは微妙に互換性がなく、また自由な利用を認めないライセンス締結を要求している。危険なので文字コード界では触れてはならぬものとして〓〓〓〓〓などの伏せ字表現を使うこともある。

再検索