文字に割り当てられる符号のこと。
文字の符号には二種類の概念があり、それぞれ次のように呼ばれる。
ある集合に、どのような文字をどのような番号で配置させるか、というのがCCSである。それを、実際に電子計算機等で扱えるような形式にしたものをCESという。
文字コードというのは俗語であり、上の二つはあまり区別されることなく一緒くたにして「文字コード」と呼ばれているため、混乱を招いている。
例えば日本語の処理を例とする。
日本語を扱う文字集合として、日常よく使われるものに、次のようなものがある。
これらは、このままでは処理できないので、電子計算機で扱えるように符号化する。
JISの符号の場合、次のようなものがよく使われる。
Unicodeの符号の場合、次のようなものがよく使われる。
近年は、Webサイト用HTMLや文書ファイル用として、日本語環境でもUTF-8の人気が高まっている。
関連するリンク