基本多言語面

読み:きほん・たげんごめん
外語:BMP: Basic Multilingual Plane
品詞:名詞

ISO/IEC 10646の00群00面、およびUnicodeの第00面のこと。英語を略して「BMP」という。

文字番号のうち、最初の65,536個分の領域をいう。Unicode 1.0〜1.1規格や、UCS-2は、BMPのみで構成されている。

この領域には、英数記号や各種アルファベット、CJK統合漢字、ひらがな・カタカナなど、使用頻度が高い、各国の主要な国語文字が格納されている。またこれらに加え、サロゲートが納められている。

日常の使用頻度が低い文字(例えば古代言語の文字など)は、他の言語面に格納される。

沿革

  • Unicode 1.0 ‐ 最初の仕様
  • Unicode 2.0 ‐ サロゲートペアの枠組みを導入。ハングルの符号位置を変更
  • Unicode 3.0 ‐ CJK統合漢字 拡張-Aとして漢字が増えた
  • Unicode 3.1 ‐ サロゲートペアによる言語面の名前が決定

符号化

この言語面の符号位置は、全ての言語面のうちで最も若い番号に割り当てられている。可変長を取る符号化の場合、他の言語面より短い符号列で表現される。

  • UTF-8 ‐ 3オクテット以下
  • UTF-16 ‐ 2オクテット
  • UTF-32 ‐ 4オクテット

UTF-32は言語面を問わず常に4オクテットである。

UTF-16は2オクテット単位の可変長だが、BMPを表現する場合にはサロゲートペアを使わないため、常に2オクテットとなる。これは、古典的なUnicode仕様と互換性がある。

UTF-8は、従来のASCII相当が1オクテット、U+07FF以下の文字が2オクテットで、それ以外は全て3オクテットである。

文字の配置

文字には番号が振られて領域に配置される。これら文字は、当初より種類ごとに分類されているが、途中の仕様変更や拡張に伴い、枠組みは殆ど意味を成さなくなっている。

BMPは当初、次の4領域に分けられていた。Unicode関係の古い文献では、A領域、I領域、といった表現がされていることがある。

  • U+0000〜4DFF ‐ A(Alphabet)領域
  • U+4E00〜9FFF ‐ I(Ideograph)領域
  • U+A000〜DFFF ‐ O(Open)領域
  • U+E000〜FFFD ‐ R(Restricted)領域

現在は、大雑把には次のようになっている。

  • U+0000〜1FFF ‐ 一般的な文字
  • U+2000〜2DFF ‐ 記号
  • U+2E00〜33FF ‐ CJKの記号と表音文字
  • U+3400〜9FFF ‐ CJK統合漢字
  • U+A000〜A4CF ‐ イ文字
  • U+A700〜ABFF ‐ 声調記号、ラテン文字拡張等
  • U+AC00〜D7AF ‐ ハングル音節
  • U+D800〜DFFF ‐ サロゲート
  • U+E000〜F8FF ‐ 私用文字(外字)
  • U+F900〜FFFD ‐ 互換文字、特殊文字

収載文字

Unicode 5.2.0までで、利用可能(および可能予定)な文字の種類は次のとおりである(文字番号順)。

ISO 639の言語コードも併記する。

  • 対応する言語
    • Basic Latin (基本ラテン文字、ASCII)
    • Latin-1 Supplement (西欧のラテン文字、ISO/IEC 8859-1)
    • Latin Extended (東欧、北欧などのラテン文字)
    • Greek and Coptic (現代ギリシャ語[gre、ell、el]、コプト語[cop])
    • Cyrillic (キリル文字、ロシア語[rus、ru]など)
    • Armenian (アルメニア語[arm、hye、hy])
    • Hebrew (ヘブライ語[heb、he])
    • Arabic (アラビア語[ara、ar])
    • Syriac (シリア語[syr]) (3.0〜)
    • Thaana (ターナ文字) (3.0〜)
    • NKo (マネンカ文字、マンディンゴ語[man]) (5.0.0〜)
    • Devanagari (デヴァナガリ文字、サンスクリット語[san、sa])
    • Bengali (ベンガル語[ben、bn])
    • Gurmukhi (グルムキー文字、パンジャブ語[pan、pa])
    • Gujarati (グジャラート語[guj、gu])
    • Oriya (オリヤー語[ori、or])
    • Tamil (タミル語[tam、ta])
    • Telugu (テルグ語[tel、te])
    • Kannada (カンナダ語[kan、kn])
    • Malayalam (マラヤーラム語[mal、ml])
    • Sinhala (シンハラ語[sin、si]) (3.0〜)
    • Thai (タイ語[tha、th])
    • Lao (ラオ語[lao、lo])
    • Tibetan (チベット語[tib、bod、bo])
    • Myanmar (ビルマ語[bur、mya、my]) (3.0〜)
    • Georgian (グルジア語[geo、kat、ka]) (4.1.0〜)
    • Hangul (ハングル朝鮮語[kor、ko])
    • Ethiopic (エチオピア文字、アムハラ語[amh、am]) (3.0〜)
    • Cherokee (チェロキー語[chr]) (3.0〜)
    • Unified Canadian Aboriginal Syllabics (カナダ原住民音節文字) (3.0〜)
    • Ogham (オガム文字(古代ケルト文字)) (3.0〜)
    • Runic (ルーン文字(古代ゲルマン文字)) (3.0〜)
    • Tagalog (タガログ語[tgl、tl]) (3.2〜)
    • Hanunoo (ハヌノオ語(フィリピンの民族語)) (3.2〜)
    • Buhid (ブヒッド語(フィリピンの民族語)) (3.2〜)
    • Tagbanwa (タグバンワ語(フィリピンの民族語)) (3.2〜)
    • Khmer (クメール語[khm、km]) (3.0〜)
    • Mongolian (モンゴル語[mon、mn]) (3.0〜)
    • Limbu (リンブ文字) (4.0.0〜)
    • Tai Le (タイ・レ文字) (4.0.0〜)
    • New Tai Lue (新タイ・ルー文字) (4.1.0〜)
    • Buginese (ブギ語[bug]) (4.1.0〜)
    • Tai Tham (タイ・タム文字) (5.2.0〜)
    • Balinese (バリ語[ban]) (5.0.0〜)
    • Sundanese (スンダ語[sun、su]) (5.1.0〜)
    • Lepcha (レプチャ語) (5.1.0〜)
    • Ol Chiki (サンターリー語([sat]) (5.1.0〜)
    • Glagolitic (グラゴール文字(古スラヴ文字)) (4.1.0〜)
    • Coptic (コプト語[cop]) (4.1.0〜)
    • Tifinagh (ティフナグ文字、トゥアレグ語) (4.1.0〜)
    • CJK Unified Ideographs (CJK統合漢字)
    • Yi Syllables, Radicals (イ文字 音節、部首) (3.0〜)
    • Vai (ヴァイ語 [vai]) (5.1.0〜)
    • Syloti Nagri (シロティ・ナグリ文字) (4.1.0〜)
    • Phags-pa (パスパ文字) (5.0.0〜)
    • Saurashtra (サウラーシュトラ文字) (5.1.0〜)
    • Rejang (ルジャン文字) (5.1.0〜)
    • Cham (チャム諸語[cmc]) (5.1.0〜)
    • Tai Vie (タイレ文字) (5.2.0〜)
  • 主要な記号
    • IPA Extensions (IPA 発音記号)
    • Spacing Modifier Letters (前進を伴う修飾文字)
    • Combining Diacritical Marks (発音識別用記号、ダイアクリティカルマーク)
    • Phonetic Extensions (表音拡張) (4.0.0〜)
    • Phonetic Extensions Supplement (表音拡張追加) (4.1.0〜)
    • Combining Diacritical Marks Supplement (結合ダイアクリティカルマーク追補) (4.1.0〜)
    • General Punctuation (一般句読点)
    • Superscripts and Subscripts (上付き文字・下付き文字)
    • Currency Symbols (通貨記号)
    • Combining Diacritical Marks for Symbols (記号用合成用発音記号)
    • Letterlike Symbols (文字風記号)
    • Number Forms (数字に準ずるもの)
    • Arrows (矢印)
    • Mathematical Operators (数学演算記号)
    • Miscellaneous Technical (各種技術用記号)
    • Control Pictures (制御用記号)
    • Optical Character Recognition (光学式文字認識)
    • Enclosed Alphanumerics (囲み英数字)
    • Box Drawing (罫線)
    • Block Elements (ブロック要素)
    • Geometric Shapes (幾何学図形)
    • Dingbats (装飾記号)
    • Braille Patterns (ブライユ点字法パターン) (3.0〜)
    • Kangxi Radicals (康熙部首) (3.0〜)
    • Hiragana (ひらがな)
    • Katakana (カタカナ)
    • Bopomofo (注音字母(最少元素理解法))
    • Kanbun (漢文)
    • Yijing Hexagram Symbols (易経記号) (4.0.0〜)
    • Modifier Tone Letters (声調記号) (4.1.0〜)
    • Surrogates (サロゲート) (2.0〜)
    • Private Use Area (外字)
    • Variation Selectors (異体字セレクタ) (3.2〜)

Unicodeマップ

Unicode 5.2.0までで、既に決まっている用途。表記無きものは1.1で既に追加されているもの。

UCS (16進)用途追加版
0000〜007FASCII 
0080〜00FFラテン文字-1 補助集合 (ISO/IEC 8859-1) 
0100〜017Fラテン文字 拡張-A 
0180〜024Fラテン文字 拡張-B 
0250〜02AFIPA 発音記号 
02B0〜02FF前進を伴う修飾文字 
0300〜036F発音記号(合成可能) 
0370〜03FFギリシャ文字・コプト文字 
0400〜04FFキリル文字 
0500〜052Fキリル文字 補助集合4.0.0
0530〜058Fアルメニア文字 
0590〜05FFヘブライ文字 
0600〜06FFアラビア文字 
0700〜074Fシリア文字3.0
0750〜077Fアラビア文字 補助集合4.1.0
0780〜07BFターナ文字3.0
07C0〜07FFNKo5.0.0
0800〜08FF(( 空き領域 ))
0900〜097Fデヴァナガリ文字(サンスクリット語など) 
0980〜09FFベンガル文字 
0A00〜0A7Fグルムキー文字(パンジャブ語) 
0A80〜0AFFグジャラート文字 
0B00〜0B7Fオリヤー文字 
0B80〜0BFFタミル文字 
0C00〜0C7Fテルグ文字 
0C80〜0CFFカンナダ文字 
0D00〜0D7Fマラヤーラム文字 
0D80〜0DFFシンハラ文字3.0
0E00〜0E7Fタイ文字 
0E80〜0EFFラオ文字 
0F00〜0FFFチベット文字 
1000〜109Fミャンマー文字(ビルマ文字)3.0
10A0〜10FFグルジア文字4.1.0
1100〜11FFハングル字母(Jamo) 
1200〜137Fエチオピア文字(アムハラ語など)3.0
1380〜139Fエチオピア文字 補助集合4.1.0
13A0〜13FFチェロキー文字3.0
1400〜167F統合カナダ原住民音節文字3.0
1680〜169Fオガム文字(古代ケルト文字)3.0
16A0〜16FFルーン文字(古代ゲルマン文字)3.0
1700〜171Fタガログ文字3.2
1720〜173Fハヌノオ文字3.2
1740〜175Fブヒッド文字3.2
1760〜177Fタグバンワ文字3.2
1780〜17FFクメール文字3.0
1800〜18AFモンゴル文字3.0
18B0〜18FF(( 空き領域 ))
1900〜194Fリンブ文字4.0.0
1950〜197Fタイ・レ文字4.0.0
1980〜19DF新タイ・ルー文字4.1.0
19E0〜19FFクメール記号4.0.0
1A00〜1A1Fブギ文字4.1.0
1A20〜1AAFタイ・タム文字5.2.0
1AB0〜1AFF(( 空き領域 ))
1B00〜1B7Fバリ文字4.1.0
1B80〜1BBFスンダ文字5.1.0
1BC0〜1CFF(( 空き領域 ))
1C00〜1C4Fレプチャ文字5.1.0
1C50〜1C7Fオルチキ文字(サンターリー語)5.1.0
1C80〜1CFF(( 空き領域 ))
1D00〜1D7F発音 拡張4.0.0
1D80〜1DBF発音 拡張 補助集合4.1.0
1DC0〜1DFF発音記号 補助集合(連結可能)4.1.0
1E00〜1EFFラテン文字 追加拡張 
1F00〜1FFFギリシャ文字 拡張 
2000〜206F一般句読点 
2070〜209F上付き文字・下付き文字 
20A0〜20CF通貨記号 
20D0〜20FF記号用発音記号(連結可能) 
2100〜214F文字風記号 
2150〜218F数字(に準ずるもの) 
2190〜21FF矢印 
2200〜22FF数学演算記号 
2300〜23FF各種技術用記号 
2400〜243F制御用記号 
2440〜245F光学式文字認識 
2460〜24FF囲み英数字 
2500〜257F罫線 
2580〜259Fブロック要素 
25A0〜25FF幾何学図形 
2600〜26FF各種記号 
2700〜27BF装飾記号(Dingbats) 
27C0〜27EF各種数学記号-A 
27F0〜27FF補助矢印A3.2
2800〜28FFブライユ点字法パターン3.0
2900〜297F補助矢印B3.2
2980〜29FF各種数学記号-B3.2
2A00〜2AFF補助数学演算記号3.2
2B00〜2BFF各種記号と矢印4.0
2C00〜2C5Fグラゴール文字(古スラヴ文字)4.1.0
2C60〜2C7Fラテン文字 拡張-C5.0.0
2C80〜2CFFコプト文字4.1.0
2D00〜2D2Fグルジヤ文字 補助集合4.1.0
2D30〜2D7Fティフナグ文字(トゥアレグ語)4.1.0
2D80〜2DDFエチオピア文字拡張 
2DE0〜2DFFキリル文字 拡張-A5.1.0
2E00〜2E7F補助句読点 
2E80〜2EFFCJK部首 補助集合 
2F00〜2FDF康熙部首3.0
2FE0〜2FEF(( 空き領域 ))
2FF0〜2FFF漢字構成記述文字 
3000〜303FCJKシンボル・句読点 
3040〜309Fひらがな 
30A0〜30FFカタカナ 
3100〜312F注音字母(最少元素理解法) 
3130〜318Fハングル互換字母(Jamo) 
3190〜319F漢文 
31A0〜31BF注音字母 拡張3.0
31C0〜31EFCJK字画4.1.0
31F0〜31FFカタカナ発音拡張3.2
3200〜32FF囲みCJK文字・月 
3300〜33FFCJK互換文字 
3400〜4DBFCJK統合漢字 拡張-A3.0
4DC0〜4DFF易経記号4.0.0
4E00〜9FFFCJK統合漢字 
A000〜A48Fイ文字 音節3.0
A490〜A4CFイ文字 部首3.0
A4D0〜A4FF(( 空き領域 ))
A500〜A63Fヴァイ文字5.1.0
A640〜A69Fキリル文字 拡張-B5.1.0
A6A0〜A6FF(( 空き領域 ))
A700〜A71F声調記号 
A720〜A7FFラテン文字 拡張-D 
A800〜A82Fシロティ・ナグリ文字4.1.0
A830〜A83F(( 空き領域 ))
A840〜A87Fパスパ文字(パクパ文字)5.0.0
A880〜A8DFサウラーシュトラ文字5.1.0
A8E0〜A92F(( 空き領域 ))
A930〜A95Fルジャン文字5.1.0
A960〜A97Fハングル字母 (追加)5.2.0
A980〜A9FF(( 空き領域 ))
AA00〜AA5Fチャム文字5.1.0
AA60〜AA7F(( 空き領域 ))
AA80〜AADFタイレ文字5.2.0
AAE0〜ABFF(( 空き領域 ))
AC00〜D7AFハングル音節2.0
D800〜DB7F上位 サロゲート2.0
DB80〜DBFF上位 サロゲート (外字)2.0
DC00〜DFFF下位 サロゲート2.0
E000〜F8FF外字 
F900〜FAFFCJK互換文字 
FB00〜FB4Fアルファベット表示形 
FB50〜FDFFアラビア文字 表示形A 
FE00〜FE0F異体字セレクタ3.2
FE10〜FE1F縦書用句読点4.1.0
FE20〜FE2F半記号(合成可能) 
FE30〜FE4FCJK互換形 
FE50〜FE6F小字形変種 
FE70〜FEFFアラビア文字 表示形B 
FF00〜FFEF半角・全角形 
FFF0〜FFFF特殊文字