通信用語の基礎知識ロゴ 単語検索システムの使い方


LOCATION:

TOPICS

H20/09/15最終更新

一般的な検索機能の利用方法

システムの詳細

ここから下は、検索システムの詳細について述べています。技術者を対象としています。

システムを構成するプログラム

現在は、次のプログラムによって構成されています。

  1. 検索機能 (WDIC Voyager)
  2. 辞書内容の表示機能 (WDIC Explorer)
  3. カテゴリ分類機能 (WDIC Navigator)
  4. 辞書グループ一覧 (WDIC Kepler)
  5. 辞書ファイル一覧 (WDIC Galilei)
  6. プラグイン情報表示機能 (WDIC Giotto)
  7. 更新情報表示機能 (WDIC Discovery)
  8. 人気検索語表示機能 (WDIC Pioneer)
  9. 索引検索機能 (WDIC Cassini)
  10. おまかせ検索機能 (WDIC Viking)
  11. 今日の用語機能 (WDIC Surveyor)

検索機能 (WDIC Voyager)

入力されたキーワードから単語を選出するプログラムです。一般PC用とモバイル用は共用で、同一の実行ファイルによって実現されています。

システムはUnicodeで処理され、UTF-8を符号に用いています。UTF-8を解さない環境へは、シフトJISに変換して出力します。

また、検索キーワードの入力は、ISO-2022-JP、シフトJIS、EUC-JP、UTF-8に対応しています。

現在対応する環境

  1. パソコン (XHTML) (UTF-8)
  2. モバイル(PDA等) (HTML) (シフトJIS)
  3. FOMA iモード (XHTML) (UTF-8)
  4. 旧iモード (cHTML) (シフトJIS)
  5. au・WAP2 (XHTML basic) (シフトJIS)
  6. Vodafone live (HTML) (シフトJIS)

パソコン用環境は、全ての機能が整っています。それ以外の環境では、環境に応じて機能が減っています。

特徴

入力された文字は、同一化処理を施され、検索機能へ送られます。

「同一化」とは、異なる文字ながら、意味する所が同じまたは類似した文字を同一の文字として認識し、検索することで、ヒット率を上げるための機能です。

例えば、ギリシャ文字のⅢと、アイ3個IIIは、同じとして扱います。

漢字でも、簡体字(大陸文字)、繁體字(台湾文字)、朝鮮漢字、越南漢字は、該当する日本漢字に内部変換された後、検索されます。

従って東京を簡体字で东京(一般の日本語環境ではトウの字が表示されないかもしれません)と書いて検索すると、日本語の東京という語が選出されるでしょう。

対応範囲

記号類の同視化

ラテンアフラベットの同視化 (アクセント無視など)

カナの同視化 (濁点・半濁点、小書きの無視、かなカナ同視など)

漢字の同視化 (書体差、異体字の同視)

その他 (アクセント付きギリシャ文字なども対応予定)

制限

この、文字の同一化機能は現在も鋭意開発中の機能です。

対応文字は鋭意増強中ですが、一人で、かつ手作業でやっていますので、非常に時間がかかっています。現在は対応できていない文字も多数あります。ご意見や情報等あれば、メールなりフォームなりで、宜しくお願い致します。

辞書内容の表示機能 (WDIC Explorer)

検索された語の内容を表示するプログラムです。

通常のPC用と、その他では実行ファイルを変えています。通常のPC用は全てをUnicodeで処理しますが、モバイル用はシフトJISへの変換が必要です。大型のUnicode→シフトJISの変換表は、使用するモバイル用のみで使用します。現実に最も利用者が多いPC用CGIで、この表を省くことで、省エネを実現しています。

内部処理の大雑把な説明

まず、人間が記述した基礎知識V6フォーマットを、専用コンパイラを利用してバイナリ辞書形式(以下、DBF)にコンパイルし、これをWebサーバへアップロードします。WDIC Explorerは、そのDBFを解読して表示するインタプリタです。

このプログラムにURLとして与える情報は、辞書グループ名と単語見出しであり、常にUTF-8で符号化されています(モバイル用も)。

URL

URLは、英数字はそのまま与えます。

記号類、英数字以外の文字は、UTF-8で符号化したものを %xx 形式に符号化して表現します。

次の文字は例外として、特殊な符号化を行ないます。

スペースは現在、%20 と符号化していますが、これは近い将来の仕様変更を考えています。

通信用語の基礎知識は、各単語を、階層構造を持ったカテゴリとして分類、管理しています。

このプログラムは、それを表示するものです。

画面は2ペインに分けられ、左にカテゴリの階層表示、右に指定したカテゴリに含まれる単語の見出し語が表示されます。

現在は、パソコンでのみ利用できますが、将来的にはモバイルにも対応する予定です。

辞書グループ一覧 (WDIC Kepler)

通信用語の基礎知識は、8つの「辞書グループ」という枠組みで構成されています。

各辞書グループには、複数の辞書ファイルが含まれます。

単語の見出し語は、各辞書グループ単位で重複しないよう管理されていますが、異なる辞書グループでは重複することもあります。

なぜならば、辞書グループが異なれば執筆・編集のコンセプトが異うからです。参加するメンバーも違っています。

この、現在ある辞書グループを一覧するのが、このプログラムです。

さらに、各辞書グループに含まれる辞書ファイルも一覧できます。

辞書ファイルに含まれる単語の一覧は、次のWDIC Galileiが受け持ちます。

辞書ファイル一覧 (WDIC Galilei)

各辞書ファイル中に含まれる単語を一覧します。

プラグイン情報表示機能 (WDIC Giotto)

通信用語の基礎知識は、本文以外のファイル、例えば画像や音声などを、本文に対するプラグインであるとして管理しています。

プラグインファイルは、「辞書グループ」単位で管理されます。

このプログラムは、各「辞書グループ」に属するファイルを一覧し、必要に応じてその説明を表示する機能を有します。

管理方法等の懸案

現在は、辞書グループの直下に、各ファイルを置いていますが、グループによってはファイルが多くなっています。

そこで何らかの方法で、整理する必要があるかと考えております。

更新情報表示機能 (WDIC Discovery)

通信用語の基礎知識は、日々更新されています。

ここ最近で更新された単語を一覧表示します。

人気検索語表示機能 (WDIC Pioneer)

通信用語の基礎知識で、検索結果が表示されたものについて、自動で集計し、その結果を翌日に全世界に発表しております。

索引検索機能 (WDIC Cassini)

通信用語の基礎知識の各単語は、50音、ABC、記号、数字等で内部管理されています。

辞書グループを意識することなく、これら頭文字のみで単語を一覧できます。

おまかせ検索機能 (WDIC Viking)

乱数により、適当に単語を表示します。

今日の用語機能 (WDIC Surveyor)

通信用語の基礎知識は現在、「事件・出来事」「誕生日」「忌日」「記念日」という四つのカテゴリで、各単語の日付情報を管理しています。

その日付に関連する単語を見ることができます。

戻る
Copyright © WDIC CREATORS CLUB 1997-2008 All rights reserved.