自動カテゴリー検索エンジン「キーワードフォルダ」

自動カテゴリー検索エンジン、キーワードフォルダを公開しました。現在はWikipediaを対象とするベータ版を公開しています。
公開サイトURL: キーワードフォルダ

文章解釈の分野は、検索エンジンから人工知能まで、情報科学において常に注目を集める応用範囲の広い技術分野です。この度、対象となる文書を解析して、その文書に対応するカテゴリを自動的に抽出する基礎技術を開発しました。検索エンジンの検索補助機能として、一定の役割を果たすことのできる精度を実現することができたため、公開に至りました。

具体例・使用方法

公開サイトは、検索キー入力欄、カテゴリ表示枠、検索結果表示枠によって構成され、Wikipediaを対象として、検索キーを入力すると対応するカテゴリと検索結果が表示されるようになっています。カテゴリはクリックすると、サブ検索キーとして入力され、新たなカテゴリと検索結果を再表示します。
ユーザーはカテゴリによって、検索キーに関連するWikipediaの内容を俯瞰したり、サブキーとして絞り込み検索をしたり、関連キーとして再検索をしたりすることができます。
トップページには、Wikipedia全体から抽出したカテゴリを表示しています。ただし、トップページのカテゴリは人為的取捨選択を施してあります。

技術

キーワードフォルダは、文章内の言葉の間の関係性を解析して大量の文書から優位な関係性を収斂させる技術です。言語の基礎的な枠組みを利用した技術なので、自然言語であればどのような言語にも応用することができます。文法や言葉の特性を組み込むことでより利便性の高い関係性を抽出することもできると考えています。現在はWikipediaに最適化しており、現状では、Html文書に最適化した技術、日本語に最適化した技術があります。

背景

Web上の情報検索は、黎明期にYahooなどの人力によるカテゴリ検索が流行した後、Googleなどのランキング形式の自動検索エンジンが登場して、カテゴリ検索は衰退しました。今日では、演算能力の向上により文章解釈技術が飛躍的に高まり、検索エンジンにも様々な付加機能が加えられています。今後は、人工知能の文章解釈技術が幅広く取り入れられていくと考えられます。
キーワードフォルダは、人力で行われてきた文書のカテゴリ化を自動化する目的で開発された技術です。既存の文章解釈技術を補完する文章解釈の基礎的枠組み的な技術でもあります。

比較・展望

現状では、よく見られる検索欄のサジェスト機能をより強力にした機能として捉えることもできます。今後はキーワードフォルダに最適化したインターフェースの開発、カテゴリキーの精度の向上、その他の文章解釈技術への応用を行っていきます。
公開サイトは、当面Webに範囲を広げたり、多言語化したりはせず、日本語Wikipedia用に最適化した開発を行い、キーワードフォルダ以外の検索エンジンとして必要な技術、具体的にはリンク評価、要約などを継続して開発していきます。