ウィキペディアの検索方法

ウィキペディアの記事の検索方法を簡略に説明する。(2017年1月31日現在)
このページの内容:
1.タイトル検索
2.全文検索
3.検索ページの使い方
4.外部検索エンジンの利用
 ウィキペディア検索【キーワードフォルダ】
 Googleのサイト指定検索
 その他の外部検索エンジンと参考情報
 各検索エンジンの検索結果の比較一例

1.タイトル検索

タイトル検索がウィキペディアの最も基本的な検索方法。
方法:画面右上の検索欄にキーワードを入れてEnterする。
タイトル検索フォーム
結果ア:キーワードや類似キーワードをタイトルとする記事があれば、その記事が直接開く。
直接開かない方法 ➡ 「2.全文検索」を参照のこと。
結果イ:キーワードをタイトルとする記事がない場合や、複数キーワードを入力した場合は、検索結果の一覧が表示される。

2.全文検索

キーワードと一致する記事があっても、検索結果の一覧を表示する。
方法:検索欄を空欄にして、Enter又は検索ボタンをクリックすると、検索ページが開く。
全文検索画面
結果:検索ページで検索すると、キーワードと一致する記事があっても、検索結果の一覧が表示される。

3.検索ページの使い方

検索対象を「本文ページ」「マルチメディア」「すべて」「詳細」に指定できる。
「本文ページ」は記事本文。
「マルチメディア」は画像など。
「すべて」はメタページを含むすべて。
「詳細」は、検索対象を各項目で指定できる。

以上がウィキペディアの検索方法の概略。
詳細は、Help:検索ページで説明されている。

ウィキペディアのサイト内検索の長所と短所
長所:一定水準の検索精度、リアルタイム、検索対象を指定できる。シンプルなタイトル検索、Suggest機能。
短所:Googleに劣る検索精度、タイトル検索と全文検索が統合されていて全文検索の仕方が分かりにくい。

4.外部検索エンジンの利用

2017年1月31日現在、検索ページにあった外部検索エンジンの選択メニューは削除されたらしい。
ここでは、主な外部検索エンジンを紹介し、その使用方法を説明する。
ページ下部の各検索エンジンの検索結果の比較一例も参照されたい。

ウィキペディア検索【キーワードフォルダ】

弊社の開発したウィキペディア専用の検索エンジン。
長所:カテゴリを用いて網羅的な検索ができる。ビッグキーワードの検索に強み、分野別の知識を収集するのに役立つ。
短所:インデックスの更新が遅い。検索対象が記事の要約。
リンク:ウィキペディア検索【キーワードフォルダ】
上記リンクをブックマークしておけば、空いた時間の読み物に重宝する。
使用方法:フォームとカテゴリが連携していて、カテゴリを操作しながら検索する。
ア.フォームへのキーワード・空白入力、左右カーソル移動でカテゴリ欄が更新され、各カテゴリをクリックすると検索結果が表示される。
イ.各カテゴリ右下の丸ボタンでページ移動なしに新カテゴリを表示できる。
ウ.カテゴリ欄右上のボタンでカテゴリ欄の開閉ができる。
キーワードフォルダ画面
詳細は、キーワードフォルダについてを参照のこと。

Googleのサイト指定検索

Googleでウィキペディアにサイトを指定して検索する。
長所:精度の高い全文検索、曖昧検索、Suggest機能、関連キーワードなどが利用できる。
短所:下記の「方法ア」は正確性に欠け、「方法イ」はサイト指定するのが煩雑。
リンク:Googleサイト指定 左記リンクをブックマークしておくと便利。
方法ア:他のウェブサイトが混じったり検索順位が乱れたりするが、検索キーワードに「wikipedia」を加えて検索する。
方法イ:検索オプションでウィキペディアにサイトを指定して検索する。
Googleのトップ画面右下の設定ボタンをクリックし、ポップアップメニューから設定オプションを選択する。
Google画面1
次に、「サイトまたはドメイン」項目で、日本語版ウィキペディアのドメイン「https://ja.wikipedia.org/」を指定して検索する。
Google画面2

その他の外部検索エンジンと参考情報

フレッシュアイペディア
長所:トップページのカテゴリが使いやすい(ただし、内容はWikipediaと同じ)。
短所:検索精度が劣ると思われる。
goo Wikipedia記事検索
長所:トップページの記事紹介やカテゴリが見やすい(ただし、内容はWikipediaと同じ)。
短所:検索精度が劣ると思われる。
Wikiwix
長所:様々なWikiを検索できる。
短所:検索精度が劣ると思われる。
Yahoo!カテゴリ トップ > 各種資料と情報源 > 辞書、辞典 > 百科事典 > ウィキペディア(Wikipedia)

各検索エンジンの検索結果の比較一例

このページで紹介している各検索エンジンの検索精度やページ評価の傾向を比較するための1例として、ウィキペディアで使用頻度の高い「日本」で検索した各検索エンジンの上位10ページを列挙しておく。(2017年1月31日現在)

ウィキペディア:
日本、日本の漫画作品一覧、日本のインターチェンジ一覧、日本の鉄道駅一覧、日本のロック、日本の鉄道路線一覧、日本雑誌協会、日本橋 (東京都中央区)、西日本、日本タレント名鑑
キーワードフォルダ:
日本 (曖昧さ回避)、日本、日本刀、日本大学、日本の文化、日本の歴史、日本標準時、日本映画、日本の漫画作品一覧、日本の漫画雑誌
Google:
日本、日本の首都、Category:日本、日本 (新聞)、日本の地域、2017年の日本、日本国政府、日本の観光、大日本帝国、日本の宗教
フレッシュアイペディア:
日本、損保ジャパン日本興亜ホールディングス、日本太平洋問題調査会、SMBC日本シリーズ2016、日本基督教文化協会、Category:日本キリスト教婦人矯風会、日本ナショナルトラスト、Category:日本のハンドボールに関する人物、Category:日本の磨崖仏、Category:スポーツの日本代表チームの愛称
goo Wikipedia記事検索:
日本の映画監督一覧、日本のいちばん長い日、日本の暦、日本のことわざ、日本代表、日本語字幕、日本の空港、日本の内閣総理大臣、日本国 (曖昧さ回避)、日本の道路
Wikiwix:
日本航空、日本電気、第26回全日本吹奏楽コンクール課題曲、ZONE FINAL in 日本武道館 2005/04/01 〜心を込めてありがとう〜、日本航空高等学校石川、日本神話、solaris (日本のバンド)、南日本、2005年の日本の女性史、日本型社会民主主義

このページは、キーワードフォルダの開発にあたり、ウィキペディアの検索方法を調査したところ、Help:検索ページの説明が詳細すぎて検索方法の概略が分かりにくかったために作成した。随時更新している。

 

キーワードフォルダ、2016年6月14日更新

キーワードフォルダを2016年6月14日に更新しました。

今回の更新の一番大きなポイントは、キーワードフォルダの特徴であるカテゴリ機能が階層化されたことです。
元々、ページをたどった場合には、カテゴリが階層化されていたのですが、
カテゴリのみをたどった場合には、これまではキーワード検索の繰り返しを行う仕様になっていました。
今回からは、それがページをたどる場合と同じく、階層化されたカテゴリをたどれるようになりました。

これで、キーワードフォルダの開発当初に思い描いていた基本的な機能を備えることができた、とやっと言える気がします。
内部のインデックス技術とデザインを含めたインターフェースのバランスも、段々と取れてきたように思います。

カテゴリの抽出からそれを生かすインターフェースの開発まで、工夫・創作の連続でした。

まだまだ、開発しなければいけないことは山積みですが、ここまでできたことに感謝しつつ、これからも頑張っていきたいと思います。

自動カテゴリー検索エンジン「キーワードフォルダ」

自動カテゴリー検索エンジン、キーワードフォルダを公開しました。現在はWikipediaを対象とするベータ版を公開しています。
公開サイトURL: キーワードフォルダ

文章解釈の分野は、検索エンジンから人工知能まで、情報科学において常に注目を集める応用範囲の広い技術分野です。この度、対象となる文書を解析して、その文書に対応するカテゴリを自動的に抽出する基礎技術を開発しました。検索エンジンの検索補助機能として、一定の役割を果たすことのできる精度を実現することができたため、公開に至りました。

具体例・使用方法

公開サイトは、検索キー入力欄、カテゴリ表示枠、検索結果表示枠によって構成され、Wikipediaを対象として、検索キーを入力すると対応するカテゴリと検索結果が表示されるようになっています。カテゴリはクリックすると、サブ検索キーとして入力され、新たなカテゴリと検索結果を再表示します。
ユーザーはカテゴリによって、検索キーに関連するWikipediaの内容を俯瞰したり、サブキーとして絞り込み検索をしたり、関連キーとして再検索をしたりすることができます。
トップページには、Wikipedia全体から抽出したカテゴリを表示しています。ただし、トップページのカテゴリは人為的取捨選択を施してあります。

技術

キーワードフォルダは、文章内の言葉の間の関係性を解析して大量の文書から優位な関係性を収斂させる技術です。言語の基礎的な枠組みを利用した技術なので、自然言語であればどのような言語にも応用することができます。文法や言葉の特性を組み込むことでより利便性の高い関係性を抽出することもできると考えています。現在はWikipediaに最適化しており、現状では、Html文書に最適化した技術、日本語に最適化した技術があります。

背景

Web上の情報検索は、黎明期にYahooなどの人力によるカテゴリ検索が流行した後、Googleなどのランキング形式の自動検索エンジンが登場して、カテゴリ検索は衰退しました。今日では、演算能力の向上により文章解釈技術が飛躍的に高まり、検索エンジンにも様々な付加機能が加えられています。今後は、人工知能の文章解釈技術が幅広く取り入れられていくと考えられます。
キーワードフォルダは、人力で行われてきた文書のカテゴリ化を自動化する目的で開発された技術です。既存の文章解釈技術を補完する文章解釈の基礎的枠組み的な技術でもあります。

比較・展望

現状では、よく見られる検索欄のサジェスト機能をより強力にした機能として捉えることもできます。今後はキーワードフォルダに最適化したインターフェースの開発、カテゴリキーの精度の向上、その他の文章解釈技術への応用を行っていきます。
公開サイトは、当面Webに範囲を広げたり、多言語化したりはせず、日本語Wikipedia用に最適化した開発を行い、キーワードフォルダ以外の検索エンジンとして必要な技術、具体的にはリンク評価、要約などを継続して開発していきます。

Wikipedia専用の検索エンジン

Wikipediaの内容をどこまで詳細に知りたいか、ということによるのだが、、。
多くの人は、GoogleやYahooに掲載されたWikipediaのページを読むというのが、
Wikipediaとの最大の接点だろう。これが普段使いであり、Wikipediaの内容を知りたいとはかけらも思わない。

けど、時たま課題に追われていて、図書館に行く時間もない手間も掛けたくないというときに、
必死でWikipediaの中まで入って、何だかよく分からないまま検索欄にキーワードを入れて、
該当するページを探してみるという経験も確かにある。
そんなときに思うのは、何度も何度も検索をやり直し、結構、疲れる。目が痛い。
結局、関連する内容を網羅できたのかどうか分からない、、という一抹の不安。

Wikipediaに限らない話なのだが、大量の文書を対象にその内容を知る手段は、以外に限られている。
また、手段があってもそれを使いこなすことは難しい。図書館の索引を使いこなすのと同じく。

Wikipediaの場合には、
1.搭載した検索エンジンを使う
2.他社の検索エンジンを使う
3.カテゴリをたどる
4.ページをたどる
が手段となる。と思う。

1.Wikipediaが搭載する検索エンジンは、Wikipedia自身、あまり自信がない様子。
キーワードがそのままページになっていれば、ページがパッと出てくるが、検索結果一覧が出てこないのか?

2.Googleにキーワードと一緒にWikipediaと入れる。詳細検索でドメイン指定をする。

3.Wikipediaにはカテゴリがある。これをたどる。

4.検索結果のページを読みながら、キーワードを時々たどる。

大量の文書を対象にその内容を知る。というのは、けっこう難しい。
自分の知りたいページがすぐに出てくれば良い、けど違う。では、他にないのか?という疑問がでてくる。
キーワードを何度も変える。けど、もう思い浮かばない。
思い浮かばないだけで、本当はいくらでもありそう。

検索エンジンはランキング形式で内容を表示してくれるが、
もちろん画期的なことだが、ランキングはあくまで検索エンジンの主観。
大量の文書を実際に見ることも事実上不可能。

実際には、分析の切り口は無限にある。検索エンジンが提供しているのはその一つに過ぎない。
かといって、切り口が多すぎて、検索エンジンの詳細検索のようになったら使いこなすのが難しい。

などなど考えながら作ったのが、「キーワードフォルダ」だ。
特徴は、検索キーワードに関連するキーワードが集計されているということ。
つまり、全体像が分る。
毎回、設定をいじくりまわす必要もない。
もう関係するページはないの?という疑問に対して、もうないんです。だいだいね。
と答えられる検索エンジンを目指して作った。
しかし、精度はまだまだ。他の検索エンジンが持つランキング、要約など、弱い。現状は。
けれど、他の検索エンジンではできない検索ができると思う。
Wikipediaを検索するのであれば、ぜひ、お使いください。
キーワードフォルダ β for Wikipedia