キーワードフォルダとGoogleの比較

キーワードフォルダとGoogleを比較することは、平屋と高層ビルを比較するようなことですが、検索エンジンとして広く認知されているのはGoogleくらいですので、キーワードフォルダの特徴を説明するため仕方なくGoogleと比較をしたいと思います。

キーワードフォルダには未だ諸々の改良すべき点があり、細かな情報はWikipedia自体の限界もあります。
詳細設定をしないGoogle検索とキーワードフォルダを比較すると、広い知識分野を表すキーワードの中には、キーワードフォルダの方が知的欲求を満たしてくれるだろう場合があります。
例えば、
仏教(キーワードフォルダ)」、「仏教(Google)
数学(キーワードフォルダ)」、「数学(Google)
などを比較してみてください。
詳細設定をして、Wikipediaに検索対象を限定したGoogle検索とキーワードフォルダを比較すると、いくつかの観点(1キーワードの検索結果数、ページ表示速度、全文検索能力、PortalやCategoryページが含まれているなど)からGoogleの方が優れた点がありますが、関連検索についてはキーワードフォルダの方が検索の質と幅を広げられています。
仏教(Google+Wikipedia限定)
詳細設定のアクセスコストや関連検索の性能を考えると、Wikipediaのみを検索したい場合や特定の知識分野について全体像を学びたい場合にはキーワードフォルダを利用するメリットがあると思います。
ちなみに、Wikipediaが提供する検索エンジンは性能が良くありません。

自動カテゴリー検索エンジン「キーワードフォルダ」

自動カテゴリー検索エンジン、キーワードフォルダを公開しました。現在はWikipediaを対象とするベータ版を公開しています。
公開サイトURL: キーワードフォルダ

文章解釈の分野は、検索エンジンから人工知能まで、情報科学において常に注目を集める応用範囲の広い技術分野です。この度、対象となる文書を解析して、その文書に対応するカテゴリを自動的に抽出する基礎技術を開発しました。検索エンジンの検索補助機能として、一定の役割を果たすことのできる精度を実現することができたため、公開に至りました。

具体例・使用方法

公開サイトは、検索キー入力欄、カテゴリ表示枠、検索結果表示枠によって構成され、Wikipediaを対象として、検索キーを入力すると対応するカテゴリと検索結果が表示されるようになっています。カテゴリはクリックすると、サブ検索キーとして入力され、新たなカテゴリと検索結果を再表示します。
ユーザーはカテゴリによって、検索キーに関連するWikipediaの内容を俯瞰したり、サブキーとして絞り込み検索をしたり、関連キーとして再検索をしたりすることができます。
トップページには、Wikipedia全体から抽出したカテゴリを表示しています。ただし、トップページのカテゴリは人為的取捨選択を施してあります。

技術

キーワードフォルダは、文章内の言葉の間の関係性を解析して大量の文書から優位な関係性を収斂させる技術です。言語の基礎的な枠組みを利用した技術なので、自然言語であればどのような言語にも応用することができます。文法や言葉の特性を組み込むことでより利便性の高い関係性を抽出することもできると考えています。現在はWikipediaに最適化しており、現状では、Html文書に最適化した技術、日本語に最適化した技術があります。

背景

Web上の情報検索は、黎明期にYahooなどの人力によるカテゴリ検索が流行した後、Googleなどのランキング形式の自動検索エンジンが登場して、カテゴリ検索は衰退しました。今日では、演算能力の向上により文章解釈技術が飛躍的に高まり、検索エンジンにも様々な付加機能が加えられています。今後は、人工知能の文章解釈技術が幅広く取り入れられていくと考えられます。
キーワードフォルダは、人力で行われてきた文書のカテゴリ化を自動化する目的で開発された技術です。既存の文章解釈技術を補完する文章解釈の基礎的枠組み的な技術でもあります。

比較・展望

現状では、よく見られる検索欄のサジェスト機能をより強力にした機能として捉えることもできます。今後はキーワードフォルダに最適化したインターフェースの開発、カテゴリキーの精度の向上、その他の文章解釈技術への応用を行っていきます。
公開サイトは、当面Webに範囲を広げたり、多言語化したりはせず、日本語Wikipedia用に最適化した開発を行い、キーワードフォルダ以外の検索エンジンとして必要な技術、具体的にはリンク評価、要約などを継続して開発していきます。

新聞業界の衰退を止めるには、失われた20年を取り戻すには。

新聞業界の衰退は、IT,Webの勃興にあることは明白だが、それでは新聞社として取り得る方策は何なのか。他業界におけるITの影響や失われた20年における動向と比較しつつ考察したい。

先日、朝日新聞がeeny(注:最終修正日2016/10/6時点でサービスを終了している。)という動画キュレーションサイトを公開した。新聞社がWEBサービスをと感じるかもしれないが、同じ情報を商材として扱う業界として、Webでの存在感を確保することは必要不可欠なことだろう。米国では新聞の読者離れが進み、さまざまな新聞業界の試みがなかなか成果を挙げられていない。新聞社がWebとどのように関わっていくべきかは、今のところ答えのない問題となっている。その答えを体現した新聞社は、新聞社としても生き残れ、Web業界においても存在感のあるプレイヤーとなっているはずである。そうでなければ、新聞社としての生き残りも危ういものとなるだろうから、答えを見つけるための試みをしないことこそが、まず一番のリスクといえる。

新聞社がニュースソースを作り、Web業界にエンドの配信を握られて利益を取られる。この構図は、検索エンジンに上前を取られる、Web全体を支える一人ひとりのサイト作成者と同じ構図である。家電メーカーと家電量販店の関係とも同じである。流通の独占が過度に進めば、利益の出せない製作元は消え、業界自体の衰退が始まる。つまり、新聞社のライバルは、IT,Web業界のプレイヤーである。彼らと様々な側面から戦う必要がある。まず、第一に大切なことは、彼らの身勝手な自由を許さないことである。新しく創生した分野において、ベンチャーは自由にルールを決めて利益を独占するわけだが、自ずと社会との接点において制約を受ける。新聞社は、それが正しい制約であるならば、社会的な不利益が拡大する前に、その自由を制約するための世論喚起をきちんとするべきである。もちろん、自社利益のための批判は論外であり、経済の自由を不当に傷つければ、何倍ものしっぺ返しが起こるのは当然である。しかし、これまでのところ、メデイア、そしてその中核となる新聞業界が、IT,Web業界の構造的な不正を是正できていないと私は思う。つまり、新聞社として正当な仕事が、IT,Web業界のプレイヤーの不当な独占を防ぐことになり、フェアな競争環境を保つことに繋がるはずである。

アメリカのように社会全体が新技術に走り、あまりに寡占が進むのであれば、良質のニュースが作成できなくなるので、倫理的なつまり法的な問題としての規制もありうる。たとえば、過去にあった大型量販店の出店制限などと同じである。ただ、それは二次的な対策であり、政府と本質的な対立を持つ新聞業界には、そのような保護政策は取られない可能性が高い。日本の自動車産業のように海外からも国内においても政府に保護されている新聞社などは、想像をしたくもない。

日本の失われた20年の最大の要因は、産業構造の変化、特にITの波に完全に乗り遅れたことにある。金融と同じように、工業においても、ハードウェアにおいても、ビジネスにおいても、あらゆる分野でITの影響が多大である。アップルはソフトウェアでハードウェアを作り直し、ビジネスも作り直した。ドローンはソフトウェアがハードウェアを変える良い例といえる。どんなに良い素材を開発しハード的な工夫を施してもヘリコプターはヘリコプター以上にはなりえない。しかし、制御系を開発すればドローンもオスプレイもできる。つまり、ソフトがハードの可能性を広げるのである。この点を理解しないで、家電メーカーが顧客のニーズを汲み取ることや、コストを下げることだけに企業努力を傾けた結果が、大差のない画一的な家電製品(商品)の再生産につながり、新興国に追いつかれることに繋がった。これは新聞業界もまったく同じである。ITの波に乗り遅れてはいけないのである。ITは、生物にとっての神経であり脳なのだから、その前後で起こるだろう変化は想像を絶する。

つまり、「第一に大切なこと」に通じることだが、第二に新聞社の行うべきことは、IT技術の進歩を研究機関を作って、徹底的に研究することである。新聞に生かせる技術はどんどん生かしていくべきである。これからは流通だけではなく、制作においてもITの存在が大きくなってくる。新しいIT技術を制作、流通で生かすためにも、戦略的にベンチャーへの投資をするためにも、IT,Web業界の不当な競争を是正するためにも、一定の技術者を確保し、IT知識を充実させることは必要不可欠と言える。そうでなければ、攻めることも守ることもできず、丸腰のまま21世紀を歩いていくことになる。

最終修正日:2016/10/6