最近のコンテンツSEOと自然言語解析


Googleがページコンテンツの質を評価し、またその評価を重視できる段階に入ってきたように思われる近年、SEOもコンテンツ重視の傾向が強くなってきた。その背景であり、将来の検索エンジンの基幹テクノロジとなる人工知能、自然言語解析について考えてみた。

SEO、コンテンツ重視の傾向

真偽の程は、各個人、業者の経験/統計でしか分からないが、最近とみにGoogleの検索結果がコンテンツの質で順位決定されるようになってきたという印象を聞く。確かに、多くの外部リンクスパム対策が講じられ、ナレッジ・グラフ(ナレッジ・グラフとは)のようにキーワード自体の意味内容を表示することをGoogleができるようになってきた(*1)ことを考えると、Googleがページコンテンツの質を評価し、またその評価を重視できる段階に入ってきたのかもしれない。

たとえばキーワードの選別方法について、以前はキーワード比率が明らかにキーワードの抽出と順位決定の一要因となっていたように思われるが、最近はそれほど重視されていない印象を受ける。つまり、キーワードの選別方法をGoogleが大きく変えてきたようで、それが今までのようにさまざま要因を判断材料にするアルゴリズムの延長線上のものなのか、あるいは言葉の意味的解釈に踏み込んだのかは、実際のところはよく分からない。

例えばタイトルに「スマホ」という言葉があればスマホサイトか分析を行う、「(地域名)」があればローカルビジネスのサイトであるか分析を行う、「(業種)」があればビジネスサイトとしての分析を行うなど、キーワードによるカテゴライズ、それに伴う分析手法/順位決定アルゴリズムのカスタマイズには踏み込んでいるように思う。しかし、これはドメイン、URL、内部リンク、その他(ホームページ、無料ブログ、トップページ、サブページなど)による検索順位決定手法のカスタマイズからさほど遠くない判定手法であり、解釈の工程が少なく枠組みも固定的であり、言葉の意味的解釈とまでは言えないだろう。

言葉の意味的解釈とは

IBMが人工知能のワトソンに巨額投資をしたり、Googleも人工知能の開発投資に資金を惜しんでいないようだ。コンピュータに高度な知的作業を行わせようという取り組みは、現在、過去にも増して熱を帯びているように感じる。それは、高度な知的作業を行わせるに足るハードの発展が目覚ましく、ソフトの枠組みさえきちんとしていれば高度な処理が実際に可能になってきたことによる。

言葉の意味的解釈とは、どのようにすれば良いのだろうか。意味論について、先行する知見は沢山ある。言語学、哲学、論理学、基礎数学、計算機科学、言葉は学問の基礎であるため、その捉え方はその分野の研究の屋台骨となる。多くの過去の知見を末端の開発や研究者が生かしきれているかと言えば生かしきれていないと思うし、実際の開発において過去の知見を学ぶだけで事足りるかいえば、それでは足りないとも思う。
自分であればどのようなアプローチをするか、ここではほんの少し思索してみたいと思う。

人は言葉を得て知恵(思考/知識)を得た。言葉は知恵の道具でもあり、知恵の表現でもあり、知恵を普遍化するための手段としては、知恵そのものとかなり一体となっているものでもある。したがって、言葉を解釈するときに知恵(思考/知識)を抜きにして考えることはできない。知恵のない解釈は「解釈の工程が少なく枠組みも固定的」な「反射」とでも言えるかもしれない。
したがって、言葉を解釈するためには、目に見える文字(記号)という対象を使って、目に見えない知恵(思考/知識)という対象を構築する必要がある。
文字、単語、熟語、フレーズ、分節、文、段落、章、文章、etcという目に見えるもの。
意味、文法、文脈、主題、背景、暗示、結論、etcという目に見えないもの。
プログラミングをするときは、前者を解析するフェーズと後者を解析するフェーズを分けることになると思う。そして言葉の解釈は、特に後者、知恵(思考/知識)の枠組み作りが大切になるとおもうが、少し考えただけでも無限の可能性を秘めた興味の尽きない分野に感じる。例えば、次のようなページが参考になる。自然言語処理意味論論理学機械学習ゲーデルの不完全性定理

*1 「ナレッジ・グラフでキーワード自体の意味内容を表示することをGoogleができるようになってきた」というが、何か画期的な意味解釈の枠組みをGoogleが運用し始めたということではないらしい。現在のhtml5はセマンテイックWebの流れにある。セマンテイックとは「意味的な/意味論の」という意味であり、意味論というのは哲学/論理学/基礎数学/言語学などにある学問分野で、意味とは何か、解釈とは何かを追究し、仮説/枠組みを設けて分析/応用する学問だ。Google自身がセマンテイックWebの推進を先導してきた。それは、Webの情報に意味的な規格が設けられ統一されれば、それを分析/利用することが容易になるからだ。実際にナレッジ・グラフはセマンテイックWebつまりhtml5の規格の上で、フリーの優良サイトから情報を取得してくるという構成になっているようだ。