Googleが評価する記事とは?#3 オリジナル性の検証
- (2010-02-25 06:09:25)
他人の論文をコピーしてきてもオリジナル性は出せない。どうやってGoogleは論文のオリジナル性を計算しているのか、それがナゾだ。
ネットで調べモノをしていると「まったく同じ文章」に出会う場合がある。それはどちらかの人が一方をまるまるコピーしたとしか思えない。
よくよく読めばおそらく「こちらがオリジナルだろう」と推測できてもGoogleの検索結果はコピーと思われるものを上位表示していることもあり、オリジナル性の検証は苦戦しているのではなかろうか。
「どちらがオリジナル?」という問題が、要は人間でさえパーフェクトに判断できる手法やロジックがないのだから、プログラムに落とせるはずがないのは当然。
OriginalityRank
とはいえページランク(PageRank)のような評価項目が定義されて評価対象になっていることは間違いなかろう。あえて命名すれば、「オリジナリティ・ランク」(OriginalityRank、Originality Rank)のような評価ポイントが設定され計算されているのではなかろうか。
「重複文書ペナルティ」(Duplicate content penalty)といった言葉が普通に語られているからには重複文書・重複コンテンツをチェックしているロジックが存在する。しかも、完全重複だけでなく、多少のワードの入れ替えや文章構造や変更程度では「重複」と判断できるアルゴリズムになっている。
重複度を点数で評価できるアルゴリズムがあるのなら、オリジナリティの度数を評価するアルゴリズムがあってもおかしくない。
他人の著作物だけのサイト
RSSフィードを掻き集めて自社サイトのコンテンツにしているようなサイトはどうだろうか?
そういうサイトは多数あって、中には工夫とそのサイトなりのコンテンツがあるものもあるが、なんと他人の著作物を並べているだけのサイトが高く評価されるケースも少なくない。
コンテンツは露骨に「すべて他人の著作物を並べているだけ」のサイトで、しかもオリジナルの記事への直リンクさえないサイトが、オリジナルのサイトより上位表示される事態は不自然に思えるがそういうレベルでも検索エンジンのオリジナル性の検証は弱いと推測される。
個々の記事のオリジナル性よりもサイト全体の評価にプライオリティがあるようだ。
オリジナリティの計算に使用される項目の推理
自分がもしオリジナル性の検証を行うとしたら、使用できそうな項目を考えてみる。
・ファイルのタイムスタンプ?
文章構造やキーワードに類似性が見られる場合はタイムスタンプである程度どちらがオリジナルか判断できそう。古いタイムスタンプがオリジナル。しかし、あまりにも単純か。更新が激しいファイルは多いし、アクティブな著作活動をしている人のファイルは常に新しい。またタイムスタンプ自体の操作も簡単。タイムスタンプはなし。
・希少な専門用語・希少ワード・希少コンビネーション?
Googleにはすべてのワードに対していくつかの指標を常に採取しているデータベースがあるだろう。その中には「世界中で使用させるワードの出現率ランキング」とすべてのワードの相互の関連度を示す、たとえて言えば「ワード間関連係数」(Word-Relevancy coefficient)があるのではなかろうか。
たとえば、日本語だったら50万語程度がインデックスされ、出現率ランキングがリアルタイムに計算され、またそれらは相互に関連づけされ、関連度が数値で表現されているとうに思う。
だから希少ワードかどうか、ワード同士の希少な組み合わせ方かどうかは計算可能で、専門用語や他人が使用しにくい希少ワードやワードの希少な組み合わせ方(希少コンビネーション)の出現率を計算しているのではなかろうかと感じる。
いずれにしてもオリジナリティチェックの完成度はまだ高くないように感じている。
この記事は#3
Googleが評価する記事とは?#5 サイトテーマの集積度
Googleが評価する記事とは?#4 論理性の検証
Googleが評価する記事とは?#3 オリジナル性の検証
Googleが評価する記事とは?#2 学術論文形式
Googleが評価する記事とは?#1 Googleの姿勢