スモールビジネスのIT日誌 | 「とりあえず動いてくれればOK！」なIT化・自動化の記録

Googleが評価する記事とは？#5　サイトテーマの集積度

(2010-02-26 05:30:06)

テーマの集積度が重要。私は勝手に「Theme Concentration Rate(テーマ集中度)」と命名している

-------------------------------

海外のSEO関連サイトではSEOを考える際と重要ワードとして「Relevancy」が比較的取り上げられると思う。

普通に訳せば「関連性」と思うが、日本のSEOの先生方のサイトを見てみると「適合性」と訳している人もいる。何がどう適合するイメージを抱けばよいのかと考えてみると下記の図式ではなかろうかと自分なりに解釈している：

・「サイトのテーマ」に対する「各ワード」の関連性

「サイトのテーマ」をGoogleは下記の要素で決定(計算)していると推測する：

・「Title」タグ

・「Description」タグ

・サイト内に含まれる全ワードの関係度

サイト内に含まれる全ワードはそれぞれ平等に評価されるわけでなく、下記の重み分けがなされている(体感的推測)：

・タイトルタグ(＜H＞)：タイトルタグ重視は明白。サイトのテーマになるワードが含まれていると見なされる。評価係数差は最大10倍

・強調タグ(＜Strong＞)：やや重要。サイトテーマとの関連性が強いワードが含まれていると見なされる。評価係数差は最大2倍

・出現場所：ワードの出現場所(表記位置)が、コンテンツの左上前方であればあるほど高いランクになる。評価係数差は最大2倍

※コンテンツ総量：「サイトのテーマ」の評価とは無関係ではなかろうか？

昨日も書いたが、Googleは日本語だったら50万語程度を個別に「総当たりワード間相関係数」をはじき出しているように思えてならない。

この言語データベースの私の中のイメージはとってもグラフィカル。こんな感じ：

・x軸に50万語並べる

・y軸に50万語並べる

・2次元画面上で全ワードが総当たりで相関係数をプロットする

・2次元画面上に起伏や凹凸のある山脈地図ができる

全出現ワード総数に対して、「Title」タグ、「Description」タグ、タイトルタグ(＜H＞)、ワードの出現位置、およびワード間相関係数の総スコアをもとにサイトテーマの集積度が計算されているのではなかろうか。

Googleが、実際どのようにRelevancyを計算しているのか私のような下々の人間には知る由もないが、自分が制作したサイトの評価され具合や結果から見る限り上記要素をもとにアルゴリズムが組まれていることは経験値に合っており遠からずと考えている。

とすると幅広いワードでの集客が必要な場合は多彩なワードを散らす必要があるが、下手にコンテンツ総量を増やせば、サイトのテーマ集積度は希釈され評価を落とす。

しかし、その反面きわめて狭いワードでしかヒットしてもらえないというジレンマが起きる。

どちらを取るか？

その問題はそのサイトの目的と集客目標に依存するだろう。サイトの目的を明確にし、集客設計と動員ワード設計(数量と種類とランク分け)を行う時代に来ているのかもしれない。

情報性と専門性

「情報性」という言葉が正しいかどうか不明。あえていえば「私は○○と思う」「私は○○と感じる」といった個人の情感的意見や感想はあまり重視されない。

第三者にとって価値ある情報を提供している記事を価値ある記事としてGoogleは評価しているのではなかろうか。

しかし、意見や感想には情報性が含まれる場合があるので、一緒くたに切り落とされることはなかろう。それでも、情感が伴うワードとの併用は小説やエッセイだけにとどめた方がよいかもしれない。

この記事は#5

Googleが評価する記事とは？#5　サイトテーマの集積度

Googleが評価する記事とは？#4　論理性の検証

Googleが評価する記事とは？#3　オリジナル性の検証

Googleが評価する記事とは？#2　学術論文形式

Googleが評価する記事とは？#1　Googleの姿勢

Googleが評価する記事とは？#4　論理性の検証

(2010-02-25 06:13:09)

論理性の検証

キーワードだけを無意味に羅列しただけの文章をGoogleはすぐに見破る。そのアルゴリズムの開発が90年代の他の検索エンジンを凌駕した原動力だったが、今から思えばちょっとした文法チェッカーのようなプログラムでフィルタリングできたようにも思える。

文法のロジック破綻度を計算するプログラムはGoogleでなくとも、言語のセンスのある腕利きプログラマーなら比較的作れそうな気がするが、そこがコロンブスの卵だったのではなかろうか。

しかし、文章全体の論理度の計算となると、どうやってプログラミングする？イメージが湧かないが、Googleはそれをやっているように思う。

この記事は#4

Googleが評価する記事とは？#5　サイトテーマの集積度

Googleが評価する記事とは？#4　論理性の検証

Googleが評価する記事とは？#3　オリジナル性の検証

Googleが評価する記事とは？#2　学術論文形式

Googleが評価する記事とは？#1　Googleの姿勢

Googleが評価する記事とは？#3　オリジナル性の検証

(2010-02-25 06:09:25)

オリジナル性の検証

他人の論文をコピーしてきてもオリジナル性は出せない。どうやってGoogleは論文のオリジナル性を計算しているのか、それがナゾだ。

ネットで調べモノをしていると「まったく同じ文章」に出会う場合がある。それはどちらかの人が一方をまるまるコピーしたとしか思えない。

よくよく読めばおそらく「こちらがオリジナルだろう」と推測できてもGoogleの検索結果はコピーと思われるものを上位表示していることもあり、オリジナル性の検証は苦戦しているのではなかろうか。

「どちらがオリジナル？」という問題が、要は人間でさえパーフェクトに判断できる手法やロジックがないのだから、プログラムに落とせるはずがないのは当然。

OriginalityRank

とはいえページランク(PageRank)のような評価項目が定義されて評価対象になっていることは間違いなかろう。あえて命名すれば、「オリジナリティ・ランク」(OriginalityRank、Originality Rank)のような評価ポイントが設定され計算されているのではなかろうか。

「重複文書ペナルティ」(Duplicate content penalty)といった言葉が普通に語られているからには重複文書・重複コンテンツをチェックしているロジックが存在する。しかも、完全重複だけでなく、多少のワードの入れ替えや文章構造や変更程度では「重複」と判断できるアルゴリズムになっている。

重複度を点数で評価できるアルゴリズムがあるのなら、オリジナリティの度数を評価するアルゴリズムがあってもおかしくない。

他人の著作物だけのサイト

RSSフィードを掻き集めて自社サイトのコンテンツにしているようなサイトはどうだろうか？

そういうサイトは多数あって、中には工夫とそのサイトなりのコンテンツがあるものもあるが、なんと他人の著作物を並べているだけのサイトが高く評価されるケースも少なくない。

コンテンツは露骨に「すべて他人の著作物を並べているだけ」のサイトで、しかもオリジナルの記事への直リンクさえないサイトが、オリジナルのサイトより上位表示される事態は不自然に思えるがそういうレベルでも検索エンジンのオリジナル性の検証は弱いと推測される。

個々の記事のオリジナル性よりもサイト全体の評価にプライオリティがあるようだ。

オリジナリティの計算に使用される項目の推理

自分がもしオリジナル性の検証を行うとしたら、使用できそうな項目を考えてみる。

・ファイルのタイムスタンプ？

文章構造やキーワードに類似性が見られる場合はタイムスタンプである程度どちらがオリジナルか判断できそう。古いタイムスタンプがオリジナル。しかし、あまりにも単純か。更新が激しいファイルは多いし、アクティブな著作活動をしている人のファイルは常に新しい。またタイムスタンプ自体の操作も簡単。タイムスタンプはなし。

・希少な専門用語・希少ワード・希少コンビネーション？

Googleにはすべてのワードに対していくつかの指標を常に採取しているデータベースがあるだろう。その中には「世界中で使用させるワードの出現率ランキング」とすべてのワードの相互の関連度を示す、たとえて言えば「ワード間関連係数」(Word-Relevancy coefficient)があるのではなかろうか。

たとえば、日本語だったら50万語程度がインデックスされ、出現率ランキングがリアルタイムに計算され、またそれらは相互に関連づけされ、関連度が数値で表現されているとうに思う。

だから希少ワードかどうか、ワード同士の希少な組み合わせ方かどうかは計算可能で、専門用語や他人が使用しにくい希少ワードやワードの希少な組み合わせ方(希少コンビネーション)の出現率を計算しているのではなかろうかと感じる。

いずれにしてもオリジナリティチェックの完成度はまだ高くないように感じている。

この記事は#3

Googleが評価する記事とは？#5　サイトテーマの集積度

Googleが評価する記事とは？#4　論理性の検証

Googleが評価する記事とは？#3　オリジナル性の検証

Googleが評価する記事とは？#2　学術論文形式

Googleが評価する記事とは？#1　Googleの姿勢

Googleが評価する記事とは？#2　学術論文形式

(2010-02-20 06:15:52)

情報の伝達と保管に優れたフォーマット・学術論文形式

Googleが生み出すロジックは多くの場合アカデミックな香りがする。

創業者のラリー・ペイジ氏とセルゲイ・ブリン氏ともにスタンフォード大学在学中の創業だったというからアカデミックな雰囲気が漂うのも納得する。

Googleに愛される記事の要点は「学術論文形式」。

なぜなら、学術論文には必要な情報が過不足なく、かつ安定した形式でまとめられており、一応人類が今まで積み上げてきた情報の伝達と保管方法としては最も優れた形式・フォーマットと見なされている方ではなかろうか。

重要性1【網羅すべき形式】

-------------------------------

・タイトル

・序文・まえがき・はしが・preface

・目次

-------------------------------

(繰り返し)

・サブタイトル

・要約・サマリー

・本文

-------------------------------

・編集後記

・註訳

・引用文献・引用資料・出典

・用語解説

・参考資料

・索引

・著者紹介

-------------------------------

これだけの項目をきちんとそろえると、一応合格点をいただけるのではないか。

さらによい点数をもらうためには次の特徴が欲しい。

重要性2【あるべき特徴】

-------------------------------

・論理性

・オリジナル性

・専門性

・情報性

-------------------------------

この記事は#2

Googleが評価する記事とは？#5　サイトテーマの集積度

Googleが評価する記事とは？#4　論理性の検証

Googleが評価する記事とは？#3　オリジナル性の検証

Googleが評価する記事とは？#2　学術論文形式

Googleが評価する記事とは？#1　Googleの姿勢

Googleが評価する記事とは？#1　Googleの姿勢

(2010-02-20 06:12:06)

SEOの専門家みたいなタイトルを付けたが憶測、自分なりの理解。

Googleの、最も基本とする発想・考え方の一つは「外部からの被リンク重視」。

これは大学研究者にありがちな発想の延長線上にあるように感じる。

学術論文では引用される資料や元論文は「価値がある」もしくは「信頼性が高い」という価値観がある。それはアカデミックな世界の伝統と文化であり、大学の研究者の共通認識なんだろう。

Googleの検索エンジンのコンセプトは人間が記事の信頼性や内容を評価したり判断したりする際の知的な動作・挙動・思考方法を可能な限りまねようとしているように見える。

「多数の人に引用される資料は価値がある・信頼性が高い」という評価基準はそういった人間が行う価値判断の一例。

このように人間の思考方法や発想方法をプログラムコードに書き直し、システムに落とすことに余念がない。そして、その開発力はきわめてパワフルかつダイナミックに見える。

この記事は#1

Googleが評価する記事とは？#5　サイトテーマの集積度

Googleが評価する記事とは？#4　論理性の検証

Googleが評価する記事とは？#3　オリジナル性の検証

Googleが評価する記事とは？#2　学術論文形式

Googleが評価する記事とは？#1　Googleの姿勢

layout

list

admin

edit

[▲page top]