> > 被リンク・発リンク・インデックスのクローラーは異なる?!

被リンク・発リンク・インデックスのクローラーは異なる?!

かつてのYahoo! seoアルゴリズムにおいてウェブページのインデックスはAltaVistaが担い、発リンクと被リンクの役割はInktomiが担っていると推測していた。
そしてGoogleにおいてもYahoo!同様のクローラーの動きがあるらしいことが理解出来た。
かつてのYahoo!はAltaVistaが収集したウェブページの内容をデータベースにして、Inktomiが収集したそのウェブページからの発リンクや被リンクのデータを加算して独自のデータを生成していたと考えていた。
この点に関して、Googleのクローラーは不明で、1回のクロールがウェブページのコンテンツ、発リンク、被リンクを収集するのかと漠然と考えていたのであるが、どうやらそれは間違えの様であった。
インデックスされていないウェブページなのに、あるサイトへのバックリンクとしてはキーワード検索結果(Search Engine Results Pages=SERPs)に表示されることを確認したからである。

つまりGoogleのクローラーにはウェブページをインデックスするクローラーと、発リンクと被リンクに沿ってクロールする最低2種類以上のクローラーがあるだろうことが推測出来る。

より詳細に分類すれば発リンクと被リンクのクローラーも異なるだろう。
先ずは何故この様な考えに至ったかを説明しよう。

あるウェブページはGoogleにインデックスされてはいないにも関わらず、あるサイトへのバックリンクとして表示される。
つまりここではそのインデックスされていないウェブページからの発リンクがクローラーによって捕捉されたことが理由であろう。
でなければバックリンクとして表示などされないだろうからだ。

ではそのインデックスされていないウェブページは何を以ってGoogleにその存在を教えたのであろうか?
それは他のソースに記述された発リンクに沿ってGoogleが発見した以外には考えられない。
他のソースとは、別ドメインからのリンクであるかもしれないし、また、Googleウェブマスターツールに送信したサイトマップからかも知れない。
兎に角1回のクロールでコンテンツ・発リンク・被リンクを同時に補足するなら、バックリンクとしてだけのSERPs表示はないだろう。

発リンクと被リンクのクローラーが異なると推測するのは、「アンカーテキストとコンテンツマッチの検証」で触れた事案があるからである。
静的な被リンクとして発見され、PageRankが付与されたと思った矢先にPageRankが消え「利用できません」と表示されたのは、そのウェブページからのアンカーテキストとリンク先のコンテンツのミスマッチが原因であると考えた。
それは未だ検証の最中の事案であるが、被リンクとしての価値と発リンクとしての価値があることがこの事案での検証材料である。
つまりは発リンクのクローラーと発リンクのクローラーが異なると考えれば、PageRankの消滅という問題は整合性が取れるからである。

Googleの3つのクローラーを仮定して、Google seoアルゴリズムを想定してみる。
あるソースからのリンクを受けて、ウェブページAが発見される。
ウェブページAからの発リンクを受けて、あるサイトBへのバックリンクとして認識される。
この時点ではページAはいまだサイトBへのバックリンクとしてしか存在しない。
サイトBへの静的バックリンクとして一定の時間が経過した後に、ページAはインデックスされる。
この時点でサイトBへのバックリンクとしての評価としてPageRankが付与される。
そしてその後、ページAからの他の発リンクがクローラーに捕捉され、アンカーテキストとリンク先コンテンツのマッチングが量られる。
ここでミスマッチが多ければPageRankは消滅し、「情報を利用できません」に変わるケースがある。

説明を加えれば、ページAからのリンクは物理的なリンクとして認識される。
ページAのコンテンツがインデックスされて、そのコンテンツに見合ったリンクであるのかがseo的なリンクであるかの評価である。
物理的なバックリンクとして評価されるのは、Google seoアルゴリズムの時間軸に沿った一時的なもので、コンテンツがインデックスされてseo的なリンクとして評価されない限り本当のバックリンクとはならない。

兎に角、現在はPageRankの有無に興味がある。
「情報を利用できません」と表示されるのは、そのウェブページがウェブの世界から蚊帳の外にされていることを示すものだからである。
更にその「情報を利用できません」と表示されるウェブページがサイト内にあれば、そのウェブページは内部最適化のマイナス要因となる。
何故ならそのページから発リンクされたサイト内の他のウェブページに飛び火する可能性があるからだ。

最適化されたサイト内リンクは大きなseoスコアを生む。
それだけは確かなことなので、PageRankの有無に大きな関心を抱いている。

「18歳未満退場」の検索で「東京ディズニーリゾート・オフィシャルウェブサイト」が上位表示されるのも、どうやら発リンクが大きく関与しているらしい。
これもGoogleの3つのクローラーがそれぞれ独自の収集をしている証であろう。
「被リンク・発リンク・インデックスのクローラーは異なる?!」に関連する記事

コメント

非公開コメント