Yahoo seo Google > サイトマップ > Googlebotのロボットクローラーとサイトマップの役割

Googlebotのロボットクローラーとサイトマップの役割

ウェブマスターツールに登録したYahoo seo Googleブログのサイトマップが保留のままである。Googlebotのロボットクローラーとサイトマップの役割について検証してみた。
Yahoo seo Googleブログのサイトマップがウェブマスターツール(現在の)で保留となって、今日で21日目である。この間、保留中だからこそ理解できる何かがあるのではないか?と思い、検証を進めていた。各種データはされ、以前とは異なるデータを表示させている。
サイトマップが保留となり、確かに「1日あたりのクロールされたページ数」はガクンと減った。だが、それによって新規の記事が全くキャッシュされていないわけではない。サイトマップが保留となった17日以降の記事では、2014年9月22日付記事「」を除き、2014年9月17日付記事「」、2014年9月29日付記事「」の2つはキャッシュされていることを確認している。
さらに「Fetch as Googleの使い方に注意」については、ウェブマスターツールのデータに登場もしており、これだけで判断すれば、“サイトマップの保留はに大きなマイナスにはなっていない” との印象を受ける。
だが、新規にデータに加わるがある一方で、消えるURLも存在する。この消えるURLとサイトマップの保留は、関係しているのだろうか?結論としては、関係しているURLもあるだろう、ということだ。
リニューアルを目的に、トップページを除く全てのサブページを破棄したサイトがある。そのサイトのウェブマスターツールのデータを見れば、サイトマップに警告が表示されている。そこには「サイトマップのURLのサンプルをテストいたしましたところ、HTTPステータスエラーが原因で、Googlebotが一部のURLにアクセスできないことがわかりました。 有効なURLは、通常どおりすべて登録されます。」とある。
HTTPエラーは全て “404” であり、例として表示されているURLは全て同じURLである。その同一URLに2日か3日の間隔でアクセスを試み、何れも “404” のをレスポンスされたことが表示されている。
実際、このサイトのサイトマップは既にない。サブページの破棄と同時にサイトマップも破棄したのだが、破棄する以前の日付で処理されたサイトマップが残り、そこからサンプルテストを実施しているのである。
サイトマップが破棄されていることが伝わらない原因は、もしかしたらrobots.txtも破棄したことが影響しているのかと思った。以前のrobots.txtにはサイトマップのURLを記述してあったし、する際にはrobots.txtを参照し、クロール対象ページがブロックされていないかを確認する。その際に、サイトマップが更新されていないかも確認すると思っていたからである。
調査するとrobots.txtが既にないことは伝わっていた。どうやら、robots.txtと、そこに記述してあったサイトマップのURLは関係がなさそうである。これを思えば、ウェブページが増えた場合、ウェブマスターツールを通じてサイトマップは即座に再送信した方が良さそうである。
このリニューアルサイトの事例を以って、Yahoo seo Googleブログの消えたURLを検証してみた。消えたURLはあくまでも<>データから消えただけで、インデックスもされているし、<構造化データ>にもしっかり表示されている。つまり、文字通り内部からのリンクが消えたために、データから消えたのだろう。
より正確に言えば、はされている。だがGoogle検索セントラルの「」に書かれている通り、クロールされ、URLリストの作成段階で一時的に消えたのだと考えている。一時的に消えたのは、サイトマップの保留が原因ではないだろうか?
リニューアルサイトのサイトマップは保留とはなっていない。つまり未だ生きたサイトマップとして、Googlebotのクロールを手助けしている。
一方、Yahoo seo Googleブログのサイトマップは保留状態にあり、仮に保留状態でなかったならば、URLリストの作成段階で消えたURLはサイトマップにより補強されていた筈だと思われる。だが、保留状態であるがゆえに補強されず、一時的に消えることで内部リンクから消えたと推測できる。
ここまで検証してきて、キャッシュさせるクローラーと、インデックスさせるクローラーは別なのだろうという推測をした。詳しくはメルマガで書く。
関連のseo記事
  1. (2014/10/10)

コメント

非公開コメント