Yahoo seo Google > サイトマップ > インデックスリクエストとサイトマップ、Googlebotクロールとseo

インデックスリクエストとサイトマップ、Googlebotクロールとseo

Yahoo seo Google<クロールの統計情報>「ページリソースの読み込み」を検証したのだが、それはサイトマップの読み込みではなかったか?インデックスリクエストの機能停止とサイトマップ更新日の問題、そしてGooglebotクロールとseoの関係を報告する。
ブログランキング参加停止後からに変化が生じたことは、前回記事「」の<クロールの統計情報>「検出」のデータでも報告した。今回は「ファイル形式別」にある「その他のファイル形式」データを紹介しよう。
の<クロールの統計情報>最終更新日「2021/02/19」の「その他のファイル形式」データが以下である。2021年2月19日更新HTTPSクロールの統計情報「その他のファイル形式」画像24日から始まる推移の中、最近になって急激に数値が上昇していることがデータから読み取って頂けるだろう。
前回記事でも書いた通り、この「その他のファイル形式」は、301に関係したものなのだろうと考えている。ヘルプの「」に当たっても、そこには
その他のファイル形式 - ここに記載されていないその他のファイル形式。
とあり、その他に思い当たるものは何一つないからである。
次に紹介するのが「Googlebotタイプ別」の「ページリソースの読み込み」データである。2021年2月19日更新HTTPSクロールの統計情報「ページリソースの読み込み」画像この「ページリソースの読み込み」についても同じくSearch Consoleヘルプに当たれば、
ページで使用されるリソースの補助的な取得。Googleはページをクロールする際、ページをインデックスに登録する前にページをレンダリングするために、画像やCSSファイルなどのリンクされた重要なリソースを取得します。このようなリソースリクエストを行うのが、このユーザーエージェントです。
とある。ヘルプの訳に一部意味不明に感じられた部分があったので、オリジナルの英文を読んでみた。
A secondary fetch for resources used by your page. When Google crawls the page, it fetches important linked resources such as images or CSS files, in order to render the page before trying to index it. This is the user agent that makes these resource requests.
「ページをレンダリングするために、そのページにリンクしている画像やCSSなどの重要なリソースを取得している」ということだ。
「その他のファイル形式」データと同じく、2020年11月24日から始まる推移の中、リクエストは2回で、1回目が18日で、2回目が2021年2月17日である。そして、この2回目のリクエストはブログランキング参加停止によってリクエストされたものではないか?と推測している。根拠は2月16日12時31分に参加を停止したからという、実に曖昧なものではあるが、この停止によってHTTPでされることがなくなり、それによって今まで紹介してきたようなGooglebotの変化が生じたのは紛れもない事実であるからだ。

インデックスリクエスト機能停止とサイトマップの関連性

では、1月18日のリクエストは?と考えて記録から手がかりを探してみると、1月17日のHTTPSの<クロールの統計情報>で、リクエストの合計が212あったことが見つかった。1月17日とは2021年1月18日付記事「」で報告したが、ツールが復活したと思われた日である。そして復活したリクエストツールは1月20日に再度機能停止したように思われる。その日のリクエスト合計が37と大幅に減少したからだ。これに関して、私は、1月18日にリクエストされた「ページリソースの読み込み」が、1月20日のインデックスリクエスト機能停止に繋がったのではないか?と推測している。
1月18日の「ページリソースの読み込み」とは、具体的に何を読み込んでいるのか?今現在、私が推測しているのはサイトマップである。Google検索セントラルの「」の冒頭には、こう書かれている。
サイトマップとは、サイト上のページや動画などのファイルについての情報や、各ファイルの関係を伝えるファイルです。Googleなどの検索エンジンは、このファイルを読み込んで、より高度なクロールを行います。
注目すべきは、この引用箇所で使われているこのファイルを読み込んでである。
今、そのページにこの記述はされていないが、かつて「Google検索の仕組み」には、このようなテキストがあった。
クロールを開始する際は、前回のクロールで生成され、ウェブマスターから提供されたサイトマップによって補強された、ウェブページのURLリストを使用します。
14日付記事「」を参照のこと。)この記述がなくなっても、サイトマップがGooglebotのクロールに重要な役割を担っていることは、今も間違えないと思われる。
では、1月18日のサイトマップの読み込まれで、なぜ、インデックスリクエストの機能は停止したのか?想像しているのは、のサイトマップが抱える根本的なの問題、つまり日の問題である。
21日付記事「」で報告した通り、FC2ブログのサイトマップは<lastmod>でエントリーされた日時を出力している。そして、それは今も変わらない。では、このサイトマップの情報をGoogleが優先的に活用するように改めたとすれば、インデックスのリクエストがスルーされるのも当然ということになる。なぜなら、サイトマップにはエントリーされた日時が<lastmod>で表示され、それはエントリーされた日から1度も更新されたことがないことを伝えているからである。Googlebotのクロールバジェットを考慮すれば、更新されていないページにクロールするデメリットを排除することができる。(<Web担当者Forum>の記事「」を参照のこと。)
前回記事で、新規記事だけインデックスリクエストを行っていることを報告した。リクエストをしなくても登録されていたが、していないとパソコン用Googlebotのクロールのみで用Googlebotのクロールが中々行われない状態があったからである。リクエストすると、パソコン用並びにスマートフォン用Googlebotのクロールが確認された。これもインデックスリクエストがサイトマップの<lastmod>を活用するようになったと考えれば、新規記事だけリクエストが叶うことの説明ができる。新規記事の<lastmod>はエントリーされた日であるから、Googlebotにすれば、リクエストされたURLはクロールするべきURLであることをサイトマップが示しているからである。
確認の意味も込めて2月21日にを修正した過去記事のインデックスをリクエストしたが、22日になってもインデックスの更新は確認されなかった。こうした点からも、大規模サイトのサイトマップと<lastmod>が、インデックスリクエストのツールと紐づけられたのが1月18日だと考えている。

Googlebotクロールとドメイントップページの重要性

2月17日のサイトマップ読み込みが、ブログランキング参加停止を契機とするなら、これにはHTTPとHTTPSの重複がseoに関与していると想像される。
Google検索セントラルの「」に、このような記述がある。
Googleによるクロールを希望するページが1ページのみの場合は、そのページをホームページに設定します。
ホームページはサイトで最も重要なページであるとGoogleは考えています。サイト全体がクロールされるようにするには、ホームページ(とすべてのページ)に、サイト内のすべての重要なセクションやページにリンクする適切なサイト ナビゲーションシステムを組み込んでください。これにより、ユーザーは(そしてGoogleも)サイト内を効率的に移動できるようになります。小規模なサイト(1,000ページ未満)の場合、ホームページからリンクをたどることで他のすべてのページにアクセスできるようになっていれば、ホームページのみを Google に認識させるだけで十分です。
これも一部で意味不明瞭な個所があったので、英文に当たった。
If you ask Google to crawl only one page, make it your home page.
Your home page is the most important page on your site, as far as Google is concerned.
邦訳すれば、Googlebotにクロールを希望するページが1ページであった場合は、そのページはホームページ(トップページ)にしなさい、ということだ。(5日付記事「」を参照のこと。)
あのランキングページにはYahoo seo Googleトップページと新規記事2つがHTTPでリンクされていたが、ブログが更新される度にリンクされる新規記事は変わった。21日付記事「」で、こう書いている。
簡単に申し上げれば、静的なリンクとはそのウェブページからの発リンクが一切変わっていないリンクを指す。これに反して、そのウェブページからの発リンクがコロコロ変わる場合が動的なリンクと定義して使用している。
これに倣えば、ランキングページから新規記事へのリンクは動的なリンクであったが、Yahoo seo Googleトップページへのリンクは静的なリンクそのものだったのである。このトップページへの静的リンクと「Google検索の仕組み」に書かれたホームページの重要性、そしてランキング参加停止によりHTTPのトップページへの静的なリンクが消えること、これによりサイトマップが読み込まれたと考えるのは、あながち大きな見当違いには思えないのである。
<クロールの統計情報>は、今のGoogle seoを探る上で極めて貴重なデータになりつつある。最終更新日「2021/02/19」データでは、久しぶりに “net” “us” にもクロールが確認された。この件については次回記事で紹介する。
追記(2021年2月25日):“net” “us” のクロールに関する記事「」をエントリーしました。
追記(2021年2月26日):インデックスリクエストはサイトマップを活用していた!詳細は「」を参照のこと。
追記(2021年3月26日):<クロールの統計情報>に、2月19日リクエストの新たなデータを発見した。詳しくは「」を参照のこと。
追記(2021年5月11日):Googlebotのクロールとサイトマップの<lastmod>について、新規記事「」をエントリーした。
関連のseo記事
  1. (2021/02/17)

コメント

非公開コメント