なぜ私のページはSearch Consoleで「発見されましたが、インデックスされていません」と表示されるのか?

Google Search Consoleを開き、ページに移動すると、「発見されましたが、現在インデックスされていません」というステータスでブロックされたURLが数十、時には数百も表示されます。「クロール済み — 現在インデックスされていません」(Googleがページを訪れたがインデックスしないことを決定した)とは異なり、このステータスはより基本的なことを意味します:Googleはまだページをクロールしていません。

URLが存在することは知っています — おそらくあなたのsitemapや内部リンクを通じて — しかし、それを無期限にキューに入れています。なぜこれが起こるのか、そしてどう対処するかを説明します。

発見 vs クロール済み非インデックス:基本的な違い

これらの2つのステータスはしばしば混同されますが、全く異なる問題を示しています:

ステータス意味根本原因
発見 — 非インデックスGoogleがURLを見つけたがダウンロードしていないCrawl budget、サーバー負荷、低優先度
クロール済み — 非インデックスGoogleがページをダウンロードしたが拒否した薄いコンテンツ、品質シグナル、重複

「発見」はリソースの問題です。「クロール済み非インデックス」は品質の問題です。解決策は異なります。「クロール済み — 現在インデックスされていません」ステータスに直面している場合、私たちの記事で詳細に取り上げています:Googleがあなたのページをインデックスしない理由

原因1:Crawl budgetの枯渇

Crawl budgetは、Googlebotが特定の期間内にあなたのサイトでクロールするURLの数です。Googleは、あなたのサイトの認識された権威とサーバーの能力に基づいてこの予算を割り当てます。新しいサイトでドメインの権威が低い場合、1日に100〜200ページの予算があるかもしれません。50,000ページの大規模なeコマースサイトは数時間で予算を使い果たすことがあります。

Googlebotが予算以上のURLを発見すると、それらをキューに入れます。最近発見されたページ — 新しいsitemapの提出や最近追加された内部リンクを通じて — はこのキューで数週間待つことがあります。

Crawl budgetの枯渇の兆候:

  • 「発見された」ページの数がインデックスされたページより多い
  • 新しいページがクロールされるまでに2〜4週間以上かかる
  • GSCのクロール統計でGooglebotが毎日訪問するページの総数の一部しか訪問していない

原因2:低い認識された権威

Googleはインデックスする価値があると期待されるページのクロールを優先します。バックリンクが少なく、エンゲージメントシグナルが低く、薄いコンテンツの履歴がある新しいサイトは、技術的に正しいページであってもクロールの優先度が低くなります。

これは鶏と卵の問題です:インデックスされなければトラフィックを得ることはできませんが、クロールの優先度は部分的にトラフィックシグナルに依存します。Googleにあなたのページがクロールされる価値があることを積極的に示すことが解決策です。

原因3:薄いまたは重複したコンテンツパターン

Googleのクロールプランナーは単純ではありません。他のページをクロールして薄いまたは重複したコンテンツを見つけた場合、未クロールの残りのページの優先度を下げます。基本的に、「このサイトはコンテンツの品質履歴が良くない — 低優先度のキューに入れる」と言っています。

だからこそ、50の高品質な記事を持つことは500の中程度の記事より重要です。新しいページをクロールする前に既存のコンテンツをクリーンアップしてください。

原因4:サーバーのパフォーマンス問題

Googlebotは礼儀正しいです — サーバーが遅く応答したりエラーを返したりすると、クロールを遅くしたり停止したりします。サーバーが常に遅い(応答時間が500ms以上)または断続的に5xxエラーを返す場合、Googleはクロールレートを制限し、「発見された」ページのバックログが増加します。

GSCでクロール統計を確認し(設定 → クロール統計)、以下を探してください:

  • 平均応答時間が高い
  • サーバーエラー(5xx)のピーク
  • 1日にクロールされるページ数の減少

原因5:不十分な内部リンク

sitemapを通じてのみアクセス可能で、内部リンクがないページはGoogleのクロール優先度の下位にあります。Googlebotはリンクをたどります。ページがホームページから4〜5クリックの距離にあり、権威のあるページから直接リンクされていない場合、クロールされるまでに長い時間がかかります。

解決策:本当にすべきこと

1. まずCrawl budgetの無駄を排除する

Googlebotが予算をどこに使っているかを監査します。サーバーログやScreaming Frogのログ分析モードを使用して、Googlebotが実際に訪問しているURLを確認します。一般的な予算の無駄遣い:

  • 重複ページを生成するURLパラメータ(?sort=, ?page=1
  • 数千のフィルター組み合わせを作成するファセットナビゲーション
  • リダイレクトされた古いURLがまだクロールされている
  • ボットにアクセス可能な管理ページまたは内部ページ

robots.txtやcanonicalタグを使用してこれらをブロックし、実際のコンテンツのための予算を解放します。

2. 影響を受けたページへの内部リンクを改善する

「発見された」ページへのリンクを最も権威のあるページから追加します — ホームページ、カテゴリーページ、最もランクの高い記事など。強力な内部リンクが1つでもクロールを大幅に加速することができます。

3. URL検査 + インデックス登録をリクエストする

重要なページについては、GSCのURL検査ツールを使用して手動でインデックス登録をリクエストします。これにより、キュー内での優先度が上がります。数百ページに対してこれを行わないでください — 最も重要な10〜20のURLに限定してください。

4. 優先ページにGoogle Indexing APIを使用する

時間に敏感なコンテンツ(ニュース、イベント、求人情報)を公開するサイトの場合、Google Indexing APIは、適格なページのクロールキューを完全に回避できます。IndexAIのようなツールはこのプロセスを自動化し、各URLのインデックス登録シグナルを送信し、結果を追跡します。

5. 権威を構築してCrawl budgetを増やす

権威のあるサイトからのバックリンクを取得することで、Googleのドメインに対する信頼が高まり、時間とともにCrawl budgetが拡大します。質の高い5〜10のバックリンクに集中し、低品質のものを多数取得するよりも効果的です。

どのくらい時間がかかるか?

介入なし:数週間から数ヶ月。積極的な最適化(内部リンク + インデックスAPI + Crawl budgetのクリーンアップ)を行うと:ほとんどのページが「クロール済み」ステータスに移行するのに通常1〜2週間。放置されたサイトでは6ヶ月以上キューに入っているページもあります。

毎週GSCのページインデックスレポートを追跡し、「発見された」/「インデックスされた」比率を記録します。修正が機能している場合、この数値は時間とともに減少するはずです。

        <div class="cta-box">
            <p><strong>📞 インデックスされないページがありますか?</strong>数分であなたの状況を診断します。</p>
            <a href="https://t.me/SEOHotline" target="_blank">Telegramでお問い合わせください</a>
        </div>