您打开 Google Search Console,导航到页面,看到几十甚至上百个 URL 被卡在“已发现 — 当前未索引”的状态。与“已抓取 — 当前未索引”(Google 访问了页面但决定不索引)不同,这个状态意味着一个更基本的问题:Google 甚至还没有抓取页面。
它知道 URL 的存在——可能通过您的站点地图或内部链接——但它将其无限期地排队。以下是发生这种情况的原因以及如何解决。
已发现 vs 已抓取未索引:基本区别
这两种状态常被混淆,但它们表示完全不同的问题:
| 状态 | 这意味着什么 | 根本原因 |
|---|---|---|
| 已发现 — 未索引 | Google 找到了 URL 但未下载 | crawl budget,服务器负载,优先级低 |
| 已抓取 — 未索引 | Google 下载了页面但拒绝索引 | 内容轻,质量信号,重复 |
“已发现”是一个资源问题。“已抓取未索引”是一个质量问题。解决方案不同。如果您面临“已抓取 — 当前未索引”的状态,我们在关于为什么 Google 拒绝索引您的页面的文章中详细讨论。
原因 1:crawl budget 耗尽
crawl budget 是 Googlebot 在给定时间窗口内将在您的网站上抓取的 URL 数量。Google 根据您网站的感知权威性和服务器容量分配这个预算。一个新网站,域名权威性低,可能每天有 100–200 页的预算。一个拥有 50,000 页的大型电商网站可能在几小时内耗尽预算。
当 Googlebot 发现的 URL 超过其预算允许抓取的数量时,它们会被排队。最近发现的页面——通过新的站点地图提交或最近添加的内部链接——在这个队列中等待,有时长达数周。
crawl budget 耗尽的迹象:
- “已发现”页面数量远多于已索引页面
- 新页面需要 2 到 4+ 周才能被抓取
- GSC 中的抓取统计显示 Googlebot 每天只访问您总页面的一小部分
原因 2:感知权威性低
Google 优先抓取它认为值得索引的页面。一个新网站,反向链接少,参与度信号弱,内容历史轻,抓取优先级低——即使页面技术上没有问题。
这是一个鸡生蛋的问题:没有索引就无法获得流量,但抓取优先级部分取决于流量信号。解决方案是积极向 Google 表明您的页面值得被抓取。
原因 3:内容轻或重复的模式
Google 的抓取计划不是天真的。如果它抓取了您网站的其他页面并发现内容轻或重复,它会降低未抓取页面的优先级。它基本上在说:“这个网站的内容质量历史不佳——低优先级队列。”
这就是为什么拥有 50 篇高质量文章比 500 篇平庸文章更重要。在担心抓取新页面之前,先清理现有内容。
原因 4:服务器性能问题
Googlebot 是有礼貌的——如果您的服务器响应缓慢或返回错误,它会减慢或停止抓取。如果您的服务器始终缓慢(响应时间 >500ms)或间歇性地返回 5xx 错误,Google 会限制其抓取速率,这意味着“已发现”页面的积压。
检查 GSC 中的抓取统计(设置 → 抓取统计)并寻找:
- 平均响应时间高
- 服务器错误(5xx)的峰值
- 每天抓取的页面数量减少
原因 5:内部链接不足
仅通过站点地图访问且没有内部链接指向的页面在 Google 的抓取优先级中处于底部。Googlebot 跟随链接。如果一个页面距离首页有 4–5 次点击且没有来自权威页面的直接链接,它将等待很长时间才能被抓取。
解决方案:真正需要做的事情
1. 首先消除 crawl budget 的浪费
审核 Googlebot 在什么上花费其预算。使用您的服务器日志或 Screaming Frog 的日志分析模式查看 Googlebot 实际访问的 URL。常见的预算浪费者:
- 生成重复页面的 URL 参数(
?sort=,?page=1) - 创建成千上万种过滤组合的分面导航
- 仍在抓取的旧重定向 URL
- 对机器人开放的管理或内部页面
通过 robots.txt 或规范标签阻止它们,为您的真实内容释放预算。
2. 改善受影响页面的内部链接
从您最具权威性的页面——首页、类别页面、排名最高的文章——添加链接到您的“已发现”页面。即使是一个强大的内部链接也可以显著加快抓取速度。
3. 使用 URL 检查工具 + 请求索引
对于重要页面,使用 GSC 的 URL 检查工具手动请求索引。这会将它们提升到队列中。不要对数百个页面这样做——只针对您最重要的 10 到 20 个 URL。
4. 对优先页面使用 Google Indexing API
对于发布时间敏感内容(新闻、事件、招聘)的站点,Google Indexing API可以完全绕过抓取队列,适用于合格页面。像IndexAI这样的工具可以自动化这个过程,为每个 URL 发送索引信号并跟踪结果。
5. 建立权威以增加 crawl budget
从权威网站获取反向链接可以提高 Google 对您域名的信任,并随着时间的推移扩大您的 crawl budget。专注于 5 到 10 个高质量的反向链接,而不是几十个低质量的。
需要多长时间?
不干预:几周到几个月。积极优化(内部链接 + 索引 API + 清理 crawl budget):通常 1 到 2 周内大多数页面会变为“已抓取”状态。在被忽视的网站上,某些页面可能已在队列中等待 6 个月以上。
每周检查您的 GSC 页面索引报告,并跟踪“已发现”/“已索引”的比例。如果您的修正有效,这个数字应该随着时间的推移而减少。
<div class="cta-box">
<p><strong>📞 页面拒绝被索引?</strong> 我们可以在几分钟内诊断您的情况。</p>
<a href="https://t.me/SEOHotline" target="_blank">通过 Telegram 联系我们</a>
</div>