如何审核 XML 站点地图
本教程将引导您了解如何使用 Screaming Frog SEO Spider 审核 XML 站点地图,可以通过将其作为站点爬取的一部分进行爬取,也可以单独上传。
如何使用 SEO Spider 审核 XML 站点地图
XML 站点地图应保持最新、无错误,并包含可索引的规范 URL 版本,以帮助搜索引擎抓取和索引对网站重要的 URL。
本教程将引导您了解如何使用 Screaming Frog SEO Spider 审核 XML 站点地图,可以通过将其作为站点爬取的一部分进行爬取,也可以单独上传并爬取 XML 站点地图 URL。
首先,您需要下载 SEO Spider,它提供免费的精简版,可爬取最多 500 个 URL。您可以通过右侧边栏中的按钮下载。将站点地图作为爬取的一部分进行爬取需要付费访问,但是您可以使用免费版本以列表模式上传和分析 XML 站点地图。
将 XML 站点地图作为站点爬取的一部分进行审核的好处是,您可以将爬取的内容与 XML 站点地图进行匹配,以发现孤立的 URL(XML 站点地图中的 URL,但未在网站上内部链接),或者在爬取中找到的 URL,但 XML 站点地图中缺少这些 URL。
单独上传 XML 站点地图意味着您将无法获得有关爬取中可能缺失的 URL 或孤立 URL 的数据。您可以点击下面的首选项跳到本教程的相关部分 –
爬取站点并审核 XML 站点地图
本节指南展示了如何设置一个爬取,该爬取也集成了来自 XML 站点地图的 URL。
1) 在“Configuration > Spider > Crawl”下选择“Crawl Linked XML Sitemaps”
您可以选择通过 robots.txt 发现 XML 站点地图(这需要一个“Sitemap: https://www.example.com/sitemap.xml”条目),或者提供 XML 站点地图的目标地址。

2) 爬取网站
打开 SEO Spider,在“enter url to spider”框中键入或复制您要爬取的网站,然后点击“Start”。

随后将爬取网站和 XML 站点地图。等待爬取完成并达到 100%。
3) 查看 Sitemaps 选项卡
Sitemaps 选项卡 共有 7 个过滤器,可帮助按类型对数据进行分组,并识别 XML 站点地图的常见问题。

在爬取期间,只有两个过滤器可以实时查看。五个过滤器需要在爬取结束时通过后“ Crawl Analysis ”进行计算,才能填充数据(稍后会详细介绍)。
右侧的“overview”窗格针对需要进行爬取后分析才能填充数据的过滤器显示“(Crawl Analysis Required)”消息。

SEO Spider 只有在整个爬取完成后才能知道哪些 URL 在 XML 站点地图中缺失,反之亦然。
4) 点击“Crawl Analysis > Start”以填充站点地图过滤器
要填充这五个站点地图过滤器,您只需点击一个按钮。

但是,如果您之前配置了“Crawl Analysis”,您可能希望在“Crawl Analysis > Configure”下仔细检查是否勾选了“Sitemaps”。
您也可以取消勾选其他也需要进行爬取后分析的项目,以加快此步骤。

当爬取分析完成后,“analysis”进度条将达到 100%,并且过滤器将不再显示“(Crawl Analysis Required)”消息。

您现在可以查看已填充的过滤器。
5) 点击“Sitemaps”并查看过滤器
执行爬取后分析后,所有站点地图过滤器现在都将填充数据(如果适用)。

您可以按以下内容进行过滤 –
- URLs In Sitemap – XML 站点地图中的所有 URL。这应包含重要 URL 的可索引和规范版本。
- URLs Not In Sitemap – 不在 XML 站点地图中,但在爬取中发现的 URL。这可能是故意的(因为它们不重要),或者它们可能缺失,并且需要更新 XML 站点地图以包含它们。此过滤器不考虑不可索引的 URL,它假定它们是正确地不可索引的,因此不应标记为包含。
- Orphan URLs – 仅在 XML 站点地图中,但在爬取期间未发现的 URL。或者,仅从 XML 站点地图中的 URL 发现的 URL,但在爬取中未找到。这些 URL 可能是意外包含在 XML 站点地图中,或者它们可能是您希望被索引的页面,并且应该真正地内部链接到它们。
- Non-Indexable URLs in Sitemap – 在 XML 站点地图中,但不可索引的 URL,因此应删除这些 URL,或者需要修复其可索引性。
- URLs In Multiple Sitemaps – 在多个 XML 站点地图中的 URL。这不一定是一个问题,但通常一个 URL 只需要在一个 XML 站点地图中。
- XML Sitemap With Over 50k URLs – 这显示了任何具有超过允许的 50k 个 URL 的 XML 站点地图。
- XML Sitemap With Over 50mb – 这显示了任何大于允许的 50mb 文件大小的 XML 站点地图。
以上过滤器将帮助您检查只有您的可索引规范 URL 包含在 XML 站点地图中。
Bing 对 XML 站点地图中的“垃圾”容忍度很低,例如包含错误、重定向或不可索引 URL 的站点地图,这可能意味着他们对 XML 站点地图的抓取和索引的信任度降低。
Google 还建议使用 XML 站点地图来帮助规范化 URL(定义 URL 的首选版本),因此保持它们的健康并提供清晰一致的信号非常重要。
请在 Sitemaps.org 和 Google Search Console 帮助 中查看有关 XML 站点地图的更多信息。
6) 通过点击“Inlinks”查看 XML 站点地图来源
如果您有多个 XML 站点地图,您会想知道哪个 XML 站点地图包含不可索引的 URL 或孤立的 URL 等。
为此,只需点击顶部窗口窗格中的 URL,然后点击底部的“Inlinks”选项卡以填充下部窗口窗格。“XML Sitemap”类型是指来自 XML 站点地图的 URL 引用。

以下是“inlinks”下部窗口选项卡的特写视图 –

在此示例中,/disclaimer/ 在 /sitemap.xml 中。
它重定向到我们的 /privacy/ 页面,该页面应该在那里。
7) 使用“Bulk Export > Sitemaps > X Inlinks”导出
如果您有多个 XML 站点地图,这是一个必不可少的步骤,这样您就知道哪些 URL 与哪些 XML 站点地图相关。
要批量导出 XML 站点地图的 inlink 数据,请使用“Bulk Export > Sitemaps”顶级菜单。

在上面的屏幕截图中,这将导出所有在其内部具有不可索引 URL 的 XML 站点地图。
单独上传和审核 XML 站点地图
您可以通过以列表模式上传 XML 站点地图来单独(远离站点爬取)审核它。以下概述了此过程。
1) 点击“Mode > List”
通过顶级菜单。这使您可以上传 URL 列表,或直接下载 XML 站点地图。

2) 选择“Upload A File”或“Download XML Sitemap”
如果您有已保存的 XML 站点地图文件,您可能希望上传该文件,但是,如果它已经上线,您可以简单地选择“Download XML Sitemap”并输入 URL。
如果您有一个站点地图索引文件,其中 包含多个 XML 站点地图,则选择“Download XML Sitemap”以一次爬取所有站点地图。

点击“OK”,然后再次点击“OK”以启动爬取。
3) 按照上面指南中第 3 点开始概述的过程
现在您可以按照上面“ 爬取站点并审核 XML 站点地图 ”部分中 第 3 点 开始概述的相同过程进行操作。这包括在爬取结束时运行爬取分析,以填充 Sitemaps 选项卡中的过滤器。
值得记住的是,通过列表模式上传 XML 站点地图不如爬取全面,因为 SEO Spider 没有关于可以在爬取中找到哪些站点地图的数据。
这意味着“URLs Not In Sitemap”和“Orphan URLs”过滤器将不会被填充,因为此数据未知。
进一步支持
以上指南应有助于说明使用 SEO Spider 批量审核 XML 站点地图所需的简单步骤。
另请阅读我们的 Screaming Frog SEO Spider 常见问题解答 和完整的 用户指南,以获取有关该工具的更多信息。
如果您对上述过程中有任何其他疑问,请通过 support 与我们联系。