如何比较爬取结果
比较爬取结果,查看数据、问题和机会随时间的变化,以跟踪进度并监控网站健康状况。
如何执行爬取比较
本教程解释了如何使用 Screaming Frog SEO Spider 比较爬取结果,并分析爬取数据如何在选项卡和过滤器中随时间变化。
爬取比较有助于监控 SEO 问题和机会的进展,并提供有关爬取之间变化的精细数据。

这可以帮助节省监控进度和识别新问题的时间,或者可能影响自然搜索表现的变化。爬取比较功能允许您:
- 比较任何选项卡和过滤器中已更改的爬取数据、问题和机会。
- 比较站点结构以及目录、页面和爬取深度在爬取之间的变化。
- 检测元素和指标的变化,例如页面标题、meta 描述、爬取深度、字数、内部链接、内容等。
本教程概述了如何比较爬取结果、解释数据和各种报告,以及如何在不同场景中利用一些更高级的功能,例如更改检测和 URL 映射。
1) 切换到数据库存储模式
要比较爬取结果,您需要处于数据库存储模式并拥有许可证。您可以通过选择“File > Settings > Storage Mode”和“Database Storage”来切换到数据库存储。

如果您是数据库存储模式的新手,任何新的爬取现在都将自动存储,并且可以通过“File > Crawls”顶级菜单打开。现有的爬取不会出现在这里,但您可以通过“File > Import”导入它们。

与默认的内存存储相比,数据库存储具有巨大的优势,包括改进大规模爬取、自动保存爬取、快速打开,甚至可以在您的机器意外断电时帮助避免爬取丢失。
比较旧的爬取结果
“File > Crawls”中的任何爬取都可以进行比较。保存为 .seospider 文件的旧爬取不会出现在“File > Crawls”菜单中,因为它们不是数据库文件。
但是,可以通过打开文件或使用应用程序中的“File > Import”来打开旧的爬取结果来导入它们。它们将被转换为数据库格式,存储并可用于爬取比较。
请参阅我们的保存、打开、导出和导入爬取结果指南。
2) 选择要比较的爬取结果
有两种方 法可以选择要比较的爬取结果。
在“Spider”或“List”模式下,导航到“File > Crawls”,并通过按住 Windows 上的“control”键或 macOS 上的“command”键来突出显示两个爬取结果。
然后单击“Select To Compare”,这将使您切换到“compare”模式。

或者,您可以通过单击顶级菜单中的“Mode > Compare”来切换到“compare”模式。然后界面将更新,以便您可以选择用于比较的爬取结果。

单击顶部的“Select Crawl”按钮将显示相同的“File > Crawls”菜单,您可以在其中选择要比较的两个爬取结果。
小提示 – 您可以一次选择两个爬取结果(通过按住 Windows 上的“control”键或 macOS 上的“command”键),您无需为当前和之前的爬取结果单击两个“Select Crawl”按钮。
3) 调整比较配置以进行更改检测
SEO Spider 将比较两个爬取结果之间右侧“Overview”选项卡中所有选项卡和过滤器中的爬取数据。
但是,您也可以选择配置该工具,以围绕元素和关键指标的更精细的更改执行额外的分析 – 例如页面标题、meta 描述、h1、字数、爬取深度、内部链接、结构化数据、内容等。
当元素发生更改但未触发过滤器时, 这很有用。例如,页面标题可能会完全更改,但如果它没有触发过滤器更改(例如“Missing”、“Over X Characters”、“Duplicates”等),则不会被选中。更改检测会告诉您元素或指标是否发生了任何更改。
在“Compare”模式下,通过“Config > Compare”(或顶部的“cog”图标)单击比较配置,然后选择要识别更改的元素和指标。

选择这些选项意味着下一节中讨论的爬取比较分析将需要更长的时间才能执行。运行后,“Change Detection”选项卡将出现在主视图和 Overview 选项卡中,其中包含任何选定元素和指标的过滤器,以及发现的更改的详细信息。
请注意,“Content”更改检测需要两次爬取都存储页面的 HTML以分析它们的相似性和更改。此选项需要更长的时间来处理,因为它使用 minhash 来比较页面的相似性并确定当前内容和先前内容之间的更改百分比。
4) 单击“Compare”执行分析
接下来,您只需要单击“Compare”。然后将运行爬取比较分析。

这通常很快,但对于较大的爬取或选择了某些更改检测元素和指标,可 能需要更长的时间。进度条将更新,并在完成后显示数据。
默认情况下,最新的爬取将显示为“Current”爬取,而较旧的爬取将显示为“Previous”爬取。但是可以通过单击界面顶部齿轮图标旁边的箭头来切换这些爬取。
5) 查看右侧的“Overview”和“Issues”选项卡
爬取比较分析完成后,右侧的 overview 和 issues 选项卡将填充以显示当前和之前的爬取数据和更改。

您可以单击更新下方图表的选项卡,以及单击列中的过滤器和数字,这些过滤器和数字会更新主窗口数据。

有四列(以及主窗口视图上的过滤器)可帮助细分选项卡和过滤器中已更改的 URL。
- Added – 上一次爬取中的 URL 移动到当前爬取的过滤器。
- New – 上一次爬取中没有的新 URL,位于当前爬取和过滤器中。
- Removed – 上一次爬取的过滤器中的 URL,但不在当前爬取的过滤器中。
- Missing – 在当前爬取中未找到的 URL,以前在过滤器中。
总而言之,“added”和“removed”是当前和之前的爬取中都存在的 URL。 “New”和“missing”是仅存在于其中一个爬取中的 URL。
这有助于确定新问题或修复是针对现有 URL 还是新 URL。
您可以单击列中的数字以查看哪些 URL 已更改,并使用主窗口视图上的过滤器在当前和之前的爬取之间切换,以及添加、新建、删除或缺少。

可以使用“Reports > Crawl Overview”导出导出 overview 数据。

所有数据都可以通过“Bulk Export”批量导出,并且报告也可以通过常用的“Reports”菜单完全访问。
6) 分析“Change Detection”选项卡中的更改
当您调整比较配置并且分析已运行时,“Change Detection”选项卡将变为可用,并显示所选元素和指标的更改。
“Change Detection”选项卡将显示为右侧 overview 选项卡和主视图中的最后一个选项卡。

Change detection 选项卡中的“All”过滤器会告知您当前和之前的爬取中有多少 URL 匹配,并且已针对更改进行分析。
在上面的示例中,总共有 2,236 个 URL 存在于当前和之前的爬取中,并且已针对更改进行分析。
在当前或之前的爬取中都不存在,因此未用于更改检测分析的 URL 可以在“Internal > HTML”和“New”和“Missing”列下看到。
当前、之前和更改列中的数字将始终匹配。这是因为它们都在传达当前和之前的爬取之间已更改的 URL 数量。在上面的示例中,209 个 URL 的页面标题已更改,6 个 URL 的爬取深度已更改等。
您可以单击一个元素并在主窗口中查看更改。例如,对于页面标题,您可以并排查看当前和之前的页面标题,以分析它们是如何更改的。

您可以查看哪些页面的字数已更改,以密切关注客户或团队成员所做的任何更改。

或者收到页面爬取深度更改的警报。是否有任何关键着陆页突然更改?

或者由于内部链接的更改而丢失了重要的唯一内部链接。

还有更多。您可以在界面中按绝对更改数字或百分比对这些列进行排序。如果您想查看保持不变的 URL,您还可以单击“Changed”过滤器并选择“Not Changed”。
所有这些项目对于页面在自然搜索中的表现至关重要,此功能可以帮助监控和提醒您任何更改。此功能在审查 SEO 建议的实施情况时(客户是否真的更新了这些页面标题?),有助于节省手动在电子表格中进行比较的时间。
它也可以用于更高级的场景,例如在执行奇偶校验检查时,例如比较移动设备与桌面设备的爬取、原始 HTML 与启用 JavaScript 的爬取或不同的用户代理。
7) 查看“Site Structure”选项卡以可视化更改
“Site Structure”选项卡显示了站点架构如何在爬取之间演变的目录树 overview。您可以查看站点上从上一次爬取到当前爬取在目录级别发生了哪些更改。
例如,您可以看到在下面的媒体、动物和评论目录中找到了新文件。

您还可以可视化爬取深度是如何变化的,这有助于了解内部链接的更改,或者内容在架构中随时间推移的深度。
您可以展开目录以查看哪些特定的 URL 已更改,例如本示例中的评论目录。绿色的向上箭头和数字表示添加的 URL,而红色的向下箭头和数字表示爬取中现在缺少的 URL。

可以使用选项卡顶部的 “export”按钮导出站点结构数据。
8) 比较下窗口选项卡中的数据
下窗口选项卡还允许您并排比较爬取之间的数据。

如果您在桌面设备和移动设备上执行了 JavaScript 爬取以进行比较,则可以选择下窗口渲染页面选项卡上的“Compare”下拉列表以并排查看移动设备和桌面设备的渲染。

内链和外链选项卡有一个额外的过滤器,默认设置为“Auto”。这意味着下窗口选项卡将根据上窗口视图显示链接数据。

在这种情况下,它将显示上主窗口选择的“current”爬取的链接数据。但是,即使顶部窗口选择了当前爬取,也可以独立设置下窗口以显示“previous”爬取的数据。
“Added”和“Removed”过滤器还可以突出显示两次爬取之间的更改,并显示内部链接的更改位置。
例如,上面显示的 Blobfish 页面的爬取深度从 1 降至 2。
但这是为什么呢?
通过切换过滤器以显示“Removed”URL,您可以看到它过去有来自主页的 直接链接,这些链接已在当前爬取中删除。

因此,这有助于阐明页面爬取深度发生变化的原因。“Added”和“Removed”过滤器在分析内部或外部唯一链接指标和奇偶校验检查的更改时也非常有用。
如何使用 URL 映射比较暂存和其他 URL 结构
您可以使用爬取比较中引入的“URL Mapping”功能比较两个不同的 URL 结构。
这在许多情况下都很有帮助,例如将实时站点与暂存站点进行比较,或者将移动网站与其桌面版本进行比较。您可以比较完全不同的主机名、目录,或者 URL 的更细微的变化。
要在爬网比较中比较两种不同的 URL 结构,请单击比较配置(“Config > Compare”)和“URL Mapping”。
输入一个正则表达式,将之前的爬网 URL 映射到当前的爬网 URL。例如,Screaming Frog 将主机更改为 Kinsta,并在迁移前使用 URL Mapping 测试了暂存站点,如下所示。

Kinsta 暂存站点上不同主机名的 URL 被“映射”以与现有的实时站点匹配,因此等效的 URL 会相互比较,以获得概览选项卡数据、问题和机会、站点结构选项卡以及更改检测。
您仍然可 以在当前爬网和之前的爬网之间切换,以查看不同的 URL 结构。

URL Mapping 的另一种情况可能是比较移动网站和桌面网站。
Chain Reactions Cycles 网站有一个 /mobile/ 子文件夹作为示例,因此要将移动网站与桌面网站进行比较,可以使用以下 URL Mapping 将移动 URL 映射到桌面等效 URL。

最后,如果删除了(或添加了)尾部斜杠,您可以在 URL Mapping 中使用以下内容来删除 URL 末尾的尾部斜杠。

您还可以使用以上所有内容的组合,URL Mapping 没有限制。
使用 URL Mapping 时,需要记住以下几个重要事项 -
- 您正在将之前的 URL 映射到当前的 URL。如果您难以将之前的 URL 映射到当前的 URL,您可以使用比较界面顶部的箭头图标来切换哪个爬网是当前爬网,哪个是之前的爬网。
- 您可以在运行爬网比较分析之前,使用“URL Mapping”配置中的“Test”选项卡测试您的 URL Mapping,以避免出错和浪费时间。
URL Mapping 是一项非常强大的功能,可以真正帮助您在新站点发布和迁移期间节省时间,因为 URL 结构通常不同。