跳到主要内容

如何执行奇偶校验审计

2024-02-03

了解如何执行 JavaScript 和移动端与桌面端奇偶校验审计,以发现差异和潜在的 SEO 问题。


如何执行奇偶校验审计

本教程解释了如何利用 Screaming Frog SEO Spider 执行奇偶校验审计,以帮助发现差异和潜在的 SEO 问题。

首先,让我们快速总结一下我们所说的奇偶校验审计是什么。


什么是奇偶校验审计?

术语奇偶校验审计在 SEO 中用于描述两件事是否相同,或者是否存在可能影响自然可见性的差异。

网站可以通过不同的方式设置,并且页面本身对不同类型的请求的反应也可能不同。

在 SEO 中,两种最常见的奇偶校验考虑和审计类型是 –

  • 移动端与桌面端
  • JavaScript 与原始 HTML

但这种类型的审计也可以包括确保实时环境和暂存环境之间的奇偶校验。

了解网站或页面以及关键 SEO 元素是否存在差异可能很有用,这些差异可能会影响抓取、索引和排名。 这些可能包括 –

  • 页面和资源计数
  • HTTP 响应
  • 内部链接
  • 页面标题
  • 标题
  • 副本
  • 指令
  • 规范链接
  • Hreflang
  • 结构化数据

还有更多! 如果某些元素之间存在差异,并不意味着它会立即在排名中出现问题。

但是,您需要知道是否存在差异以及它们是什么 – 以便在需要时采取行动。

让我们更详细地考虑 JavaScript 与原始 HTML 以及移动端与桌面端的奇偶校验。


如何执行 JavaScript 奇偶校验审计

虽然 Google 现在可以有效地渲染每个网页,但它们仍然会抓取原始 HTML,以及执行 JavaScript 后的渲染 HTML。

了解网站上存在哪些 JavaScript 依赖项非常有用,因为依赖客户端渲染可能会导致用户和 SEO 复杂化

要执行 JavaScript 奇偶校验审计,只需切换到 JavaScript 渲染模式并查看 JavaScript 选项卡中报告的差异即可。


1) 配置 JavaScript 渲染

打开 SEO Spider,单击“Config > Spider > Rendering”,然后将“[Rendering]”切换为“[JavaScript]”(https://www.screamingfrog.co.uk/seo-spider/user-guide/configuration/#rendering)。

启用 JavaScript 抓取

在 JavaScript 渲染模式下,SEO Spider 将抓取原始 HTML 和渲染 HTML,并识别差异。


2) 调整 User-Agent 和窗口大小

渲染的默认视口设置为 Googlebot Smartphone,因为 Google 主要使用其智能手机代理抓取和索引页面以进行移动优先索引。

Googlebot 智能手机

这意味着您将在较低的“渲染页面”选项卡中看到移动大小的屏幕截图。

这些不应需要调整,但 user-agent窗口大小 都可以根据您的偏好进行配置。


3) 启用资源和外部链接

确保在“Configuration > Spider”下选择 imagesCSSJS 等资源。

如果资源位于不同的子域或单独的根域上,则需要启用“check external links”,否则它们将不会在渲染中使用。

启用资源以进行渲染

这是 SEO Spider 中的默认配置,因此您可以简单地单击“File > Default Config > Clear Default Configuration”以恢复到此设置。


4) 抓取站点

现在抓取网站,方法是将主页输入到“enter url to spider”框中,然后单击“Start”。

抓取 JavaScript 网站

然后,SEO Spider 将开始抓取网站,并使用无头 Chrome 渲染页面。


5) 分析 JavaScript 选项卡和过滤器

JavaScript 选项卡包含 12 个过滤器,可帮助您了解 JavaScript 依赖项、与原始 HTML 的差异以及潜在问题。

这些可以帮助您发现具有 JavaScript 内容、链接或元标记、规范链接或页面元素(如页面标题、元描述和标题)存在差异的页面。

JavaScript 依赖项识别

您可以快速识别具有 JavaScript 内容的页面以及仅在渲染 HTML 中的百分比。

识别 JavaScript 内容

如果页面的“JavaScript Content”过滤器已触发,您可以 存储 HTML,单击较低的“View Source”选项卡,然后将“HTML”过滤器切换为“Visible Content”,以突出显示仅在渲染 HTML 中的页面文本。

仅在渲染 HTML 中的文本内容

您还可以找到仅在 JavaScript 运行后在渲染 HTML 中包含链接的页面。

识别 JavaScript 链接

要查看哪些链接仅在渲染 HTML 中,请单击较低的“Outlinks”选项卡,然后选择“Rendered HTML”链接源过滤器。

仅在渲染 HTML 中的链接

这在识别哪些链接是使用 JavaScript 加载的(例如类别页面上的产品)时非常有用。 您可以通过“Bulk Export > JavaScript > Contains JavaScript Links”批量导出所有依赖 JavaScript 的链接。

您还可以发现使用 JavaScript 更新页面标题、元描述或标题的页面。

由 JavaScript 更新

以下过滤器在执行 JavaScript 奇偶校验审计时特别有用 –

  • Contains JavaScript Links – 包含仅在 JavaScript 执行后在渲染 HTML 中发现的超链接的页面。 这些超链接不在原始 HTML 中。 虽然 Google 能够渲染页面并查看仅客户端链接,但请考虑在原始 HTML 中的服务器端包含重要链接。
  • Contains JavaScript Content – 包含仅在 JavaScript 执行后在渲染 HTML 中发现的正文文本的页面。 虽然 Google 能够渲染页面并查看仅客户端内容,但请考虑在原始 HTML 中的服务器端包含重要内容。
  • Noindex Only in Original HTML – 包含原始 HTML 中的 noindex,而不是渲染 HTML 中的 noindex 的页面。 当 Googlebot 遇到 noindex 标记时,它会跳过渲染和 JavaScript 执行。 由于 Googlebot 跳过 JavaScript 执行,因此使用 JavaScript 删除渲染 HTML 中的“noindex”将不起作用。 仔细检查原始 HTML 中包含 noindex 的页面是否预计不会被索引。 如果应索引页面,请删除“noindex”。
  • Nofollow Only in Original HTML – 包含原始 HTML 中的 nofollow,而不是渲染 HTML 中的 nofollow 的页面。 这意味着在 JavaScript 执行之前,原始 HTML 中的任何超链接都不会被跟踪。 仔细检查原始 HTML 中包含 nofollow 的页面是否预计不会被跟踪。 如果应跟踪、抓取和索引链接,请删除“nofollow”。
  • Canonical Only in Rendered HTML – 包含仅在 JavaScript 执行后在渲染 HTML 中的规范链接的页面。 Google 表示他们仅处理原始 HTML 中的规范链接,尽管行业测试表明 Google 可以在渲染 HTML 中处理它们。 在原始 HTML(或 HTTP 标头)中包含规范链接,以确保 Google 可以看到它,并避免仅依赖渲染 HTML 中的规范链接。
  • Canonical Mismatch – 包含原始 HTML 中与 JavaScript 执行后渲染 HTML 中的规范链接不同的规范链接的页面。 Google 表示他们仅处理原始 HTML 中的规范链接,尽管行业测试表明他们确实在渲染 HTML 中处理它们。 但是,这可能会导致冲突的信号,并可能导致不必要的行为。 确保正确的规范链接位于原始 HTML 和渲染 HTML 中,以避免向搜索引擎发出冲突的信号。
  • Page Title Only in Rendered HTML – 包含仅在 JavaScript 执行后在渲染 HTML 中的页面标题的页面。 这意味着搜索引擎必须渲染页面才能看到它。 虽然 Google 能够渲染页面并查看仅客户端内容,但请考虑在原始 HTML 中的服务器端包含重要内容。
  • Page Title Updated by JavaScript – 具有由 JavaScript 修改的页面标题的页面。 这意味着原始 HTML 中的页面标题与渲染 HTML 中的页面标题不同。 虽然 Google 能够渲染页面并查看仅客户端内容,但请考虑在原始 HTML 中的服务器端包含重要内容。
  • Meta Description Only in Rendered HTML – 包含仅在 JavaScript 执行后在渲染 HTML 中的元描述的页面。 这意味着搜索引擎必须渲染页面才能看到它。 虽然 Google 能够渲染页面并查看仅客户端内容,但请考虑在原始 HTML 中的服务器端包含重要内容。
  • Meta Description Updated by JavaScript – 具有由 JavaScript 修改的元描述的页面。 这意味着原始 HTML 中的元描述与渲染 HTML 中的元描述不同。 虽然 Google 能够渲染页面并查看仅客户端内容,但请考虑在原始 HTML 中的服务器端包含重要内容。
  • H1 Only in Rendered HTML – 包含仅在 JavaScript 执行后在渲染 HTML 中的 h1 的页面。 这意味着搜索引擎必须渲染页面才能看到它。 虽然 Google 能够渲染页面并查看仅客户端内容,但请考虑在原始 HTML 中的服务器端包含重要内容。
  • H1 Updated by JavaScript – 具有由 JavaScript 修改的 h1 的页面。 这意味着原始 HTML 中的 h1 与渲染 HTML 中的 h1 不同。 虽然 Google 能够渲染页面并查看仅客户端内容,但请考虑在原始 HTML 中的服务器端包含重要内容。

请查看我们的 如何抓取 JavaScript 网站 教程以了解更多信息。


如何执行移动端与桌面端奇偶校验审计

Google 在 2016 年首次开始试验移动优先索引,然后在 2020 年 9 月为所有网站启用移动优先索引。

移动优先索引意味着 Google 主要使用内容的移动版本进行索引和排名。 从历史上看,他们的索引在评估页面与用户查询的相关性时使用桌面版本。

这意味着,如果您的网站向 Google 的移动(智能手机)用户代理显示的内容与桌面不同,您可能已经注意到排名有所不同。

如今,大多数网站都是响应式的,其中所有设备的 HTML 都相同,并且外观会根据屏幕尺寸而变化 – 这意味着不会受到移动优先索引的影响。 但是,自适应和移动特定网站可以提供不同的 HTML 和内容,这正是奇偶校验审计有用的地方。

您不必在移动端和桌面端之间执行奇偶校验审计,您可以只关注移动版本。 但通常,奇偶校验审计可以帮助发现容易被忽略或未充分考虑的差距。

要执行移动端与桌面端奇偶校验审计,您需要确保您处于数据库存储模式,使用移动和桌面用户代理执行两次单独的抓取,然后使用 抓取比较 和更改检测。


1) 抓取移动站点

首先,使用移动用户代理抓取移动站点。 单击“Config > User-agent”以切换到 Googlebot Smartphone。

用于奇偶校验审计的移动用户代理

如果您有任何 JavaScript 依赖项,请使用 JavaScript 渲染模式,选择您希望抓取和比较的任何元素,例如 结构化数据 – 并抓取移动站点。

许多主机和 CDN 会阻止欺骗 Googlebot 用户代理字符串(并提供 403 响应),因此您可以选择 Chrome for Android 或其他移动 UA。

虽然我们建议抓取整个站点以确保完整性,但如果网站非常大且结构大致相同,您可以只检查来自整个网站的特定页面模板的奇偶校验。 为每个模板选择一个页面,然后在 列表模式(Mode > List)中上传它们。


2) 抓取桌面站点

接下来,使用桌面用户代理进行抓取。 转到“Config > User-agent”并选择 Googlebot Desktop 或其他桌面用户代理。

桌面用户代理奇偶校验审计

抓取整个网站,或以类似于移动版本的方式抓取所选的页面模板。


3) 选择要比较的抓取

转到“File > Crawls”,选择移动端和桌面端,然后选择“Select to Compare”。

用于奇偶校验审计的抓取比较

这将使您切换到“Compare”模式。


4) 配置更改检测

现在点击屏幕顶部的齿轮图标或“Config > Compare”。然后会出现“Change Detection”配置,您可以通过它来识别特定元素是否不同,例如页面标题、描述、标题、字数、内部链接、结构化数据等等。

移动桌面奇偶校验审核变更检测

点击顶部的“Select All”选择所有项目。


5) 配置 URL 映射

如果移动版本使用单独的 URL,而不是通过用户代理在同一 URL 上动态提供不同的内容,则需要设置 URL 映射,以便您可以比较移动和桌面等效项。

在相同的配置(“Config > Compare”)中,选择“URL Mapping”。这将使您能够通过将之前的抓取(如果您首先执行了移动版本,则为移动版本)与当前的抓取(桌面版本)进行映射,来比较移动 URL 与桌面等效项。

移动设备与桌面设备的奇偶校验审核 URL 映射

现在点击“OK”和“Compare”按钮,抓取比较和变更检测分析将运行。


6) 分析抓取概览和变更检测选项卡

分析完成后,右侧的概览窗口将显示数据,突出显示移动和桌面抓取之间选项卡和过滤器的更改。

移动设备与桌面设备的奇偶校验抓取比较

理想情况下,移动网站应包含与桌面网站相同的内容,具有相同的页面定位,并与描述性页面标题、描述和标题保持一致。

有四个列(以及主窗口视图上的过滤器)可帮助细分在选项卡和过滤器中已更改的 URL。

  1. Added – 上一次抓取中的 URL 移动到当前抓取的过滤器。
  2. New – 上一次抓取中没有的新 URL,位于当前抓取和过滤器中。
  3. Removed – 上一次抓取的过滤器中的 URL,但不在当前抓取的过滤器中。
  4. Missing – 在当前抓取中未找到的 URL,之前位于过滤器中。

浏览此数据以识别移动设备与桌面设备抓取之间的差异和差距,以及它们是否可能存在问题。这可能包括缺少页面或图像,以及站点结构、内部链接和可索引性的差异。

向下滚动右侧的“Overview”选项卡,以分析移动设备和桌面设备抓取之间匹配的 URL 的“Change Detection”选项卡。此选项卡将提醒您元素实际内容中的差异 - 这不在通常的选项卡和过滤器中涵盖。

移动设备与桌面设备变更检测

您可以点击过滤器以查看类似 URL 在哪里存在差异,例如页面标题。下面的当前抓取是移动设备,而上一次抓取是桌面设备。

变更检测页面标题移动设备与桌面设备

或者字数统计。

变更检测字数统计移动设备与桌面设备

或者抓取深度。

变更检测抓取深度移动设备与桌面设备

网站移动版本中的这些类型的差异可能会在排名中造成极其严重的问题。

Google 提供了一个有用的列表,其中列出了可能阻止站点启用移动优先索引或可能导致站点在启用移动优先索引后排名下降的常见错误。

查看我们的如何比较抓取教程以了解更多信息。


如何执行实时与暂存奇偶校验审核

能够比较实时网站与暂存网站,以便在将更改发布到实时网站之前发现差异和问题,可以节省时间。

此过程类似于移动设备与桌面设备的奇偶校验审核,您可以在其中分别抓取两个网站,然后使用 URL 映射,该映射使可以将两个不同的 URL 结构与其等效项进行比较。

比较暂存与实时

查看我们的如何在站点迁移中使用 SEO Spider教程和使用 URL 映射比较实时与暂存部分,以了解有关此过程的更多信息。


总结

本教程应有助于您更好地了解如何使用 SEO Spider,并在执行奇偶校验审核时更有效地工作。

请阅读我们的 Screaming Frog SEO Spider 常见问题解答和完整的用户指南,以获取有关该工具的更多信息。

如果您有任何关于如何改进 SEO Spider 的疑问或反馈,请通过支持与我们的团队联系。