跳到主要内容

如何在 Looker Studio 中自动化爬取报告

2025-06-16

了解如何设置 Screaming Frog 以实现完全自动化的 Google Looker Studio 爬取报告,从而监控网站健康状况、检测问题并跟踪性能。


如何在 Looker Studio 中自动化爬取报告

本教程解释了如何设置 Screaming Frog SEO Spider 以创建完全自动化的 Google Looker Studio 爬取报告,从而监控网站健康状况、检测问题并跟踪性能。

通过将计划的爬取连接到 Google Drive 帐户,SEO Spider 可以将爬取概览数据作为新行附加到单个 Google Sheet 中。

每次运行计划的爬取时,此 Google Sheet 都会自动更新,从而允许您将时间序列爬取数据集成到任何 Looker Studio 报告中。

点击此处查看我们的 Google Looker Studio 模板

按照我们下面的教程中的步骤,开始设置您的第一个自动化的 Google Looker Studio 爬取报告。


安排爬取

“Looker Studio 友好型”导出仅通过自动爬取计划可用,您可以在顶部菜单的“文件 > 计划”下找到它。

要创建新的计划爬取和 Looker Studio 导出,请单击“添加”。 安排爬取

请参阅我们的用户指南,了解有关计划的更多信息。

处理多个域名和/或客户?

您可以配置单个计划的爬取和 Looker Studio 导出,然后使用“复制”按钮复制这些设置。只需记住适当地更新种子 URL。


常规

在计划程序的“常规”选项卡中,指定任务名称。这将用于标识 Google Sheet 导出和任何已保存的爬取。您还可以为任何已保存的数据库爬取提供项目名称和描述,以帮助区分类似的计划报告。

还需要为第一次计划的爬取指定未来的日期和时间。对于自动报告,需要通过下拉菜单将其设置为每天、每周或每月运行:

创建计划任务

任务名称

对于 Looker Studio 集成,我们不建议在设置后更改任务名称。这样做将在 Google Sheets 中创建一个新的导出,而不是附加到现有电子表格。


启动选项

在启动选项选项卡中,指定您希望 SEO Spider 以常规 Spider 模式爬取,还是以列表模式爬取 URL 列表。

默认情况下,计划的爬取将使用默认配置运行。但是,通过将配置文件添加到“爬取配置”选项,将改为使用这些设置。如果您希望 Looker Studio 报告中包含非默认信息,则这是必需的。例如,站点地图信息、结构化数据验证或 JavaScript 渲染等...

要生成配置文件,只需在用户界面中启用所有必需的设置。然后转到“文件 > 配置 > 另存为”。请参阅我们关于保存和加载配置配置文件的指南

启动选项

爬取分析

某些过滤器需要在爬取完成后运行爬取分析。要在计划的爬取中启用此功能,请在构建配置文件时选择“爬取分析 > 配置 > 在爬取结束时自动分析”。


导出

Looker Studio 友好型导出需要无头模式才能运行,因此您需要启用此模式。

从下拉菜单中选择您合适的 Google 帐户。如果是第一次导出到 Google Sheets,您需要选择“管理”,然后在下一个窗口中单击“添加”以添加您要导出到的 Google 帐户。 导出到 Google Sheets “添加”帐户

这将打开您的浏览器,您可以在其中选择并登录您的 Google 帐户。您需要单击“允许”两次,然后确认您的选择以“允许”SEO Spider 将数据导出到您的 Google Drive 帐户。 导出 Google Sheets 的 Google Sheets 访问权限 授权 SEO Spider 后,您可以单击“确定”,您的帐户电子邮件现在将列出。选择此帐户,然后单击“确定”。

对于自动化的 Looker Studio 报告,请勾选“自定义爬取概览”选项,然后单击“配置”按钮。 导出选项 在此面板中,您可以自定义要包含在 Google Sheets 导出中的爬取概览信息。默认情况下,我们建议选择所有可用的指标,并将它们添加到右侧的选定框中。可以通过单击双向右箭头立即完成此操作。

指标顺序

右侧面板中指标的顺序将反映在导出的 Google Sheet 中列的顺序。因此,我们不建议在初始报告运行后调整顺序,因为数据和列可能会混合。

完成以上所有设置并运行爬取后,您将拥有一个电子表格导出到您指定的 Google Drive 中。默认情况下,这些将与文件夹路径相关联:“我的云端硬盘 > Screaming Frog SEO Spider > 项目名称 > [task_name]_custom_summary_report”。

img

它将为爬取导出单行数据,其中包含所有爬取概览顶级指标。当它运行多次后,您将在几天、几周或几个月内拥有多行爬取信息:

爬取数据会自动作为新行附加到 Google Sheet,其中包含来自自定义爬取概览导出的选定指标(以列的形式)。

请记住,这不会导出爬取中的每个 URL。每次爬取都将有一行,其中包含爬取概览数据。


连接到 Google Looker Studio

设置好 Google Sheet 后,您需要将其拉取到 Looker Studio 中。在本教程中,我们使用我们自己的 Screaming Frog 爬取概览模板。但是,您可以使用概览导出轻松构建自己的报告,或添加到现有报告中。

点击此处查看我们的 Google Looker Studio 模板


添加数据源

如果复制我们的报告,请在右上角选择“三个点 > 制作副本”:

然后,您将看到选择数据源的选项,您需要选择“创建新数据源”。

或者,如果构建自己的报告,请从 Looker Studio 主页中选择“创建 > 数据源”。

当出现连接器列表时,选择 Google Sheets。

然后,您需要选择由计划的爬取生成的电子表格。这将标记为 [task_name]_custom_summary_report(任务名称如计划程序选项中所指定)。

确保勾选**“将第一行用作标题”**选项,然后在右上角选择“连接”。

然后,您将看到导出的所有概览字段。也可以在左上方重命名数据源,以便于识别。

有时,Looker Studio 会将某些字段标记为“日期”类型,而不是“数字”。我们建议对“类型”列进行排序,并确保所有字段都使用下拉选择器适当地设置为“数字”,当然,“日期”字段除外:

完成后,在右上角选择“添加到报告”,然后在以下窗口中选择“复制报告”。


添加图表

现在已将 Google Sheet 添加为数据源,无论何时运行自动爬取,Looker Studio 报告都会自动更新。您可以使用此数据来合并时间序列图、记分卡或其他元素,方法是使用任何导出的概览指标


爬取概览模板

使用此数据,您可以使用任何爬取概览信息开始构建自己的爬取监控报告。我们的模板有多个选项卡,用于检查网站健康状况的不同元素。

例如,您可以监控网站范围内的可索引性:

跟踪页面上的元素,例如缺少或重复的标题标签:

我们甚至可以通过 PSI API 从 Chrome UX 报告和页面速度机会数据中引入 Core Web Vital 信息:

以上所有内容使您可以轻松识别并主动修复任何潜在的网站问题或意外更改。

我们的模板中包含的选项卡的完整列表:

  • 摘要 – 各种健康指标的概览报告。
  • 响应代码 – 随时间推移监控响应代码或阻止的 URL 的计数。
  • URL 类型 – 跟踪内部 HTML、图像、JS 文件等的计数...
  • 可索引性 – 监控网站范围内的可索引性,轻松识别不可索引 URL 的趋势或增加。
  • 网站结构 – 跟踪网站结构更改,通常表示内部链接的调整。
  • 页面上 – 识别网站元数据或标题的更改。
  • 内容问题 – 发现页面内容、重复页面计数或拼写问题的更改。
  • 页面速度 – 跟踪 CWV 性能并识别改进页面体验的机会。
  • 结构化数据 – 监控验证问题和网站范围内的结构化数据使用情况。
  • 安全性 – 分析网站范围内的安全问题和不安全的 HTTP 使用情况。
  • Hreflang – 跟踪 hreglang 验证问题和使用情况。
  • 站点地图 – 识别站点地图验证错误、孤立 URL 和站点地图中未包含的 URL。
  • JavaScript – 分析 JavaScript 使用情况及其对元数据、内容和内部链接的影响。
  • URL 检查 – 监控来自 Google URL Inspection API 的数据,跟踪已编入索引的 URL 计数或 URL 问题。

从 API 连接器添加数据

Spider 能够连接到各种 API 以集成来自外部来源的数据 – 其中许多数据也可以添加到任何 Looker Studio 报告中。

例如,最新的 URL Inspection API 可以集成以报告 Google 中已编入索引的 URL 数量或未被 Google 编入索引的可索引 URL 数量:

要集成任何 API 数据,只需确保在构建要与计划的爬取一起使用的配置文件时启用该选项。在上面的实例中,这意味着确保在使用中的配置文件中勾选 Search Console API 设置中的“启用 URL 检查”:

其次,在计划选项中,确保在“配置”选项下启用相关的 API,并连接到正确的 Search Console 帐户和媒体资源。

同样适用于从其他相关 API(例如 Analytics 或 PageSpeed Insights)导出的任何数据。

值得注意的是,任何 API 集成都将受到其相关配额限制的限制。例如,URL Inspection API 每天每个 Search Console 媒体资源限制为 2,000 个 URL。如果您的网站大于 2,000 个,您将无法在整个网站上使用该 API。


分割自动爬取报告

您可以通过设置分段、保存配置,然后在计划启动选项选项卡中提供已保存的配置文件,在 Google Sheets 中创建分段的自定义爬取概览报告。

SEO Spider 将在 Google Sheets 中生成默认的自定义爬取概览,以及每个分段的自定义爬取概览。

分段的自动爬取报告

每个分段文件的名称都附加到工作表名称:“[task_name]_custom_summary_report_[segment_name]”。这些存储在:“我的云端硬盘 > Screaming Frog SEO Spider > 项目名称”中。

这意味着每个分段的爬取概览导出都可以连接到其自己的 Looker Studio 爬取报告。或者,可以在现有的 Looker Studio 爬取报告中创建一个“分段”页面,其中包含来自每个分段的自定义摘要报告 Google Sheet 的顶级数据摘要。


向现有报告添加新过滤器

由于 SEO Spider 不断发展,我们不断添加新功能来帮助用户识别和修复 SEO 问题。通常,新功能也意味着现在可以使用新过滤器在 Looker Studio 中进行报告和集成。

无需额外的工作即可将这些过滤器集成到从头开始构建的新报告中。但是,对于已经收集数据一段时间的现有报告,需要执行一些额外的步骤。

在功能发布并将软件更新到最新版本后,您应该会看到现在可以在“爬取概览导出”选择中选择任何新过滤器:

只需高亮显示这些新筛选器,然后单击右箭头,将它们添加到“已选择”筛选器列表的底部。下次计划的抓取运行后,这些数据点将被添加到概览导出 Google 表格的最右侧列中:

在现有报告中,这些新列需要手动将标题添加到电子表格的初始行。这些标题应与“抓取概览导出选择”中的标签和顺序匹配。

例如,在上面的示例中,需要手动添加以下标题:

  • Search Console:URL Is Not on Google (Search Console:URL 不在 Google 上)
  • Search Console:Indexable URL Not Indexed (Search Console:可编入索引的 URL 未编入索引)
  • Search Console:URL is on Google, But Has Issues (Search Console:URL 在 Google 上,但存在问题)
  • Search Console:User-Declared Canonical Not Selected (Search Console:用户声明的规范未选择)
  • Search Console:Page is Not Mobile Friendly (Search Console:页面不适合移动设备)
  • Search Console:AMP URL Invalid (Search Console:AMP URL 无效)
  • Search Console:Rich Result Invalid (Search Console:富媒体结果无效)

将数据和标题添加到连接的 Google 表格后,打开您的 Looker Studio 报告,然后在顶部导航栏上转到“资源 > 管理添加的 Looker 数据源”:

在连接的 Google 表格的数据源上选择“编辑”,然后单击左下角的“刷新字段”。这将弹出一个窗口,其中包含添加到 Google 表格的新字段,您可以简单地选择“应用”:

现在,新数据可在您现有的 Loooker Studio 报告中使用。


电子邮件计划

在 Looker Studio 中,您可以安排每天、每周或每月通过电子邮件发送报告。使用此功能在每次报告更新时通知您自己和任何利益相关者。

只需单击“共享”旁边的下拉菜单,然后选择“安排电子邮件发送”

在下一个窗口中,添加您的收件人、任何自定义主题或消息、时间和您希望发送电子邮件的频率。

安排电子邮件时间

设置电子邮件时间时,请确保您有足够的时间让抓取完成并让 Google 表格同步。例如,如果您的抓取通常需要 1 小时才能完全完成,请将电子邮件发送时间设置为初始抓取计划时间后至少一小时。


常见问题解答

我们看到的一些常见问题:

为什么我的计划抓取没有完成?

如果计划的抓取未在设定的时间运行,请检查您的设备是否已打开并在计划的时间登录。您可能需要调整省电选项,以防止设备在需要抓取时进入睡眠状态。例如,许多笔记本电脑只有在插入电源时才会保持开启状态,但您可以在省电选项中调整此行为:

如果您确定设备已打开,请转到“文件 > 计划 > 历史记录”。此面板将显示 Spider 遇到的任何可能阻止抓取完成的错误。然后,您可以根据需要进行调整。

为什么记分卡和图表显示“错误,请参阅详细信息”

如果您已将 Google 表格连接到我们的 Looker Studio 抓取概览模板,并且看到大多数记分卡显示“错误,请参阅详细信息”和空白图表,这可能是由于以下原因之一:

  • 我们的抓取概览模板旨在仅与通过抓取计划程序生成的自定义抓取概览导出一起使用。如果您添加了另一个数据源,例如 Internal-HTML 选项卡的导出,则这将在我们的报告中不起作用。

  • 为了方便参考,我们创建了一个包含维度所有数据类型的 Google 表格。
  • 将自定义概览导出添加为数据源时,Looker Studio 可能会将多个指标设置为“数字”以外的类型,除了日期和 URL 之外的所有数据点都应设置为数字类型。如果不是,则无法在图表和记分卡中使用它们。

  • 我们的抓取概览报告模板旨在仅与英文导出一起使用。如果您已将 Spider 语言设置设置为另一种语言,则导出上的标题将有所不同。在这种情况下,您需要再次手动添加每个数据点。
  • 有几个与 DataStudio 相关的原因可能导致图表不显示数据,例如,如果日期范围设置为没有抓取数据的期间。

为什么 PageSpeed 选项卡上的顶部图表没有填充?

PageSpeed 选项卡上的前三个图表使用来自 Chrome UX 连接器的数据,而不是 Spider 导出。您可能需要将其重新添加为数据源并筛选到您的域。

在此处查看有关 Chrome UX 连接器的更多详细信息:

https://web.dev/chrome-ux-report-data-studio-dashboard/

为什么某些选项卡中的图表不显示数据?

我们的抓取概览模板中的某些图表需要在计划的抓取期间启用特定的配置选项。例如,要监视站点地图运行状况,请确保配置文件已在“配置 > Spider”下启用“抓取这些站点地图”。

需要特定配置选项的选项卡包括:

  • 内容问题
  • PageSpeed
  • 结构化数据
  • Hreflang
  • 站点地图
  • JavaScript
  • URL 检查

某些选项卡(例如站点地图和 hreflang)还需要在计划的抓取之后运行抓取后分析。可以在配置文件中的“抓取分析 > 配置 > 勾选‘在抓取结束时自动分析’”下启用此功能。

为什么我的复制报告中缺少某些指标?

如果复制我们的抓取概览模板,某些自定义字段可能不会传输到您的副本。例如,我们有一个自定义的非 200 字段,用于计算“摘要”和“可编入索引性”仪表板中“非可编入索引性状态”图表中的所有非 200 URL。复制后,您可能会看到此标签为“记录计数”。如果确实发生这种情况,则可以使用定制公式添加自定义字段。

例如,对于非 200 URL 的计数,请单击“非可编入索引性状态”图表进行编辑,然后单击“添加指标 > 创建字段”,键入“非 200 URL”作为名称和以下公式:


社区 Looker Studio 抓取报告

我们需要您的帮助!

Google Looker Studio 中可以进行如此多的自定义,我们想看看您如何利用它来构建自己的自定义报告。

如果您已在 Looker Studio 中构建了自己的自定义抓取报告,或者已将其集成到更广泛的 SEO 报告中并希望共享它,请将其发送至 [email protected] 或在 Twitter 上发推文给我们 (@screamingfrog),因为我们很乐意在此处的社区画廊中展示它。

您不仅会帮助 SEO 社区中的其他人,而且还会收到我们的认可。


总结

上面的指南应说明如何使用 SEO Spider 在 Google Looker Studio 中自动执行抓取报告。

立即下载

另请阅读我们的 Screaming Frog SEO Spider 常见问题解答 和完整的用户指南,以获取有关该工具的更多信息。

如果您有任何其他疑问、反馈或建议来改进我们在 SEO Spider 中的 Google 表格或 Looker Studio 集成,请通过 支持 与我们的团队联系。