跳到主要内容

入门指南

2024-06-19

本指南旨在帮助初学者开始使用 Screaming Frog SEO Spider。它涵盖了初始设置、如何开始抓取以及查看发现的报告和问题。


SEO Spider 入门指南

本指南旨在帮助初学者开始使用 Screaming Frog SEO Spider。它涵盖了初始设置、如何开始抓取以及查看发现的报告和问题。


安装

要开始使用,您需要下载并安装 SEO Spider,它可以免费抓取最多 500 个 URL。它适用于 Windows、MacOS 和 Ubuntu。只需点击下面的下载按钮。

立即下载

接下来,双击下载的 SEO Spider 安装文件,然后按照安装程序中的步骤操作。

您可以购买许可证,这将取消 500 个 URL 的抓取限制,开启配置并提供对更高级功能的访问权限。查看我们的定价页面,比较免费和付费功能。


许可证激活

如果您希望使用免费版本,则可以忽略此步骤。但是,如果您希望抓取超过 500 个 URL,保存并重新打开抓取结果,并访问高级功能,则可以购买许可证

购买许可证后,您将获得一个用户名和许可证密钥,应在应用程序中的“Licence > Enter Licence Key”下输入。

输入许可证密钥

正确输入后,许可证将显示有效并显示到期日期。然后,您需要重新启动应用程序以删除抓取限制并启用对配置和付费功能的访问。

许可证已激活

如果许可证显示无效,请阅读我们的常见问题解答,了解常见的无效许可证问题进行故障排除。


内存和存储设置

如果您使用的是免费版本,或者只是想直接开始抓取,则可以忽略此步骤。但是,如果您使用的是付费版本,我们建议您从一开始就进行设置。

如果您有 SSD,我们建议使用数据库存储,这是默认设置。转到“File > Settings > Storage Mode”,并确保选择“Database Storage”。

数据库存储模式

数据库存储提供了巨大的好处,包括允许 SEO Spider 抓取更多 URL,自动存储抓取数据,并允许您更快地访问旧的抓取结果。

如果您没有 SSD,则使用内存存储模式。如果您有足够的 RAM 可用,您仍然可以保存抓取结果并抓取大量 URL。现在您可以开始抓取了!


开始抓取

有两种主要的抓取模式。默认的“Spider”模式抓取网站,或者“List”模式允许您上传要抓取的 URL 列表。

您可以通过将主页插入“Enter URL to spider”字段并单击“Start”来启动常规的“Spider”抓取。

开始常规抓取

这将抓取并审核输入的 URL,以及它可以从同一子域上的页面的 HTML 中的超链接发现的所有 URL。

抓取将实时更新,并且可以在应用程序底部查看速度以及已完成和剩余的 URL 总数。

已抓取和剩余的 URL

您可以单击“pause”,并且可以随时“resume”抓取。您还可以保存抓取结果并在以后恢复它,稍后会详细介绍保存。

如果您想抓取 URL 列表而不是整个站点,请单击“Mode > List”以上传或粘贴 URL 列表。

列表模式


配置抓取

您无需调整配置即可抓取网站,因为 SEO Spider 默认设置为以类似于 Google 的方式进行抓取。

但是,您可以通过多种方式配置抓取以获取所需的数据。查看工具中“Configuration”下的选项,并参阅我们的用户指南以获取每个设置的详细信息。

配置选项

控制抓取内容的一些最常见方法是抓取特定的子文件夹,使用 exclude(通过 URL 模式避免抓取 URL)或 include 功能。

如果您的网站依赖 JavaScript 来填充内容,您也可以在“Configuration > Spider > Rendering”下切换到 JavaScript 渲染 模式。

JavaScript 渲染模式

这意味着将执行 JavaScript,并且 SEO Spider 将抓取渲染的 HTML 中的内容和链接。


查看抓取数据

来自抓取的数据会实时填充到 SEO Spider 中,并显示在选项卡中。“Internal”选项卡包含在抓取中发现的用于抓取的网站的所有数据。

您可以上下滚动,并向右滚动以查看各个列中的所有数据。

视频 URL

这些选项卡侧重于不同的元素,并且每个选项卡都有过滤器,可帮助按类型和发现的潜在问题来优化数据。

例如,“Response Codes”选项卡和“Client Error (4xx)”过滤器将显示您发现的任何 404 页面。

4XX 响应代码

您可以单击顶部窗口中的 URL,然后单击底部的选项卡以填充下部窗口窗格。

这些选项卡提供了有关 URL 的更多详细信息,例如它们的入站链接(链接到它们的页面)、出站链接(它们链接到的页面)、图像、资源等。

指向断开链接的入站链接选项卡

在上面的示例中,我们可以看到在抓取期间发现的断开链接的入站链接。


查找错误和问题

右侧的“overview”选项卡显示包含在每个选项卡和过滤器中的抓取数据的摘要。

滚动浏览每个部分以浏览数据并识别潜在的错误和问题,而无需单击每个选项卡和过滤器。

概述选项卡抓取数据

受影响的 URL 数量会在抓取期间实时更新,适用于大多数过滤器,您可以单击它们以直接转到相关的选项卡和过滤器。

还有一个“Issues”右侧选项卡,其中详细说明了发现的问题、警告和机会。

问题选项卡,用于识别抓取问题、警告和机会

每个问题和潜在操作的应用程序内解释以英语、德语、西班牙语、法语和意大利语提供。

每个问题都有一个“type”和一个基于潜在影响的估计“priority”。

  • Issues 是一个错误或问题,理想情况下应该修复。
  • Opportunities 是优化的潜在领域和改进。
  • Warnings 不一定是问题,但应该检查 - 并可能修复。

例如 - “Internal URL Blocked by Robots.txt”将被归类为“warning”,但具有“High”优先级,因为它如果被错误地禁止,可能会产生很大的影响。

“Issues”选项卡是一种快速识别顶级问题并直接深入研究它们的有用方法,作为“Overview”选项卡的替代方案。对于 SEO 专业知识较少的用户,它有助于为改进网站提供更多指导。

浏览这些提示,如果您不确定问题的含义,只需参阅“Issues”选项卡中的应用程序内描述,或阅读我们的 SEO Issues 说明。

可以识别超过 300 个 SEO 问题、警告和机会,并且每个问题都清楚地解释了问题是什么、为什么重要以及如何修复它。


导出数据

您可以将所有数据从抓取导出到电子表格中。只需单击左上角的“export”按钮即可从顶部窗口选项卡和过滤器导出数据。

导出选项卡和过滤器

要导出下部窗口数据,请右键单击要在顶部窗口中导出数据的 URL,然后单击其中一个选项。

多选批量导出数据

顶部菜单下还有一个“Bulk Export”选项。这允许您导出源链接,例如具有特定状态代码(例如 2XX、3XX、4XX 或 5XX 响应)的 URL 的“入站链接”。

批量导出 4XX 入站链接

在上面,选择上面的“Client Error 4XX In Links”选项将导出所有指向所有错误页面的入站链接(链接到 404 错误页面的页面)。

可以通过“Bulk Export > Issues > All”批量导出所有问题。这将导出发现的每个问题(包括断开链接的“入站链接”变体)作为文件夹中的单独电子表格(作为 CSV、Excel 和 Sheets)。

批量导出所有抓取问题


保存和打开抓取结果

您只能使用许可证保存和打开抓取结果

在默认数据库存储中,抓取结果会在抓取期间自动“保存”并提交到数据库中。要打开抓取结果,请单击主菜单中的“File > Crawls”。

数据库存储模式下的抓取菜单

“Crawls”窗口显示自动存储的抓取结果的概述,您可以在其中打开、重命名、组织到项目文件夹中、复制、导出或批量删除它们。

File > Crawls 菜单,用于打开保存的抓取结果。

在旧的内存存储中,您可以随时保存抓取结果(暂停或完成时),并通过选择“File > Save”或“File > Open”重新打开。

在内存存储模式下保存和打开


热门用途和高级功能

我们无法涵盖工具中的所有用途和功能,因此我们建议您浏览可用的选项,并在必要时参阅我们详尽的用户指南

但是,我们编制了一些 SEO Spider 最常见用途的列表,并提供了其他阅读链接。

  • 查找失效链接 – 立即抓取网站并查找失效链接 (404) 和服务器错误。批量导出错误和源 URL 以进行修复,或发送给开发人员。
  • 审核重定向 – 查找临时和永久重定向,识别重定向链和循环,或上传 URL 列表以在站点迁移中进行审核。
  • 分析 页面标题 & Meta 描述 – 审核每个页面的页面标题和 Meta 描述,以发现未优化、缺失、重复、过长或过短的元素。
  • 审核 指令 & 规范化链接 – 查看被 robots.txt、meta robots 或 X-Robots-Tag 指令(如“noindex”或“nofollow”)阻止的 URL,并审核规范化链接。
  • 查找缺失的图像 Alt 文本和属性 – 查找缺少 Alt 文本的图像,并查看抓取中每个图像的 Alt 文本。
  • 检查重复内容 – 分析网站是否存在完全重复的页面,以及近似重复的“相似”内容。
  • 抓取 JavaScript 网站 – 使用集成的 Chromium WRS 渲染网页,以抓取动态的、JavaScript 丰富的网站和框架,例如 Angular、React 和 Vue.js。
  • 可视化站点架构 – 使用交互式抓取和目录力导向图以及树形图站点可视化来评估内部链接和 URL 结构。
  • 生成 XML 站点地图 – 快速创建 XML 站点地图和图像 XML 站点地图,并对要包含的 URL、上次修改时间、优先级和更改频率进行高级配置。
  • 审核国际设置 (hreflang) – 大规模查找 HTML、通过 HTTP 标头或 XML 站点地图中的 hreflang 注释的常见错误和问题。
  • 分析 PageSpeed & Core Web Vitals – 连接到 PSI API 以获取 Core Web Vitals(CrUX 字段数据)、Lighthouse 指标、速度优化机会和大规模诊断。

我们还整理了一些最受欢迎的功能列表。

  • 安排抓取 – 安排抓取在 SEO Spider 中自动运行,作为一次性运行或按选定的时间间隔运行。
  • 比较抓取和暂存 – 跟踪 SEO 问题和机会的进展情况,并查看抓取之间发生了哪些变化。使用高级 URL 映射比较暂存环境与生产环境。
  • 与 GA、GSC 和 PSI 集成 – 连接到 Google AnalyticsSearch ConsolePageSpeed Insights API,并获取抓取中所有 URL 的用户和性能数据,以获得更深入的了解。
  • 自定义搜索 HTML – 在网站的源代码中查找您想要的任何内容。无论是 Google Analytics 代码、特定文本还是代码等。
  • 使用 XPath 提取数据 – 使用 CSS Path、XPath 或 regex 从网页的 HTML 中收集任何数据。这可能包括社交 Meta 标签、其他标题、价格、SKU 等。
  • 抓取暂存和开发站点 – 使用基本、摘要或 Web 表单身份验证登录到暂存网站。
  • 通过命令行操作 – 通过命令行以编程方式运行抓取,以与您自己的内部系统集成。
  • 使用 ChatGPT 抓取 – 在抓取时使用提示针对页面的元素生成图像 Alt 文本、分析语言、情感或抓取数据。

更多支持

上面的指南应有助于说明开始使用 SEO Spider 所需的简单步骤。

另请阅读我们的 Screaming Frog SEO Spider 常见问题解答、完整的用户指南和我们的 YouTube 频道,以获取有关该工具的更多信息。

如果您有任何其他疑问,请通过 support 与我们联系。