跳到主要内容

如何使用自定义搜索

2024-11-15

在网站的 HTML 或文本中查找任何您想要的内容,例如旧品牌名称、用于内部链接的关键词或验证跟踪代码。


自定义搜索简介

SEO Spider 允许您使用其自定义搜索功能在网站的 HTML 或文本中查找任何您想要的内容。

这在验证分析标签或发现哪些页面包含某些单词或短语时非常有用,例如旧品牌名称、“缺货”或用于内部链接机会的关键短语。

您可以使用自定义搜索配置多达 100 个搜索过滤器,这些过滤器允许您输入文本或正则表达式,并查找“包含”或“不包含”您选择的输入内容的页面,并报告出现的次数。

本教程将引导您了解如何使用该功能、常见场景和更高级的搜索。

首先,下载 SEO Spider,它可以免费抓取多达 500 个 URL – 但是,此功能确实需要 付费许可证才能使用自定义搜索。


1) 添加自定义搜索过滤器

从顶级菜单中单击“Config > Custom > Search”以打开自定义搜索配置。

自定义搜索

然后单击“添加”(在右下角)以设置自定义搜索过滤器。 您也可以选择“批量添加”,稍后会详细介绍。

自定义��搜索“添加”过滤器

将出现一个自定义搜索过滤器。 您可以在抓取中添加多达 100 个单独的过滤器。

自定义搜索过滤器


2) 输入您的搜索

现在在“Enter Search Query”框中输入您的搜索,并调整每个搜索过滤器的选项。

从左到右,您可以命名搜索过滤器,选择“包含”或“不包含”,选择“文本”或“正则表达式”,输入您的搜索查询 – 并选择执行搜索的位置(HTML、页面文本、元素或 XPath 等)。

自定义搜索过滤器

上面的示例显示了在任何页面的文本中搜索“Out of stock”,以及搜索任何页面在页面的 HTML head 元素中不包含 Google Tag Manager 跟踪代码。

设置好过滤器后,您可以单击“OK”并运行抓取以执行搜索。


3) 抓取网站

在“Enter URL to spider”框中键入或复制您希望抓取的网站,然后点击“Start”。

自定义搜索网站抓取

等待抓取完成并达到 100%,或者实时观看自定义搜索选项卡过滤器的填充情况。


4) 在自定义搜索选项卡和过滤器中查看数据

单击“Custom Search”选项卡以实时查看自定义搜索的结果。 默认情况下,所有搜索的数据都一起显示在选项卡中,但可以使用过滤器来优化数据,仅显示每个单独的过滤器。

自定义搜索结果数据

“contains”过滤器将显示搜索的出现次数,而“does not contain”搜索将返回“Contains”或“Does Not Contain”。

在此搜索中,有 2 个页面包含“Out of stock”文本,每个页面仅包含该词一次 – 而在 10 个页面中的任何一个页面上都未找到 GTM 代码。

这些数字也可以在右侧的“Overview”窗格中看到,该窗格会实时更新过滤器计数。

自定义搜索右侧概述


5) 导出

通过单击“export”按钮导出自定义搜索数据,该按钮与过滤器和您当前的视图一起工作。

自定义搜索导出

您还可以通过“Bulk Export > Custom Search > Filter X Inlinks”将“inlinks”(链接的源页面)导出到自定义搜索过滤器。

自定义搜索批量导出


6) 批量上传过滤器

自定义搜索中还有一个“Bulk Add”选项,它允许您快速上传大量自定义搜索过滤器,而不是单独输入它们。

批量上传自定义搜索

这将弹出一个单独的窗口,允许您一起输入多个相同类型的搜索。

自定义搜索批量上传过滤器

例如,如果您使用此功能查找未链接的关键词以进行内部链接,您可以快速添加多达 100 个关键词,以使用“Page Text No Anchors”在页面上查找。


高级搜索过滤器选项

通过将过滤器组合在一起并调整搜索过滤器配置,自定义搜索可以非常强大。 特别是,使用正则表达式并选择执行搜索的位置。

区分大小写

如果您需要执行区分大小写的搜索,在搜索“文本”时,您可以单击框右侧的箭头展开文本区域并选择“case sensitive”。

自定义搜索区分大小写

默认情况下,“Regex”区分大小写,要使其不区分大小写,请在单词前使用 (?i)。 例如 –

(?i)optimisation

将匹配“optimisation”和“OPTIMISATION”,甚至“OpTiMiSaTiOn”。

在搜索品牌名称的拼写错误或首字母缩写词等时,区分大小写可能特别有用。

精确和多个单词

您可以选择使用常规文本进行搜索,或者对于更高级的用途,您可以切换到正则表达式。

自定义搜索正则表达式

例如,使用正则表达式,您可以使用以下内容匹配精确单词。

\bword\b

这将匹配一个特定的单词(在本例中为“word”),因为 \b 匹配单词边界。

当搜索可能出现在其他单词中的单词或短语时,这可能很有用,例如“pr”(它将出现在我们网站上的“promotion”、“pre-rendering”等中!)。

如果不使用单词边界,我们的数字 PR 页面上会找到 12 次“pr”。 通过精确的、区分大小写的匹配,实际上是 0。

使用正则表达式进行精确单词搜索

您也可以将单词组合在一起进行搜索。 例如,如果您想找到任何包含单词“natural”、“organic”和“free”的页面,您可以使用管道在单个过滤器中组合单词。

\bnatural\b|\borganic\b|\bfree\b

这将计算每个单词的每个实例,例如,我们的“search engine optimisation”页面有 3 次“organic”,以及 1 次“natural”和“free”,总共为 5 次。

多个单词自定义搜索

您可以单击标题按出现次数排序,如示例所示。

组合搜索

您可以组合过滤器并同时一起查看它们。 因此,如果您想搜索任何包含一个单词但不包含另一个单词的页面 – 然后使用多个过滤器并在自定义搜索选项卡中一起查看。

组合搜索过滤器

在此示例中,您可以看到没有同时使用“crawler”和“best”这两个词的实例。 这是合适的!

搜索位置

自定义搜索将检查原始 HTML 或呈现的 HTML,具体取决于您的呈现模式。 默认情况下,它将检查原始 HTML,但如果您已配置 JavaScript 呈现模式,它将检查呈现的 HTML。

然后,您可以精确地优化执行自定义搜索的位置。

自定义搜索位置

这 7 个可用选项使您可以控制搜索的位置 –

  • HTML – 网页的完整 HTML。
  • Page Text – 网页的文本,不包括任何 HTML。
  • Page Text No Anchors – 网页的文本,不包括任何 HTML 或 HTML 锚标记(也称为 A 元素)中包含的任何文本。 这在搜索也包含在菜单中的链接文本中的单词时非常有用,否则会导致每个页面都被标记为包含搜索。
  • HTML Head – 网页的 HTML head。
  • HTML Body – 网页的 HTML body,可以包括 HTML 和页面文本。
  • XPath – 您可以提供 XPath 以指定 HTML 中执行搜索的位置。 例如,如果您只想针对 h3 标题中包含的文本运行搜索,您可以提供 //h3。
  • Content Area – 您可以指定用于字数统计、近似重复内容分析以及拼写和语法检查的内容区域 – 也可以为自定义搜索选择该区域。 默认情况下,这包括 body HTML 元素中包含的文本,不包括 nav 和 footer 元素,以专注于页面的主要内容。 可以排除和包含 HTML 元素、类和 ID,如内容区域指南中所述。

选择搜索位置通常非常强大。 一个很好的例子是找到我们在我们自己的网站上将“Screaming Frog”错误拼写为“Screaming frog”,而没有大写“F”的位置。

使用“Page Text”运行区分大小写的搜索会返回我们的断链博客文章中的 7 次出现。

Screaming frog 自定义搜索

但是,在检查页面时,拼写错误位于博客文章的“comments”部分中,而不是在主博客正文中。

要从自定义搜索中排除此评论部分,您可以在浏览器中右键单击并“查看 HTML 源代码”,然后在 HTML 中搜索相应的“comments”部分。

这显示了 HTML ID 为“comments”,可用于排除。

在内容设置中排除 HTML ID 以进行自定义搜索

然后可以在“Configuration > Content > Area”下的“Content Area”中排除“comments”ID。

用于拼写和语法检查的内容区域

然后将不会分析评论部分以进行自定义搜索,我们可以看到重新运行搜索表明此页面上出现 0 次。

使用内容区域的自定义搜索

多行

您可以扩展您的自定义搜索以在 HTML 中为多行。 这意味着它可用于在 HTML 中查找完整代码,例如 Google Analytics 跟踪代码(可以使用其他分析平台)。

单击搜索查询框右侧的箭头以展开文本区域,您可以输入整个 GTM 容器代码段,例如。

多行自定义搜索

这意味着您无需将搜索范围缩小到跟踪标签的较小单行或单词,您可以验证整个代码段。

使用抓取数据进行分析

自定义搜索过滤器数据会自动附加到“Internal”选项卡,该选项卡将抓取中的所有内部数据组合在一起。

使用抓取数据的自定义搜索

因此,您可以将自定义搜索与抓取的其他数据进行匹配,以获得更多见解。

提取数据

最后,值得重申的是,自定义搜索不会“抓取”或提取数据,它只会搜索。

要提取内容,您需要改用自定义提取


总结

上面的指南应说明如何使用 SEO Spider 在您网站上的页面中查找单词、短语、跟踪标签或任何文本片段。

立即下载

另请阅读我们的 Screaming Frog SEO Spider 常见问题解答 和完整的用户指南,以获取有关该工具的更多信息。

如果您有任何其他疑问、反馈或建议以改进 SEO Spider 中的自定义搜索,请通过支持与我们的团队联系。