如何在 SEO Spider 中使用 N-Grams
了解如何在 SEO Spider 中使用 N-grams 进行文本分析、页面优化,甚至大规模地发现内部链接机会。
简介
N-grams 是在文本中找到的连续单 词(或数字和符号)序列。它们使您能够查看页面上使用的单词、它们的频率以及各种 NLP 任务的模式。
使用 n-grams 在主题建模和语义相关性方面存在各种限制,但它们是 SEO 中用于简单文本分析、页面优化甚至内部链接的有用工具。
本教程展示了如何使用 Screaming Frog SEO Spider,通过内置的 n-grams 分析,来分析抓取页面中的短语频率,或聚合站点中页面组的短语频率。
请注意 - 需要 SEO Spider 许可证 才能执行以下 n-grams 分析。
1) 启用“存储 HTML / 存储渲染后的 HTML”
首先,在“Config > Spider > Extraction”中启用“Store HTML”和“Store Rendered HTML”。

这将意味着 HTML(以及 JavaScript 渲染模式下的渲染 HTML)将在抓取期间存储,并用于启用 n-grams 分析。
2) 抓取网站
将网站地 址输入到顶部的 URL 栏中,然后单击“Start”。

SEO Spider 将开始抓取网站以执行 n-grams 分析。
3) 查看 N-grams 选项卡
可以通过单击顶部窗口窗格“Internal”选项卡中的 URL 或 URL 组,然后单击底部的 N-grams 选项卡来查看 N-grams。

默认情况下,将显示“1-gram”,它是为所选 URL 找到的单个单词短语。但是,可以通过过滤器将其调整为最多“6-gram”,即六个单词的短语。
下面的示例显示选择了“2-gram”,并在右侧显示了我们如何查找死链接教程的词云可视化。
N-grams 不仅从页面收集,还从链接到该页面的链接收集。
N-grams 选项卡中显示以下列 -
- Body Text – n-gram 在页面正文文本中出现的次数,基于内容区域。
- Density – n-gram 在正文文本中出现的百分比,相对于所有正文文本 n-grams 的总数。
- Body Text (Unlinked) – n-gram 在页面正文文本中未链接(未包含在
<a href>链接中)的次数,基于内容区域。 - Headings – n-gram 在页面标题元素中出现的次数。
- Title – n-gram 在页面标题元素中出现的次数。
- Inlinks Anchor Text – n-gram 在指向该页面的锚文本中使用的次数。
- Inlinks Alt Text – n-gram 在链接到该页面的图像 alt 文本中使用的次数。
- Total – n-gram 在正文文本、标题和内链(锚文本和 alt 文本)中使用的总次数。
多页面 N-gram 分析
除了查看单个页面上的 n-grams 之外,您还可以突出显示多个 URL 以分析更广泛的页面集中的 n-grams。

这在分析相似主题或页面组时非常有用。
如果选择了多个页面,则可以选择右侧的“URLs”选项卡以显示 n-grams 出现在哪些页面上。

也可以选择多个 n-grams。在下面的示例中,已从 SEO Spider 教程中选择了 26,045 个 2-grams。

右侧已更新为显示 51,776 行带有 2-grams 的 URL,可用于分析。
4) 导出 N-grams
可以使用 N-grams 选项卡顶部的“Export”按钮批量导出数据。
可以使用左侧的“Export”按钮导出页面或多个页面的 N-grams,其中不包括 URL。

或者,使用右侧 URL 选项卡上的“Export”选项卡批量导出 URL 和选定的 n-grams。

在此示例中,将导出 51,776 行带有 2-grams 的 URL。
5) 使用 N-grams 进行文本分析和页面优化
N-grams 有助于理解页面上的单词,并在一定程度上理解页面针对目标关键词和主题的上下文和相关性。
虽然 Google 已经超越了简单的关键词匹配,但在页面上拥有您想要排名的单词通常仍然有助于 SEO。
关键词密度是一个神话,因此没有一个神奇的密度级 别可以帮助您提高排名。但是,单词的出现、频率和独特性对于分析作为基本相关性的指标(在语义模型之外)非常有用。

在上面的示例中,对于我们的如何查找死链接教程,很明显“broken links”是最常用的二元语法。很容易看出该页面已针对它进行了优化,包括正文、标题、标题以及指向该页面的内链锚文本。
N-grams 数据可以以各种方式使用并与其他数据源结合以获得洞察力,例如:
- 页面优化 – 分析页面与目标关键词的相关性。正文文本、标题和内链的单独列有助于理解整体相关性,而不仅仅是在页面上。
- 关键词差距 – 将 n-grams 与其他关键词研究数据(例如 Search Console 数据)进行匹配,以查看它们是否存在于页面上,或者是否存在包含它们的机会。
- 关键词蚕食 – 比较在 SERP 中蚕食的页面的 n-grams,以了解它们的相似之处。
- 竞争对手分析 – 抓取与您自己的页面等效的竞争对手页面,并比较 n-grams 的差异以识别机会。对语料库执行 n-gram IDF 分析,以了解什么可能很重要。
它们还可以用于发现内部链接机会,这将我们带到下一节。
