如何检查重复内容
通过识别完全重复的页面,以及网站上页面之间存在部分文本匹配的近似重复内容,来最大限度地减少重复内容。
如何查找重复内容
应该尽量减少网站上的重复内容,因为它会使搜索引擎难以决定为哪个版本进行排名。
虽然“重复内容惩罚”在 SEO 中是一个神话,但非常相似的内容可能会导致抓取效率低下,稀释 PageRank,并且可能是内容可以合并、删除或改进的信号。
值得记住的是,重复和相似的内容是网络的自然组成部分,对于搜索引擎来说通常不是问题,搜索引擎会按照设计规范化 URL 并在适当的情况下对其进行过滤。但是,大规模地使用可能会带来更多问题。
防止重复内容使您可以控制索引和排名的内容,而不是将其留给搜索引擎。您可以限制抓取预算的浪费,并整合索引和链接信号以帮助排名。
本教程将引导您了解如何使用 Screaming Frog SEO Spider 来查找完全重复的内容,以及网站上页面之间存在部分文本匹配的近似重复内容。
任何工具(包括 SEO Spider)识别出的重复内容都需要在上下文中进行审查。观看我们的视频,或继续阅读下面的指南。
要开始使用,请下载 SEO Spider,该软件可以免费抓取最多 500 个 URL。前 2 个步骤仅在使用 许可证 的情况下可用。如果您是免费用户,请跳至指南中的 第 3 步。
1) 通过“Config > Content > Duplicates”启用“近似重复项”
默认情况下,SEO Spider 会自动识别完全重复的页面。但是,要识别“近似重复项”,必须启用该配置,这使其可以存储每个页面的内容。
SEO Spider 将识别相似度匹配度为 90% 的近似重复项,可以调整该匹配度以查找相似度阈值较低的内容。

SEO Spider 还将仅检查“可索引”页面上的重复项(对于完全重复项和近似重复项)。
这意味着,如果您有两个相同的 URL,但其中一个已规范化为另一个(因此“不可索引”),则不会报告此情况,除非禁用此选项。
如果您有兴趣查找抓取预算问题,请取消选中“仅检查可索引页面上的重复项”选项,因为这有助于查找潜在的抓取浪费区域。