网站在切入SEO优化时,往往都是从站内技术问题整改开始,而在这其中,解决“重复内容”是尤为重要且常见的一点。可以毫不夸张的说,99%的网站都会遇到重复内容的问题,但很多人并未意识到它的出现。本文作为一个checklist,希望能帮助大家诊断和解决过多的重复内容页面,完成SEO优化之路的一个重要里程碑。
1、重复内容的后果
首先了解一下什么是重复内容?重复内容通常是指网站内部或跨域之间完全匹配或大致类似的有一定体量的内容。多数情况下,其成因并不具有欺骗性质,所以并不会导致网站遭受惩罚。仅在极个别情况下,Google 才会认为重复内容的用意是操纵页面排名并欺骗用户,当此类情况出现时,Google才会对相应网站的索引和排名进行适当的调整。
网站出现大量重复内容,会对网站产生负面影响:
浪费爬虫抓取配额:之前有文章提到过,搜索引擎爬虫花在一个网站上抓取页面的总时间是有限的。大量重复页面只会占用爬虫的抓取配额,导致一些真正重要的页面可能无法被抓取到。影响页面SERP的可见度:如果页面被搜索引擎识别为重复内容,搜索引擎为了提升用户的搜索体验,在SERP尽可能展现多样化的搜索结果,他会过滤掉一些重复内容,不让其出现在靠前排名结果中。稀释页面权重:如果一个页面可以通过多个URL访问,对于搜索引擎而言,页面权重是分散传递的,不利于聚合。
2、重复内容的类型
也许你的网站只是简单的CMS模板搭建,页面数量少,问题不多;也许你的网站拥有上百万个页面和多个目标国家市场,非常复杂;也许你使用的CMS功能限制,自定义程度很高。无论网站是什么量级和特点,出现的重复内容问题都是类似的,可归类分析的,下文将为您详细介绍,可细想一下哪条你有中招?
1)Caused by站内技术问题
由于网站内部的技术问题导致大量的重复内容,最常见的就是网站上有多个不同的URL却显示相同的内容。
重复内容类型:
首页存在多个URL地址可同时访问,例如/,index.html,index.php。网站存在大小写不统一的URL,对于搜索引擎而言,大小写不同则意味着不同的页面。页面URL结尾的斜杠处理不一致,不统一。带与不带斜杠结尾也意味着不同的页面。网站存在多个Flash,iframe框架等内容的页面,但爬虫识别不了,抓取到的页面是一片空白,会被认为重复页面。多维度导航中的各个过滤项、排序、属性和参数等都对搜索引擎爬虫可见,网站上应用任意一个筛选条件都会生成一个新的页面,再在新的页面应用新的筛选条件就会继续生成更多的页面,这样最终生成的页面就无穷无尽,如果爬虫顺着这路径爬行下去,就会抓取到非常多的页面并容易陷入死循环出不来。CrossBorderDifital曾帮助客户解决过这个问题,SEO流量立马上涨了30%。网站内部链接带上了各种跟踪参数,例如GA的UTM参数。站内搜索的动态链接能被爬虫抓取并索引。如/search?keywords=XXX。网页的备用版本,例如可打印版本页面也被收录了。
2)Caused by内容策略不当
除了网站技术引发的重复,网站不恰当的内容策略也会引发此类问题,毕竟身处信息爆炸时代,内容生产和过期的速度都很快。
对于拥有几百万页面的大型资讯站点,内容产出频率高,重复内容和内部竞争的问题很是上头。
重复内容类型:
发布许多类似的文章,或版本更新迭代的内容,即文章之间重复率较高。已被新内容替换的过时内容,但两者并未进行合并,保留了旧文章。内容过于单薄的页面,或是空白内容页面(文章内容为404无法找到,但页面返回200状态码)。此类页面会在Google Search Console中报告为Soft 404错误,同时被判断为重复页面。【互动问答环节】
问:如果其他网站抄袭我们的内容,被动的产生重复内容,怎么办?”
答:Google算法已经能很好的识别原创内容的网站,不用担心影响排名。您可以与该网站的站长联系,要求其移除相关内容。此外,也可根据《Digital Millennium Copyright Act》提交请求,以请求 Google 从搜索结果中移除涉嫌侵权的网页。
如果拥有的是零售电商网站呢?网站以产品页面为主,博客文章只占少数,同样不可掉以轻心。
重复内容类型:
在不同的产品页面上传重复的客户评论。大量模板化的产品分类页面description,重复度高,缺少定制化。如下图:
空白的分类页面。例如经过产品调整,某些分类下已没有对应的产品,但站内仍有入口去到该空白页面。在分页页面中过多的使用重复内容片段。例如产品分类的各个分页页面顶部出现重复的描述内容最为常见。重复使用样板文字。例如电商网站成百上千的产品页面都重复显示运输、售后等具体条款。网站的产品文案或详情信息和eBay,Amazon等第三方平台展示的一样。网站信息直接挪用的供应商提供的原始材料,没有自定义修改。网站大量页面Title tag和Meta Description内容重复。例如某些B2B网站习惯在每个页面上都堆砌相同的产品关键词。通过不同的产品分类或促销活动等维度进入到产品页面,URL都是不同的。
3)Caused by服务器配置问题
如果网站服务器端配置出现错误,也有很大概率出现重复内容问题,但大多数网站运营者都很难意识到。
重复内容类型:
网站服务器运用SSL证书之后,http链接却没有重定向到安全协议https,即对搜索引擎而言,网站的所有页面数量*2。www和non-www同时存在。在备用子域名上配置负载均衡(如www3.),或是IP层的负载均衡。测试站点页面被收录,导致和正式环境的网站页面形成重复。
4)Caused by国际化/多域名的网站
如果你的网站面向国际市场,可能会运营不同的国家顶级域名或二级域名站点,那就需要将您网页的本地化版本告知 Google。
重复内容类型:
在针对不同目标市场的域名上发布相同或极度相似的内容。多语言网站没有正确部署<hreflang=”lang”>标签,或是没有翻译成本地语言,如果网页的主要内容未经翻译,则该网页的本地化版本仅会被视为重复网页。独立的移动端(例如二级域名m.crossborderdigital.com)和PC站之前没有做好canonical和alternate的双向注释。
如何诊断?
借助搜索引擎查询命令或是相关检查工具,发现并精准找到问题的原因,对我来说,这是SEO需要掌握的核心内容。为了帮助大家快速诊断网站,下面介绍了三种方式:
1)Google Search Console索引报告
最直接的方式就是在Google Search Console后台的“Coverage”报告中查看索引错误或被排除索引的问题链接列表,它会很清晰的显示你的网站因为什么原因而没有被索引,如下图所示:
2)搜索引擎查询命令
查找重复内容的另一种简单方法是使用Google查询命令。只需从您的网站中复制一段文本内容,然后将其用双引号括起来即可在Google上进行搜索。
如果想知道网站被收录了多少页面,除了Google Search Console中的Valid URL数量,使用查询命令site:www.example.com也能得到网站页面索引数(取决于网站的规模,仅作为参考值)
或是将下面的这几个查询命令结合起来使用,快速检测出属于重复内容的页面,事半功倍。
site:www.example.com #查询网站索引页面数
site:www.example.com intitle:keyword #查询网站所有包含keyword的页面
site:www.example.com inurl:keyword #查询网站所有URL包含keyword的页面
site:www.example.com filetype:xml/txt/pdf #查询网站包含这类资源格式的页面
3)模拟抓取工具
有需求就有市场,检测网站重复内容的工具越来越多,功能也越来越丰富。找到适合你的,才是最重要的。此处主要推荐模拟爬虫抓取工具,Screaming Frog作为市面上非常流行的模拟抓取工具,它可以帮助你迅速发现网站重复的title,description,h标签,url等信息,并批量导出报告,便于分析。当然,如果你正在使用同类型的抓取工具如Deepcrawl和Sitebulb,综合型SEO工具如Ahrefs和SEMRush,同样可行。
如何优化?
当你了解哪些属于重复内容,并且通过诊断精准定位了问题页面后,最重要的就是如何优化并解决重复内容,从而聚合页面权重,提高搜索引擎爬虫对网站的抓取效率,提升有效页面收录量。
1)设置301重定向
对搜索引擎来说,301重定向意味着永久改变地址,可以传递绝大部分页面权重和排名。如果一个页面拥有多个URL入口,或是新旧版本文章内容更替等情况,建议整理出我们期望收录的规范化地址,设置其他页面做301重定向到规范化页面,聚合页面权重。
2)添加rel=”canonical”
网站所有页面都应该添加rel=”canonical” link 元素,帮助Google选择一个网址作为规范版本并抓取该网址,而将所有其他网址视为重复网址并降低对这些网址的抓取频率,聚合页面权重。
Canonical标签不像301重定向那样可以基本完全传递原来的权重,但大部分的权重还是可以聚合于首选的页面的,前提是标识的这两个页面内容需要相同或高度相似。如果要保留所有的已有的URL均能被正常访问且不好设置301重定向,那么可以使用这种折中方案。
Canonical注意事项:
1) Canonical标签只是一个建议,并不是指令,所以搜索引擎会在很大程度上考虑这个标签,但并不是百分百遵守,搜索引擎还会考虑其他情况来判断规范化地址。
2) 标签需要使用绝对地址。(即URL需要带上http或https协议)
3) Canonical指定的首选页面的内容,与其他使用这个标签的非规范化网址内容要完全相同或高度相似,否则很可能不起作用。使用301则没有这个限制。建议站长在使用canonical标签时要仔细检查,确认两个页面是完全相同的。即使页面高度相似,canonical标签被遵守的可能性也会降低。
4)添加Noindex标签
如果301重定向和Canonical标签都不方便设置,只希望搜索引擎不要收录那些重复页面,这种情况下可以在页面源代码中添加Noindex标签。禁止搜索引擎索引本页面,但允许蜘蛛继续抓取页面上的其他链接,也可以传递权重。如下:
<meta name=“robots” content=“noindex,follow”>
Robots.txt代表禁止抓取(但不影响索引),Noindex代表禁止索引(但不影响抓取),抓取和索引是不同的两个过程,但经验不足的人可能会倾向于阻止使用robots.txt来解决重复页面,属于治标不治本,最好将这些页面设置为noindex(或在不再需要时将其重定向)。例如网站存在一些内容缺失页面,或是网站内部搜索页面都不想被收录,可将这类页面添加Noindex标签,确认其从Google索引中去除后,再添加到robots.txt文件中,禁止爬虫抓取。
5)确保内链规范化
网站内部链接入口都应确保是规范化地址,即提高爬虫抓取效率,减少重复页面的抓取入口。例如首页导航的Home,网站Logo,面包屑中首页层级入口,都应统一为首选的URL。
6)尽量减少模板化内容
例如电商网站的各个产品页面不要显示重复的shipping,warranty等条款,建议只用锚文本添加内链即可,链接到能够提供详细信息的单独网页。同时还需要最大限度地减少相似内容,例如网站定期发布版本更新文档,建议考虑增加每个新版本文档的独特性内容,或将这些版本网页合并成一个。
7)坚持发布原创内容
如果公司同时运营多个平台,例如产品可能会在ebay,amazon和官网上同时售卖,建议保证官网能尽量做到发布原创内容,即网站产品和分类的描述内容尽可能做到单独定制化、可读性强,提高页面的长期竞争力。如果你的产品采购于供应商,那么更需要在供应商提供的产品详情信息上进行优化,避免和其他网站信息产生重复。
PS:如果网站产品SKU过多,内容更新的工作将十分漫长,难以推进,建议先从GA等分析工具中筛选出Top流量的产品页面,从重点品类入手。
8)保持网站URL稳定
如果可以,网站页面URL尽量不要轻易更改,因为保持URL稳定比在URL中不断填充新的关键词更为重要。时间一长,新旧URL更替容易产生404错误或其他重复问题。
9)避免网站内容被无条件引用
如果你运营的是一个咨询内容站点,网站拥有大量高质量文档,容易被竞争对手或其他平台所采集、引用等,建议在别人复制我们的网站内容时,设置自动添加网站版权信息和原始页面链接,确保我们内容的原创性。
结语
希望这份checklist能有帮助,如果大家有更好的解决思路,欢迎讨论!