重复内容对搜索引擎优化SEO的影响很多时候被误解,对排名的影响低估了。有些人说 “重复内容” 会引致被搜索引擎惩罚。最近一个客户问我:想在网页内利用 CSS 设定不同的桌面和手机排版布局,有需要将同一段内容重复,会否因重复内容而被搜索引擎惩罚?
搜索引擎是不会简单对有重复内容的网页惩罚。所谓惩罚是指搜索引擎公司将该页面从索引数据库中抽走。网站的内重复内容更多情况是影响搜索排名的质量评分令,排名下降。
网站重复内容是互联网上常态
首先互联网的世界就是充责着很多很多的重复内容。有些针对重复内容研究说 20% – 30% 左右。例如:
- 当某网页引用其他网站的内容时,不免会重复对方网页上的一些内容。
- 又例如:当 Donald Trump 赢出成为美国总统,很多媒体都可能是直接抄袭引用官方的生平简介。
- 网店很多时候亦会出现重复内容,例如:相同的产品描述出现在该产品页和产品分类下的该产品页。只要 URL 网址不同搜索引擎就可能看成不同的页面。这种情况下的重复对搜索排名是非常不利需,要使用 rel=“canonical” 来处理。
- 更普遍的例子是同一网站支持加密连线 HTTPS 和非加密连线 HTTP , 由于 HTTP 和 HTTPS 被搜索引擎看作不同网址,所以亦可看作重复内容。这种情况下的重复对搜索排名亦是非常不利。
何为搜索引擎惩罚?
搜索引擎是不会简单对有重复的内容的网页惩罚处理,原因是普通用户难以消除重复的内容。搜索引擎旨在惩罚那些存心操纵搜索排名的人,而不是那些无心犯错误的普通用户。所谓惩罚是指搜索引擎公司将该页面从索引数据库 Indexing Database 中抽走,导致搜索用户不可能从任何搜索查询中找到该网页。再进一步 (在极端的情况下) ,当整个网站被惩罚时搜索引擎公司会将该网站的全部网页从索引数据库中抽走,导致搜索用户不可能从任何搜索查询中找到该网站的任何网页。搜索引擎发现网页或网站涉及不当的人为操控搜索结果排名,而将网页原应有的排名为下调,亦一般被视作搜索引擎惩罚。
不惩罚不等于搜索引擎喜欢
搜索引擎不喜欢重复的网页内容。搜索引擎认为:对搜索用户提出的查询列出的相同答案 (只是网址不同,内容大致是相同) 是浪费搜索排名结果页面。对重复的网页内容搜索引擎认为列出一个就足够了。所以搜索引擎只会从相同答案中抽取最好的一个网址放入搜索排名结果页面,其他相同答案被筛走。而这个筛走结果常常被误解为搜索引擎惩罚。
一般只有当网站内容大量是一字一句抄袭其他网站而对用户毫无价值并且目标是操控 SEO排名时,搜索引擎才会引入惩罚。
重复内容会损害网站质量评分
网站的内重复的内容更多情况是影响搜索排名的质量评分。一般相信搜索引擎亦会对搜索排名结果就质量进行过滤,这是以前 Panda 搜索算法更生做的工作,自 Panda 4.2?已经整合在搜索引擎的算法内。所以如果将相同一段内容在同一网页上重复很多次,质量评分和用户体验都自然下降,自然不利搜索排名。
网站内重复的内容另一种伤害是:如果是本身网站内的网页内容重复,你希望就目标关键字是用网页 A 排名,而搜索引擎可能觉得重复内容网页 B 更适合,并使用网页 B 在 SERP 结果。这就是 cannibalization 关键字竞食问题。结果导致关键字搜索排名下降。
举个例子:我们一个做脊医的客户经常在报章杂志上发表关于脊医健康的资讯,对方顺理成章亦将报章杂志上的专栏直接放在自己的网志上,当然由于资源所限发布总是是落后于报章杂志。他这样的做法就犯了重复内容的问题,由于报章杂志的网站排名因素都较他自己的网志为高,所以网志上面发表的相同内容都不会被搜索引擎以关键字搜索出来。而且不是一两篇文章的重复,而是大量的排名失败重复,最后亦对网站质量评分带来负面影响,再又影响其他站内页面的排名。
重复的内容不利搜索引擎索引
但先前的客户的提问又不同。理由是相同段落一个版本是给桌上电脑,一个是给手机。而当搜索引擎的索引机械人 Googlebots 检索阁下的网站时,现在身份是扮作桌上电脑。但由于手机浏览量已经超过桌上电脑,不久将来索引机械人会是扮作手机,这就是所谓 Mobile First Indexing。由于索引机械人身份只有一个,所以根本不会看到相同内容。
当搜索引擎发现两个网页大多是重覆的内容时、搜索引擎可能会选择放弃索引被视为重复的内容的网页。例如:一个客户网站是销售成人尿片,产品分为中码?、大码?、加大码等。基本的产品内容是相同的。搜索引擎会选择放弃其中两个。解决方法是在中继描述 Meta Description 中加入尺寸资料,使内容不被视为重覆的内容。当然,在网店中成人尿片尺寸是否应设置为产品项目又是另一回事。
其他网站抄袭内容
重复的内容最大的伤害更多时候是其他网站抄袭你的内容而导致搜索引擎因为 QDD 筛走你的原创内容而不是抄袭者的内容。本网志其中一些文章 ( 例如:”网站中文字体问题“) 就被其他网站抄袭。你当然可以通过 DMCA 请求 Google 采取行动,例如:将抄袭者的网页从索引数据库中移走或者将抄袭者的网页资量大幅降分。
了解搜索引擎从一篮子相同内容但不同网址中以什么条件筛选最好网页,可能有助你跳过冗长 DMCA 上诉程序将抄袭者击败。其中一个条件当然是网站权威性。原创性不是搜索引擎的主要考虑,所以发布日期更先者不一定被筛选出来。理由搜索引擎认为后发布者可能对内容有所改进而值得被筛选出来。这是 Query Deserves Freshness 的概念。加入结构描述 schema 可能有点帮助但亦非绝对。
2014 年 Google的一份专利文件提及一种机制决定近乎同相内相的多个网页中,如何决定哪一个网页才是主要的版本。其中参考的因素可以是 meta data 中如:作者、出版机构、出版日期、第三方参考连结等等。
多语言版本做成的重复内容
对于一些服务全球的网站,网站有多语言版本,例如:英文、中文正体、中文简体等等。甚至乎中文正体亦可能由于某些原因有不同的版本。例如:一个酒店集团管理的酒店网络遍布台湾、香港、马来西亚,网站内容可能会针对不同地区就内容上稍作调整。比如香港和台湾版本内容基本一样,但为了更佳的用户体验,之间只是词汇稍作本地化改动。但搜索引擎可能会认为台湾和香港是重复的内容。
一种做法是通过 hreflang 标记通知搜索引擎不同语言版本的语言代码和网址。好处是:
- 搜索引擎不会认为不同语言版本是重复内容。
- 搜索引擎当成功判断搜索用户的来源地后,能将适合的语言版本列出在搜索排名结果页面中。
在上面的例子中,页面告诉搜索引擎还有有英文版本 (hreflang=”en”)、中文正体 (hreflang=”zh-Hant”)、中文简体 (hreflang=”zh-Hans”) 和韩文 (hreflang=”ko”) 版本。