为了SEO优化的发展,自己辛辛苦苦写了两篇原创文章,没想到被一个大型企业网站抄袭秒收录,而自己的站点却没被收录,这是一件让人有点尴尬的事情,那么真的不收录,就不是原创了吗?
未收录不代表未抓取
很多站长朋友是这样认为的,自己的文章没有被收录,而抄袭者的却收录了,所以百度判断自己抄袭了别人的文章,自己的权重也就一直上不来,没有排名。
其实这是一个错误的观点,我曾在百度排名规则的文章中提到,百度收录是需要经过抓取-识别-释放这三个流程。其中在释放的流程中,需要判断整体网站的质量,当整体网站质量过关,收录相对较快,当整体网站信誉度没有达到百度的标准,百度将会暂时保留你的文章,不释放出来。
虽然不被释放出来,但是已经经过了抓取和识别这两个流程。
在这里特别的说一下抓取的流程,当网站建立以后,提交到搜索引擎,搜索引擎基本每天都会来抓取,大家可以试着安装百度云加速后台可以统计出抓取的页面,如果抓取不够,也可以在百度站长平台中设置抓取频率和sitemap自动推送,这样抓取的是完全没有压力。设置方法网上有很多介绍,大家可以自己找一下。
如何判断文章的原创度?
并不是你网站有文章,是你自己写的,就一定会被搜索引擎认为这是一篇原创文章,因为其中还有很多技术方面的问题,搜索引擎还未能解决。
观澜网站制作优化人员曾经在一个网站每天更新一篇文章,一篇文章的字数只有100字左右,但是文章页面非常简单,简单到整个页面没有JS、CSS、HTML代码,只有文字,但收录却非常好,而有一些网站,用JS、CSS、html代码把网站修饰的非常漂亮,但是发布的文章却不收录,这让我们觉得代码与原创度有直接关系。
在哪里看到过这样的一句话“搜索引擎只能识别200KB以内的内容”,对于一个网站而言,200KB算是很大了,我的博客只有30KB左右,所以我博客在搜索引擎中抓取是完全没有压力,如果你的网站有超过200KB,我觉得你是应该要优化了。
这和网站的文件大小有什么关系呢?我们来看看,搜索引擎在抓取一个页面的流程是从头到底,任何一个页面都有一个共同点,那就是头部一样、底部一样,唯一不一样的就是文章内容,那么搜索引擎在抓取头部有10KB左右是一模一样的,到中部文字的时候只有2KB是不一样的,而底部又有10KB是一模一样的,那么还会认为这是原创文章吗?
其实搜索引擎是不认识字的,他只有把这个汉字放到他的数据库去对比,当一对比一个新文章页面的时候,总共22KB的页面,居然有20KB一模一样,就算是写了原创文章,也会被认为是伪原创。
防止抄袭最好的办法
什么禁止右键、禁止复制这些方法都弱爆了,对方要抄袭、要采集,这点技术禁止,是完全没有作用,况且人家采集是直接从代码中采集,并非实际来到了你的网站,而且还会影响用户体验度,所以不建议使用这些方法来禁止抄袭者。
当我今天把文章写出来后,不管是否收录明天将会把文章通过投稿的形式发布出去,通过投稿的形式,对方会完全的尊重并且保留你的版权,即使没有留下链接版权,至少也会留下品牌词的版权。
投稿成功以后,当抄袭者在此抄袭这篇文章的时候,互联网已经有很多此文章了,第一他会觉得互联网文章太多,不会再次抄袭了,因为他想抄原创文章,第二就算他抄袭了,互联网你投了这么多文章,最终公认的版权是你的,并且多个页面有URL直接指向你的页面,这也是给你这篇文章做了一个最好的外链。
为什么抄袭者的网站更容易收录?
那么还有一个问题来了,既然要抓取、识别、释放这么复杂的流程,为何抄袭我们网站的内容还先收录呢?
在谈论抄袭者网站为何会收录块的时候,我觉得咱们先要搞清楚新闻内容是收录流程,新闻内容相对普通的内容收录较快,因为新闻内容具有时效性,所以必须当场发当场收录,然后释放出来,不然拖到第二天在收录的话,这个新闻可能不热了,关注的人也就少了,百度从而失去了这个体验。
而抄袭者的网站与新闻内容类似,通常抄袭者的网站是抄袭过多篇文章,其中有直接抄袭原创者,也就抄袭二手文章,抄来抄去,互联网同样的文章就非常多了,当一篇文章被互联网多次抄袭,这就意味着这篇文章比较热门,不热门怎么会这么多人抄袭呢?最终就出现了一个热点效应,收录的门槛也就降低了。所以就出现了抄袭者抄袭了你的文章,比你还先收录。