爬取-搜索引擎的爬取规则
上篇文章,我们说了「搜索引擎对页面的处理过程」,里面提到了四个步骤:爬取、识别、收录、排序。这篇文章我们来详细说爬取这个步骤。爬取这个步骤是seo优化的第一步,是重中之重。
上篇文章,我们说了「搜索引擎对页面的处理过程」,里面提到了四个步骤:爬取、识别、收录、排序。这篇文章我们来详细说爬取这个步骤。爬取这个步骤是seo优化的第一步,是重中之重。
1、什么是蜘蛛(爬虫)?
互联网就是一张大网,所以,我们就把搜索引擎派出来的程序叫做蜘蛛,每时每刻都有蜘蛛在爬取页面。这个程序的最主要目的有三个:
第一、为搜索引擎发现新网页;
第二,回访老页面:根据网页质量,确定回访时间;
第三,智能发现和回访(重要性排序)
那么,它是怎么发现新页面的呢?
有两个方式:第一,自己提交给百度;第二,通过外链。
我们先来看第一种:建站完成之后,是需要提交给百度的,这样,爬虫才知道有这么一个站点的存在。在「百度搜索资源平台」进行提交。
首先,把你的网址粘贴到百度搜索框(注意不是地址栏)进行搜索:
点击提交网址:
点击提交即可。
提交之后,搜索引擎就会派遣爬虫来爬取我们的网页。
这个周期,有长有短。老域名的周期短,可能几个小时就来了;新域名周期长,一周到半个月都有可能。比如说,最近百度收录就很慢,我的站点到今天第十一天(21年5月1日)了,还没有被收录,爬虫还没来:
通过「百度资源搜索平台」的爬取频次即可看到爬虫每天来的次数。目前为0。
接着来看第二个方式:通过外链。
我们在别的平台上写文章并且留下网站链接,也就是网址,百度爬取这个网页的时候,会发现里面有一个网址,也会爬取。
总而言之,爬虫对于seo而言,是极为重要的。主要体现在以下三点:
1、爬虫来到网站,是收录(索引)网站的前提
2、爬虫来得越多,收录(索引)就会越快
3、爬虫来得多,说明内容足够优质;来得少,说明内容不够优质或者seo优化有问题。
2、哪里可以看到爬虫爬取次数
有两个途径:
a、在百度搜索资源平台:
首先,需要验证「百度搜索资源平台」,绑定站点:
改天写一篇文章
b、在你的服务器日志:
爬取细节分析。这里有很多的知识,能够分析爬虫爬取到哪里
3、哪些情况会导致爬虫不友好
主要有以下三种情况:
1、中文网址
2、网站打开速度慢
3、网站存在打不开的链接(死链接)
第一种情况,我们选择域名的时候,不要带有中文即可
第二种情况,打开网站速度最好是500毫秒,在1000毫秒以内
就像上图,最大值是6363,也就是网站用了6s才打开,太慢了
第三种情况,网站有死链接,就需要去提交死链接
4、如何提升爬虫次数?
主要有四点:
1、发布优质的网站内容,可以看这篇文章
2、每日更新内容量越多越好
3、定时更新,因为爬虫是个机器,非常守时,你每天两点发,爬虫就会每天两点来爬取。当然,这个不做强求,只要每天发布即可,坚持3个月,才能养成爬虫每天来爬取你的网站。而如果网站上线之后,就不更新,对网站的伤害是很大的。
4、优质的网站内链。蜘蛛希望你的网站就像是一张网,所以要有合适的内链,每篇文章1-3,不要每篇文章都链接到首页,避免百度认为你刻意优化
5、网站一直没被收录怎么办?
可以在「百度搜索资源平台」的反馈中心进行反馈,选择「新站整站未收录」:
填写资料:
在反馈中心可以看到百度是否有回复。