返回首页搜索引擎机制

搜索引擎对页面的处理过程

这是算法系列的第一篇文章,做seo,需要理解搜索引擎的算法,明白它的计算原理。

这是算法系列的第一篇文章,做seo,需要理解搜索引擎的算法,明白它的计算原理。

这篇文章我们要弄明白这个问题:网页为何会出现在搜索引擎那里?

网页之所以会出现在搜索引擎那里,要经过以下四个步骤:

1、爬取

什么是爬取?爬取就是搜索引擎蜘蛛(爬虫)爬到我们的网站抓取网页的过程。

这个过程,其实跟我们浏览网页是一样的。我们看到的东西和百度蜘蛛看到的东西是一样的,只是我们看到的是经过浏览器翻译过的可视化页面,而百度蜘蛛看到的是源代码。

我们右键「审查元素」或者「显示页面源代码」也能看到。

人看不到的页面,打不开的网站,蜘蛛(爬虫)也无法打开无法爬取。比如有些网站内容,需要登录才能看到,那么搜索引擎是不会登录的,也就看不到了。

2、识别

识别就是对整个网页进行计算。计算什么呢?比如关键词密度,有没有关键词堆砌等。通过不同的算法,对页面进行计算。

3、索引(收录)

索引,更常见的叫法是收录。百度蜘蛛收录了一个网页,代表这个网页是合格的,可以放置到搜索引擎数据库里面。

并且会通过数据化提取的形式,将网页内容分类:

  • title 标题
  • description 描述
  • keywords 关键词
  • 其他网页内容
  • url 链接

这上面的title、description、keywords,就是我们常说的TDK。TDK会作为网页的展现:

在互联网的「远古时代」,keywords关键词也能够参与排名,所以那个时候,只要做关键词堆砌,就能够赚得盆满钵满。后来百度的算法越来越完善,直接让keywords关键词不参与排名了。现在,排名的只有title标题。

注意看上面那张图,有一个「百度快照」,快照就是对整个网页内容进行收藏。

4、排序

排序就是搜索引擎对数据库里面的网页进行处理、评分,得出排名。

这就是一整个搜索引擎对页面的处理过程,当然,这个过程描述得很简略,之后,每一点都会单独展开来讲。