返回首页搜索引擎机制

搜索引擎对页面的处理过程

这是算法系列的第一篇文章，做seo，需要理解搜索引擎的算法，明白它的计算原理。

这篇文章我们要弄明白这个问题：网页为何会出现在搜索引擎那里？

网页之所以会出现在搜索引擎那里，要经过以下四个步骤：

什么是爬取？爬取就是搜索引擎蜘蛛（爬虫）爬到我们的网站抓取网页的过程。

这个过程，其实跟我们浏览网页是一样的。我们看到的东西和百度蜘蛛看到的东西是一样的，只是我们看到的是经过浏览器翻译过的可视化页面，而百度蜘蛛看到的是源代码。

我们右键「审查元素」或者「显示页面源代码」也能看到。

人看不到的页面，打不开的网站，蜘蛛（爬虫）也无法打开无法爬取。比如有些网站内容，需要登录才能看到，那么搜索引擎是不会登录的，也就看不到了。

识别就是对整个网页进行计算。计算什么呢？比如关键词密度，有没有关键词堆砌等。通过不同的算法，对页面进行计算。

索引，更常见的叫法是收录。百度蜘蛛收录了一个网页，代表这个网页是合格的，可以放置到搜索引擎数据库里面。

并且会通过数据化提取的形式，将网页内容分类：

这上面的title、description、keywords，就是我们常说的TDK。TDK会作为网页的展现：

在互联网的「远古时代」，keywords关键词也能够参与排名，所以那个时候，只要做关键词堆砌，就能够赚得盆满钵满。后来百度的算法越来越完善，直接让keywords关键词不参与排名了。现在，排名的只有title标题。

注意看上面那张图，有一个「百度快照」，快照就是对整个网页内容进行收藏。

排序就是搜索引擎对数据库里面的网页进行处理、评分，得出排名。

这就是一整个搜索引擎对页面的处理过程，当然，这个过程描述得很简略，之后，每一点都会单独展开来讲。