返回首页搜索引擎机制

搜索引擎对页面的处理过程(重中之重)

百度看到的跟我们看到的其实是一样的，只是百度看到的是源代码，而我们看到的是浏览器翻译之后的可视化界面。

百度的爬虫在爬取网页的过程，其实就是我们打开浏览器的过程。

所以自己制作爬虫，也是需要模拟成浏览器。

标题参与排名，现在keywords已经不参与排名

先爬取，然后识别，如果计算通过，合格就进行索引，排序

爬取（重中之重）

1-3天、1-2周

百度搜索资源平台-搜索服务-链接提交

在排名上，图文结合的网页比纯文字的好

文字：识别度最好的是文字

专业度

图片：只能识别出这是一张图，但是不清楚图片的内容

能够原创尽量原创、不要模糊、跟文字相关

链接：

HTML: 通过确定html来确定有哪些板块

扁平化结构

网页合格，进入搜索引擎数据库

site:网址

站长之家

（最准确）

如何提升收录量（规则）

搜索引擎数据更新延时

每日产生的网页太多了，爬虫顾此失彼。所以会有一个优先级的处理机制

新站没有信任度

老站没有更新内容

要么是原创，要么非原创，内容搞多点