返回首页搜索引擎机制

搜索引擎对页面的处理过程(重中之重)

百度看到的跟我们看到的其实是一样的,只是百度看到的是源代码,而我们看到的是浏览器翻译之后的可视化界面。

百度看到的跟我们看到的其实是一样的,只是百度看到的是源代码,而我们看到的是浏览器翻译之后的可视化界面。

百度的爬虫在爬取网页的过程,其实就是我们打开浏览器的过程。

所以自己制作爬虫,也是需要模拟成浏览器。

标题参与排名,现在keywords已经不参与排名

先爬取,然后识别,如果计算通过,合格就进行索引,排序

爬取(重中之重)

爬虫

1-3天、1-2周

百度搜索资源平台-搜索服务-链接提交

哪里可以看爬虫爬取次数

哪些情况会导致爬虫不友好

如何提升爬虫次数

识别

在排名上,图文结合的网页比纯文字的好

文字:识别度最好的是文字

专业度

图片:只能识别出这是一张图,但是不清楚图片的内容

能够原创尽量原创、不要模糊、跟文字相关

链接:

HTML: 通过确定html来确定有哪些板块

扁平化结构

索引(收录)

什么是收录

网页合格,进入搜索引擎数据库

收录的作用

怎么查询收录

site:网址

站长之家

百度搜索资源平台-搜索服务-索引量

(最准确)

如何提升收录量(规则)

搜索引擎数据更新延时

每日产生的网页太多了,爬虫顾此失彼。所以会有一个优先级的处理机制

新站没有信任度

老站没有更新内容

要么是原创,要么非原创,内容搞多点

排序