搜索引擎对页面的处理过程(重中之重)
百度看到的跟我们看到的其实是一样的,只是百度看到的是源代码,而我们看到的是浏览器翻译之后的可视化界面。
百度看到的跟我们看到的其实是一样的,只是百度看到的是源代码,而我们看到的是浏览器翻译之后的可视化界面。
百度的爬虫在爬取网页的过程,其实就是我们打开浏览器的过程。
所以自己制作爬虫,也是需要模拟成浏览器。
标题参与排名,现在keywords已经不参与排名
先爬取,然后识别,如果计算通过,合格就进行索引,排序
爬取(重中之重)
爬虫
1-3天、1-2周
百度搜索资源平台-搜索服务-链接提交
哪里可以看爬虫爬取次数
哪些情况会导致爬虫不友好
如何提升爬虫次数
识别
在排名上,图文结合的网页比纯文字的好
文字:识别度最好的是文字
专业度
图片:只能识别出这是一张图,但是不清楚图片的内容
能够原创尽量原创、不要模糊、跟文字相关
链接:
HTML: 通过确定html来确定有哪些板块
扁平化结构
索引(收录)
什么是收录
网页合格,进入搜索引擎数据库
收录的作用
怎么查询收录
site:网址
站长之家
百度搜索资源平台-搜索服务-索引量
(最准确)
如何提升收录量(规则)
搜索引擎数据更新延时
每日产生的网页太多了,爬虫顾此失彼。所以会有一个优先级的处理机制
新站没有信任度
老站没有更新内容
要么是原创,要么非原创,内容搞多点