返回首页搜索引擎机制

分词算法

分词算法是处理文字,必用的算法,明白了这个,就能够对搜索引擎的原理有更深刻的了解。

分词算法是处理文字,必用的算法,明白了这个,就能够对搜索引擎的原理有更深刻的了解。

1、堆积关键词(以前)

在以前,堆积就可以排名,而且不堆积就没法排名。

而现在,堆积属于过度优化,会受到搜索引擎处罚

所谓的堆积,就是你在站内,不断地重复某个词语。因为以前,百度的算法不够牛逼,所以,看到那个网站的某个关键词多,就认为这个网站跟这个关键词的相关性更强。而实际上,这个网站,可能就是一直在堆积关键词,但对于用户,却并没有什么用处,对于用户的伤害是很大的。

2、分词算法原理(现在)

语义处理的一个底层算法。即“把一句话切割成词语“。

举个例子:“逸佳君是一个直男“就会被分成“逸佳君“、“是“、“一个“、“直男“。当有人搜索“逸佳君 直男“的时候,搜索引擎就会把含有“逸佳君“和“直男“的网页按照相关性排序全部展示出来。

再举个例子:

我们搜索:挖掘机培训 基地

百度切词:挖掘机 培训 基地 ,只要是含有这些词的页面,都有机会参与展现,但是不一定有排名

假设,现在有五个标题:

A:挖掘机价格

B:挖掘机培训价格

C:挖掘机培训基地

D:挖掘机培训学校基地

E:推土机价格

那么,就会根据上面切割好的词,进行筛选

首先是“挖掘机”这个词,E标题没有“挖掘机”这个词,去掉,不参与排名

接着是“培训”这个词,A标题没有“培训”这个词,排名靠后

最后是“基地”这个词,B标题没有“基地”这个词,排名靠后

最后剩下C和D,最匹配。