返回首页网站优化实操

网站日志分析排查问题

有时候我们要进入某个地方,门卫会让我们做一个记录。就好像百度蜘蛛(爬虫)或者访问者进入站内,网站服务器就会留下一个记录,这个就是网站日志。定义就是:记录用户和搜索引擎对网站的访问行为。

有时候我们要进入某个地方,门卫会让我们做一个记录。就好像百度蜘蛛(爬虫)或者访问者进入站内,网站服务器就会留下一个记录,这个就是网站日志。定义就是:记录用户和搜索引擎对网站的访问行为。

我们为什么要分析网站日志呢?

通过它记录的信息排查问题,比如说,搜索引擎抓取我们的网站,抓取了哪些页面呢?可以直接通过页面看到,并且还可以看到抓取过程中遇到了什么问题。抓取过程中的问题主要通过http状态码404/403/5XX/4XX判断。404就是死链接问题,403说访问被拒绝,5XX就是服务器问题,4XX是其它错误。

网站日志能够更全面地看到所有的蜘蛛(百度、搜狗、360等)抓取和用户的访问。

什么情况下要分析日志?

新站-分析蜘蛛抓取

网站出问题了-比如流量下降、排名下降-分析日志

定期分析-定期分析查看网站有没有SEO问题,主动发现问题

网站日志在哪里下载?

文件格式后缀为.log

存放的目录为wwwlogs文件夹

下载方式:

1、阿里云/腾讯云虚拟主机

2、宝塔面板

宝塔面板的安全-web日志

点进去之后,有一个access.log就是访问的日志文件:

把这个文件下载下来。

日志分析步骤

1、excel表格导入数据

选择分隔符号:

然后勾选空格

可以看到预览区域已经变成一列一列的了。

然后在最上面新建一行,标注一下每一列代表的是什么?

2、筛选分析

删除/隐藏空白项,然后筛选、搜索,比如我要找出所有状态码为404的,或者筛选出来访者是百度蜘蛛baiduspider的:

日志分析项目

1、异常ip

频繁访问的ip地址,访问了哪些页面,可以选择屏蔽这个IP地址(通过筛选ip可以看到那个访问最多)

这个是没有问题的,但是如果是一秒钟之内访问了很多页面,就有可能有问题

那么如何屏蔽IP呢?

通过.htaccess文件写入以下代码:

2、异常状态码

404 可能有死链接/错误链接,就需要去提交死链接

5** 服务器是否有问题

301 重定向

提交死链接的方法

3、蜘蛛抓取

通过筛选baiduspider

正确识别百度蜘蛛:windows系统可以使用nslookup IP地址

有些是假的百度蜘蛛

4、被访问的页面

可以看到访问了哪些页面,就能知道哪些页面更受欢迎,可以在这些页面加入内链