网站日志分析排查问题
有时候我们要进入某个地方,门卫会让我们做一个记录。就好像百度蜘蛛(爬虫)或者访问者进入站内,网站服务器就会留下一个记录,这个就是网站日志。定义就是:记录用户和搜索引擎对网站的访问行为。
有时候我们要进入某个地方,门卫会让我们做一个记录。就好像百度蜘蛛(爬虫)或者访问者进入站内,网站服务器就会留下一个记录,这个就是网站日志。定义就是:记录用户和搜索引擎对网站的访问行为。
我们为什么要分析网站日志呢?
通过它记录的信息排查问题,比如说,搜索引擎抓取我们的网站,抓取了哪些页面呢?可以直接通过页面看到,并且还可以看到抓取过程中遇到了什么问题。抓取过程中的问题主要通过http状态码404/403/5XX/4XX判断。404就是死链接问题,403说访问被拒绝,5XX就是服务器问题,4XX是其它错误。
网站日志能够更全面地看到所有的蜘蛛(百度、搜狗、360等)抓取和用户的访问。
什么情况下要分析日志?
新站-分析蜘蛛抓取
网站出问题了-比如流量下降、排名下降-分析日志
定期分析-定期分析查看网站有没有SEO问题,主动发现问题
网站日志在哪里下载?
文件格式后缀为.log
存放的目录为wwwlogs文件夹
下载方式:
1、阿里云/腾讯云虚拟主机
2、宝塔面板
宝塔面板的安全-web日志
点进去之后,有一个access.log就是访问的日志文件:
把这个文件下载下来。
日志分析步骤
1、excel表格导入数据
选择分隔符号:
然后勾选空格
可以看到预览区域已经变成一列一列的了。
然后在最上面新建一行,标注一下每一列代表的是什么?
2、筛选分析
删除/隐藏空白项,然后筛选、搜索,比如我要找出所有状态码为404的,或者筛选出来访者是百度蜘蛛baiduspider的:
日志分析项目
1、异常ip
频繁访问的ip地址,访问了哪些页面,可以选择屏蔽这个IP地址(通过筛选ip可以看到那个访问最多)
这个是没有问题的,但是如果是一秒钟之内访问了很多页面,就有可能有问题
那么如何屏蔽IP呢?
通过.htaccess文件写入以下代码:
2、异常状态码
404 可能有死链接/错误链接,就需要去提交死链接
5** 服务器是否有问题
301 重定向
提交死链接的方法
3、蜘蛛抓取
通过筛选baiduspider
正确识别百度蜘蛛:windows系统可以使用nslookup IP地址
有些是假的百度蜘蛛
4、被访问的页面
可以看到访问了哪些页面,就能知道哪些页面更受欢迎,可以在这些页面加入内链