加入收藏 | 设为首页 | 会员中心 | 我要投稿 网站开发网_马鞍山站长网 (https://www.0555zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

如何挖掘Nginx日志中隐藏的金矿?

发布时间:2021-01-08 07:18:06 所属栏目:站长百科 来源:网络整理
导读:副标题#e# 《如何挖掘Nginx日志中隐藏的金矿?》要点: 本文介绍了如何挖掘Nginx日志中隐藏的金矿?,希望对您有用。如果有疑问,可以联系我们。 对很多开发运维人员来说,Nginx日志文件在被删除前可能都不会看上一眼.但实际上,Nginx隐藏了相当丰富的信息,或

SEO团队抱怨优化了那么久,为什么页面索引量和排名上不去.打印出不同爬虫的请求频次($http_user_agent),或者查看某个特定的页面,最近有没有被爬虫爬过:

less main.log | egrep 'spider|bot' | awk '{name=$17;if(index ($15,"spider")>0){name=$15};spiders[name]++} END{for(name in spiders) {printf("%s %sn",spiders[name],name)}}' | sort -nr

数据告诉我们,页面索引量上不去,不一定是某个爬虫未检索到页面,更多的是其他原因.

市场团队要上一个新品并且做促销活动,你建议避开周一周五,因为周三周四的转化率更高:

awk命令

周三、周四的转换率比周末高不少,可能跟平台的发货周期有关,客户周三四下单,希望周末就能收到货,开始快乐的周末.你猜测到用户的心理和期望,连数据一起交市场品团队,期待更好地改善.

这样的例子可以有很多.事实上,上述分析限于Nginx日志,如果有系统日志,并且日志格式定义良好,可以做的事情远不止于此:这是一个时间序列数据库,可以查询IT系统的运行情况,可以分析营销活动的效果,也可以预测业务数据的趋势;这是一个比较小但够用的大数据源,运用你学会的大数据分析方法,也可以像滴滴那样,分并预测不同天气、时间段下不同地区的车辆供需,并作出优化.

几点建议

  1. 规范日志格式.这是很多团队容易忽略的地方,有时候多一个空格会让日志分析的复杂度大为增加.
  2. 无论如何,使用时间戳字段.以时间序列的方式看待日志文件,这也是很多公司把系统日志直接写入到时间序列数据库的原因;
  3. 如有可能,记录以下字段:用户(或者客户端)标识、单次请求标识、应用标识(如果单次请求会走到多个应用).能够方便地查出用户链路、请求链路,是排查错误请求、分析用户行为的基础;
  4. 关注写的操作.就像业务建模时,需要特别关注具有时标性、状态会发生改变的模型一样,任何写的操作,都应记录到日志系统中.万一某个业务出错,不但可以通过业务模型复演,也可以通过日志系统复演.
  5. 规范URL格式.这一点同样容易遭到忽略,商品详情页面要不要添加”?from=XXX”来源参数?支付页面采用路径标记“payment/alipay”,还是参数标记“/payment?type=alipay”更合适?区别细微但影响不可忽略.

技术团队应该像对待协议一样对待这些规范.仔细定义并严格遵守,相当于拿到了金矿的钥匙.

(编辑:网站开发网_马鞍山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!