加入收藏 | 设为首页 | 会员中心 | 我要投稿 网站开发网_马鞍山站长网 (https://www.0555zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解

发布时间:2019-05-16 02:55:17 所属栏目:教程 来源:中国联通大数据
导读:副标题#e# 在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中,我们介绍了目前联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件组成,并且着重详述了以Grafana为核心的图形化展示功能。 本文继续针对运维监控体系的另一重要内

运维人员常用的发送告警工具有短信、邮件、企业微信和钉钉,之所以选择钉钉的原因如下:

  • 短信:一般是通过往oracle插入告警信息走短信网关发送;优点是及时高效,但缺点是oracle支持的并发量有限。
  • 邮件:邮件告警的及时性是一个很大的问题,并且如果没有合理设置阈值,邮件轰炸会影响其他工作邮件的阅读。
  • 企业微信:企业微信不存在短信网关的并发限制,但弊端在于告警条数有限。
  • 钉钉:有强大的分组功能且不限制告警条数;可按项目创建告警群,也方便解除。

使用钉钉作为告警接收工具,简单来说就是在钉钉群聊中配置机器人,每个机器人会有一条唯一的webhook,当接收到来自Alertmanager的告警后就可以发送到手机端。本文不再详述钉钉机器人的配置,感兴趣的同学可以自行到网上查阅资料。

五、补充知识点

作为运维人员,做得最多的工作就是日常巡检、故障恢复。公司集群规模越庞大,故障发生率和故障实例数也会成倍增加,相信每个运维人都体会过节假日被临时召唤修复故障的经历。这里,笔者额外贡献一条“自动化恢复”小贴士,解放随时等待召唤的运维er,你值得拥有:

自动化简易流程:通过采集分析Prometheus里的告警数据,利用fabric或ansible等多线程安全并发远程连接工具,执行相关角色实例的恢复工作。

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解

Fabric建立连接执行恢复命令。

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解

目前自动化恢复涉及的集群日常运维操作有:

  • 计算节点检测出使用swap交换分区,将会自动清理swap分区,并关闭swap分区。
  • 计算节点检测出时钟偏差,将会自动纠偏时钟偏差。
  • cloudera manager代理挂掉,将会自动重启。
  • 主机检测出有坏盘,坏盘更换完成后,自动恢复。
  • 角色实例检测出异常掉线,自动恢复上线。
  • 集群存在多个节点多块磁盘存储剩余空间不足,自动进行磁盘级别的数据balancer。
  • 集群存储达到阈值,自动进行节点级别的数据balancer。

需要提示的是,自动化恢复的适用场景很多,但并不适用于罕见故障且该故障有一定概率会影响到平台部分功能性能的情况,建议大家使用前严谨权衡、对症下药。

【本文是51CTO专栏机构中国联通大数据的原创文章,微信公众号“中国联通大数据( id: unibigdata)”】

戳这里,看该作者更多好文

(编辑:网站开发网_马鞍山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!