Bosun告警推送到Nagios

Bosun 提供了自己的 Dashboard 页面,但是我们基本上都是用 LOG 模式,即告警不显示在页面上,而是如果该告警没有消除,则一直会操作 action (即会持续发送告警)。当时这么做的原因是,Bosun 的 Dashboard 页面,其实一般的告警接受者很少上去,界面 »

报警聚合邮件

情景 相信在日常的运维工作中,大家会经常遇到同一个故障类型,在短时间内同时发生在多个不同的主机,然后报警系统就会根据机器的数量发出N封邮件。 比如说第一封邮件显示"主机10.10.10.1在5分钟内丢包率超过50%",然后第二封邮件提示"主机10.10.10.2在5分钟内丢包率超 »

近来关于openTSDB/HBase的一些杂七杂八的调优

背景 过年前,寂寞哥给我三台机器,说搞个新的openTSDB集群。机器硬件是8核16G内存、3个146G磁盘做数据盘。 我说这太抠了,寂寞哥说之前的TSDB集群运行了两年,4台同样配置的机器,目前hdfs才用了40%,所以前期先用着这三台机器,不够再加。 于是我只好默默地搭好了C »

bosun grafana template

这篇文章是在上篇增加了bosun grafana plugin之后,在设置bosun的grafana dashboard时,发现了dashboard template的一个问题的临时处理办法的总结。 背景 比如我们在设置dashboard时,一般一个dashboard是有多个图的 »

bosun grafana plugin

最近一直在部署bosun监控项及报警系统,改写了不少指标值收集脚本,写了个自动部署脚本,目前已经在小范围内测试。越来越喜欢bosun的报警的强大及灵活性,但是还有觉得不太满意的是: 没有类似zabbix中的维护时间,只能用band函数取时间区段模拟,不过我们可以调用silence »

bosun安装记录

bosun是一个基于openTSDB的一个监控系统,它在openTSDB基础上增加了报警系统,解决了openTSDB只能看不能报警的弱点。 本文章只是简单记录了如何安装bosun(官网上的QuickStart只有用docker来部署的例子),及简单的监控项部署介绍。 HBase和 »