几个月以来,Ganglia 监控总是有一些上图所示的情况,经查是 RRD database 中保存了异常数据。正常情况下,19 秒的 bytes_in/out 大概是 1e+07 量级,pkts_in/out 大概是 1e+04 量级,但经常有一些高达 1e+16/1e+17 的异常数据。这些数据的 pkts_in 和 bytes_in 总是相等或者很接近,显然每个包一个字节是不可能的,因此一定是数据收集过程中出了问题(是溢出吗?)。几乎每台被监控的主机都有一些这样的异常数据,但除网络以外的其他指标没有发现异常数据。
大家在使用网络监控工具的过程中是否遇到过异常数据问题?是否有办法在 rrdtool 画图的时候通过参数,过滤掉这些异常数据?
<!-- 2014-03-25 21:31:50 CST / 1395754310 --> <row><v>2.7669225918e+17</v></row>
<!-- 2014-03-25 21:32:00 CST / 1395754320 --> <row><v>4.6115376531e+17</v></row>
<!-- 2014-03-25 21:32:10 CST / 1395754330 --> <row><v>4.6115376531e+17</v></row>
<!-- 2014-03-25 21:32:20 CST / 1395754340 --> <row><v>4.6115376531e+17</v></row>
<!-- 2014-03-25 21:32:30 CST / 1395754350 --> <row><v>1.8446150612e+17</v></row>
<!-- 2014-03-25 21:32:00 CST / 1395754320 --> <row><v>1.8446150612e+17</v></row>
<!-- 2014-03-25 21:32:40 CST / 1395754360 --> <row><v>2.7669225918e+17</v></row>
<!-- 2014-03-25 21:33:20 CST / 1395754400 --> <row><v>4.6115376531e+16</v></row>
<!-- 2014-03-25 21:31:50 CST / 1395754310 --> <row><v>2.7669225919e+17</v></row>
<!-- 2014-03-25 21:32:00 CST / 1395754320 --> <row><v>4.6115376531e+17</v></row>
<!-- 2014-03-25 21:32:10 CST / 1395754330 --> <row><v>4.6115376531e+17</v></row>
<!-- 2014-03-25 21:32:20 CST / 1395754340 --> <row><v>4.6115376531e+17</v></row>
<!-- 2014-03-25 21:32:30 CST / 1395754350 --> <row><v>1.8446150613e+17</v></row>
<!-- 2014-03-25 21:32:00 CST / 1395754320 --> <row><v>1.8446150614e+17</v></row>
<!-- 2014-03-25 21:32:40 CST / 1395754360 --> <row><v>2.7669225919e+17</v></row>
<!-- 2014-03-25 21:33:20 CST / 1395754400 --> <row><v>4.6115376550e+16</v></row>
bytes_out 和 pkts_out 也是很相近甚至完全相同的异常值。