告警采集

26 views
Skip to first unread message

sky

unread,
Aug 26, 2009, 10:45:20 PM8/26/09
to EMS网管开发
前面提到过TRAP不可靠,这个文章的思路是正确的。
一个好的网管必需是主动轮巡,TRAP只能做为备用机制。

http://www.eccn.com/xsj07/xsj081322w.asp

测控通信网管系统中故障监测模块的设计与实现
谢卫华,向良军,郑林华,蔡理金
(同防科学技术大学 电子科学与工程学院 湖南 长沙 410073)

网络管理中的重要功能之一即为故障管理,包括故障的检测、定位、诊断以及故障的排除。而故障信息的监测和获取是保证能够实现这些步骤的前提,基于简单网
络管理协议(SNMP)的轮询(Polling)和事件通知(Trap)是获取这些信息的重要手段。SNMP++,AGENT++是HP公司
(Hewlett Packard Company)开发的关于SNMP的应用程序接口(API),由C++实现,完全是面向对象的思想,采用他开发网
管系统,简单方便,易于实现。

1 测控通信网管系统的总体结构

测控通信网络系统是一个由多种专业的测控与通信分系统构成的综合性的大型分布式网络系统,每个分系统之间既有一定的独立性,又相互支撑辅助,缺一不可。
每个分系统的正常运行直接影响到整个测控通信系统的正常运行。为了监视和维护整个测控系统,根据测控通信网各分系统的特点,设计了一个测控通信网管系
统。该网管系统的总体结构,如图1所示。

专业网管或者代理 响应来自服务器的设置(Set)和轮询(Get,Get-Next,Get-Bulk)请求。主动发送Trap以报告异步预定义的事
件。

服务器 负责使用SNMP协议与专业网管或者代理之间进行交互,包括接收来自被管设备主动发出的Trap、对被管设备进行状态轮询、收集被管设备的性能
数据、发现新的SNMP设备、将状态和性能数据以及拓扑发现的结果存人数据库中的相关表格,轮询时所需的参数从数据库读取。

控制台 完成与用户和服务器的交互,并提供图形用户界面(GUI),以此来表达实时性能信息、历史性能统计、故障报告、故障记录、值班日志、状态显示和
拓扑视图等。用户可以通过界面来创建或删除数据库表格、管理账户、添加或删除某个分系统和分设备、配置各个分系统轮询参数和专家意见库、设置服务器告警
门限、通过服务器发现和设置各代理设备。配置信息修改以后保存到相关的数据库表格之中。

事件机制 严格意义上讲事件机制不是软件的一个实体,而是指控制台与服务器进行相互交互的通信机制。这里利用SNMP的Trap来传递事件,作为控制台
与服务器之间的通信机制。这需要同时在双方的Mib库中定义相关事件的通知节点及所包含的对象节点,且需要在控制台打开一个Trap接收端口;而服务器
需要打开两个Trap接收接口,分别接收来自控制台和代理发送的Trap。服务器上报控制台的事件分为代理连接和设备发现事件、通知事件和阈值告警事
件、控制台登陆事件;控制台发送给服务器的事件则包括控制台登陆事件、启动发现或设置代理设备的事件。

2 故障监测模块的结构设计

故障管理定义中的核心问题是“故障”这个基本概念。故障指被管网络及其部件出现硬件或软件上的紊乱,需要网络管理动作进行修复。告警是故障的外在表现,
由厂商进行定义,采用约定的格式,从网络设备上的专业网管或者代理发出,可以被网络管理员观察到。告警预示着设备可能发生故障,对于每个上报的告警,都
应该做进一步的处理分析。通过告警来引导服务器对设备进行轮询,获取改备的性能参数以后,再判断此设备是否有故障发生,达到消除隐患和故障的目的。

服务器收集发生故障设备的数据以后,要对他进行处理,包括检测、隔离和修复三个步骤。对来自硬件设备或路径节点的报警进行监控、隔离、报告和分类存储,
迅速地分析性能和原因,在必要的时候启动控制和纠错功能,通过诊断、修理、测试、操作外围设备和备份来保证高度可用性。

很显然,确定一个网络设备是否处于正常的运行状态必须知道每个设备的“状态特征”,每个设备都应该有一个预先定义好的故障门限,与配置管理结合起来,
这 门限应该可以设置。要监控各个网络设备的状态,必须实时获取网络监测信息。故障监测的结构如图2所示。

3 专业网管的Trap事件

测控通信网中各个分系统所执行的功能各不相同,所包含的设备也各有差异。因此,各个代理所发送上来的事件通知(Trap)的类型也不相同。在要网管系统
中,各专业网管预先定义的Trap事件分为两类,服务器根据侦听到的Trap类型,做出不同的反应。

通知事件 这一类型的事件主要是各个子系统发生的一些具体事件通知给控制台。如程控分系统内,当有人打电话或者挂电话时,专业网管会把分机号、中继号等
相关信息封装成Trap-Pdu,以Trap的形式发送给服务器;又如,监控电视系统内,当某个摄像头旋转、打开或者关闭时,也会把此摄像头的云台号封
装成Trap-Pdu发送给服务器。由于这种Trap不能视为告警事件,因此服务器会直接转发给控制台,在控制台将事件呈观出来。

阈值告警事件 专业网管监视各个分设备的状态和性能,当分设备某个状态或性能参数出现异常时,如某调制解调器的工作状态、中心频率、收发速率不在正常范
围时,会将此参数封装成Trap-Pdu,以Trap的形式发送给服务器,以引导服务器对此分系统进行重点轮询,这就是下面要详细介绍的告警引导轮
询。

4 告警引导轮询

现有的SNMP(Simple Network Manage Protocol)网络管理系统,网络监测数据传送的主要方法是轮询和事件通知。网络管
理系统通过固定周期轮询代理的MIB和侦听来自代理的Trap消息,他们都占用较多的网络资源,增加了网络开销。在设计软件时考虑到通信网由多个分系统
组成,设备众多,需要采集的参数也非常多。为了减轻网络负担,但又能实时监控网络,同时不漏报故障,本文采用了阈值监测和动态轮询技术进行网络监测。通
过告警引导轮询,同时分析被管对象属性及其关联关系,根据收集到的被管对象状态变化情况,确定网络监测策略(如轮询周期等)。采用参考文献[4]所描述
的改进的故障监测算法实现故障监测,算法描述如下:

设单位间隔时间(定义每两个相邻采样点时间间隔为一个单位间隔时间)内被管对象i的状态值xi,t的改变量为△i,△i=xi,t-xi,(t-1),
设△i的阈值为δi,正常情况下xi,t-xi,(t-1)<δi,不发Trap,当xi,t-xi,(t-1)≥δi时,代理向服务器发送Trap。
在轮询与事件通知相结合的算法中,当服务器收到某个专业网管发来Trap后,在某个时刻触发服务器开始对此分系统的所有监测对象轮询,通过轮询获得t时
刻的ft=(x1,t,x2,t,…,xn,t)告警值,并根据告警函数ft做出是否向控制台发出告警消息的判断。告警条件就是判断告警函数是否超过告
警阈值。设告警函数有告警阈值T,当ft≥T,服务器向控制台报告告警消息;当ft≤T,认为分系统的被管对象状态正常。这里关键是怎样确定收到告警以
后启动轮询的最佳时刻。利用上一个时刻得到的被管对象的状态值和本次Trap发送的某个被管对象的更新状态值可以确定下一步的轮询间隔时间。设t为获得
xi,t的上一个轮询时间,令,如果在时间段[t,tm]内,服务器没有收到事件通知,则等待直到tm时刻开始轮询;如果在时间段[t,tm]内,例如
t′(t<t′<tm)时刻,服务器收到含有某被管对象j的状态值xj,t′的Trap,则计算:

上述算法没有考虑到网络发生异常时.可能有几个被管对象同时出现异常,而由一个事件通知触发的轮询代价要高于多个事件通知共同作用的结果。在实际中,我
们通过配置管理将每个分系统的MIB变量进行分组,每个分组可能是分系统中某个单独设备的状态性能参数,也可能是分系统中具有相同属性的一组参数。而网
络发生异常时,多个阈值告警来自同一个分组的概率显然要比分别来自不同分组的概率要小。因此,我们稍微修改原算法,即把原算法中每次有阈值告警时启动对
分系统所有被管对象轮询修改为只对发出告警的所在对象分组进行轮询。这样,即使在一个轮询时间间隔以内某个分组的多个对象发生告警,也会缩小轮询范围,
从而减轻网络负担,并且也有利于故障监测与定位。

当然,这种算法是针对专业网管中有Trap事件上报的情况而设计的;对于在正常范围内的设备,我们也需要知道其性能的变化。因此,服务器另外设计了一个
线程,以较长的周期对整个网络设备进行一次轮询作为备份的机制。

采用这种算法,可以降低采样频率,扩大轮询周期,减少轮询和事件通知的次数,减少对冗余数据的采集,能有效降低告警的漏报,明显降低网络的负担。

5 结 语

本文介绍了测控通信网网络管理系统的总体结构和故障监测模块的设计与实现。采用了一种故障监测算法来实现网络的动态临测。网管软件在Window
2000平台上利用VC++6.0,SNMP++,AGENT++开发,使用SQLServer 2000作为数据库平台。目前,此网管软件已经在某测
控通信网中得到应用。实践表明,采用这种监测算法的网管软件能有效监控测控通信网中的各分系统分设备的状态性能,快速检测到设备告警,在专家系统辅助系
统帮助或人工介入下,排除网络或者设备故障。

本文摘自《现代电子技术》

钱不够

unread,
Aug 28, 2009, 5:14:51 AM8/28/09
to ems...@googlegroups.com
楼主的trap作为备用的观点, 我有点疑虑,如果是采用轮询的作为主要的告警收集机制的话,势必会影响到告警的实时性,而且网元越多这种问题越明显。



2009/8/27 sky <shuha...@gmail.com>

Hailong Shu

unread,
Aug 28, 2009, 5:18:38 AM8/28/09
to ems...@googlegroups.com
 
第一,TRAP发后并不确认能不能收到,这就是TRAP的不可靠处。
第二,当大量告警在短时间内发送的的时候,TRAP更不可靠。
第三,TRAP备用的意思是,平时就轮训,TRAP来了立刻下去采一把。


 
2009/8/28 钱不够 <sjd...@gmail.com>
Reply all
Reply to author
Forward
0 new messages