网吧里的ap 明明显示“在线”,可看着流量曲线像沉睡的一般,根本没动一下。

网吧里的AP明明显示“在线”,可看着流量曲线像沉睡的一般,根本没动一下。运维人员接到告警后立马开查,看了眼组网情况就明白不能瞎猜。首先得确定用户真的连上网了没,工程师挨个登录到AC上,用telnet连进每台AP去执行命令查用户列表,发现确实都在连,AP也没死机报错。接着用MG-Soft这软件去抓SNMP流量,对着所有AP的无线收发节点不停轮询这两个OID值。1.3.6.1.4.1.3902.154.8.11.1.3.1.1.3.7.1.106是接收,1.3.6.1.4.1.3902.154.8.11.1.3.1.1.3.7.1.107是发送,这两号连续10分钟采集下来愣是一点波动都没有。 这么看肯定不是大家临时不玩手机导致的流量低谷,而是数据包压根就没传到SNMP那里。打开日志一看确实没报错,snmpd进程也没重启过。但仔细一看端口162的情况就不对劲了,排队的待处理消息堆了足足116640条还不再变了,彻底堵死了。用netstat命令一查端口队列满了顶格,数据包全都被积压在那里吃灰。 工程师立刻决定杀进程重启来疏通一下,直接强制杀掉snmpd后队列清零,网管上的流量数据终于开始动了起来,业务也立马恢复正常。为了彻底解决这隐患,接下来得给snmpd软件升级到最新的稳定版,还要去调整配置里的重传策略和队列长度参数,把这个端口被塞满的风险给彻底排除干净。