公司内网突然变慢,视频会议卡成幻灯片,文件传输动不动就断,这类问题几乎每个IT运维都遇到过。光靠重启设备解决不了根本问题,得有一套清晰的网络异常分析方法才能快速定位症结。
从现象入手,缩小排查范围
用户反馈“上不了网”其实很模糊。是全部网站打不开?还是某个系统访问不了?或者只是网页加载慢?先确认是全局性问题还是局部现象。比如某个楼层无法上网,大概率是接入层交换机或光纤链路的问题;如果是全公司都慢,就得查核心设备和出口带宽。
用最基础的 ping 和 traceroute 就能发现不少线索。比如持续丢包可能指向链路不稳定,而某跳延迟突增往往说明中间节点存在瓶颈。
抓包不是高手专属,日常也能用
很多人觉得抓包太专业,其实 Wireshark 配合简单过滤就能看出门道。比如发现大量 TCP Retransmission,基本可以判断网络中存在丢包或延迟;如果看到很多 ARP 请求广播,可能是 IP 冲突或环路。
tcpdump -i eth0 host 192.168.1.100 and port 80 -w capture.pcap
这条命令就能把指定主机的 HTTP 流量保存下来,后续导入 Wireshark 分析细节。别小看这种定向抓包,很多时候问题就出在某个异常重传或连接拒绝上。
监控数据比临时排查更靠谱
等出事再查,永远被动。部署简单的 SNMP 监控,把核心交换机的端口流量、CPU 使用率、错误包数量记下来,趋势一出来,异常点立马显现。比如某天下午三点开始接口错包猛增,结合日志发现是机房空调故障导致设备过热,这种因果关系临时排查很难发现。
还可以加个 NetFlow 或 sFlow 采集,看看谁在占带宽。曾经有次发现业务系统变慢,结果查流数据发现是有人偷偷接了台NAS在下班时间自动同步几百GB视频,占满了上行链路。
别忽视配置变更的影响
上周还好好的,这周出问题?优先查变更记录。一条 ACL 规则写错,可能导致某个子网被误拦截;路由表加了条静态路由,可能让流量绕了远路。版本管理做好了,回滚也快。
有个案例:升级完防火墙策略后,ERP 系统访问变慢。抓包发现是双向路径不对称,返回包被另一台设备处理,状态检测失败导致大量连接重建。这种问题不看配置变化,光盯着性能指标根本找不到根。
分层思维是关键
物理层、数据链路层、网络层、传输层,一层层往下捋。先看网线是不是松了,光模块有没有告警;再查 MAC 地址漂移、VLAN 划分对不对;接着看路由通不通,ARP 表正不正常;最后才到 TCP 连接、应用响应。按这个顺序走,不容易乱。
比如服务器响应慢,别急着查代码。先确认是不是网络层丢包严重,或者客户端与服务端之间的 RTT 是否异常升高。有时候问题根本不在这台机器,而是中间某个老旧汇聚交换机背板带宽撑不住了。