注册 | 登录 忘记密码? 51cto首页 | 博客 | 论坛 | 招聘
热点文章 小五思科技术学习笔记之SSH
 帮助

Cdn间隙性故障总结


2008-05-06 21:49:47
 标签:故障 linux cdn   [推送到技术圈]

版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://sery.blog.51cto.com/10037/75399
Cdn间隙性故障总结
                                         作者:田逸(sery@163.com)
 
2008/5/6早上7:09,使用cdn加速网站的用户来电话反应网站不能访问,后来没几分钟又正常了.通过查看流量,发现在这个时间点流量急剧下降.
 
登录天津的机器61.X.X.9, 查系统日志/var/log/messages squid缓存日志/usr/local/squid/var/logs/cache,皆发现 “May  6 09:07:06 ccryzcnc01 squid[31527]: WARNING: All dnsserver processes are busy. May  6 09:07:06 ccryzcnc01 squid[31527]: WARNING: up to 20 pending requests queued , May  6 09:07:09 ccryzcnc01 squid[31527]: dnsSubmit: queue overload, rejecting images.28.com ”这样的问题.再往上查这个服务器的父节点,于是登录squid配置文件定义的父cache(济南),未发现异常.
 
返回天津的机器61.X.X.9,查看其使用的dns服务器是那个(/etc/resolv.conf文件或者用nslookup www.163.com得出首选dns服务器的ip) ,然后登录dns服务器124.X.X.46.查看系统日志 /var/log/messages,无异常.bind目录看配置文件 named.conf,知道其日志文件的位置/var/named/chroot/var/named/named.log,检查日志文件在569点以后的访问情况,发现在9:07这一分钟内的dns 查询请求特别多,统计一下: grep "May 06 09:07" named.logs |wc –l 得出这60秒内的访问请求达26981,平均每秒400多次.这些请求多数是ldap用户发来的,再过滤一下,看是哪些机器发得最多:
grep "May 06 09:07" named.logs | grep ldap | awk '{print $6}'| awk -F# '{print $1}'| sort -r| uniq -c | sort -nr| head  输出结果:
 dns请求前10
请求次数
ip
备注
114
125.X.x.43
 
111
61.X.X.13
 
109
123.X.X.163
 
107
58.X.X.26
 
105
59.X.X.8
 
104
218.X.X.76
 
103
59.X.X.7
 
103
58.X.X.40
 
99
121.X.X.163
 
98
121.X.X.94
 
 
 

本文出自 “sery” 博客,请务必保留此出处http://sery.blog.51cto.com/10037/75399





    文章评论
 
2008-05-06 21:54:45
咋感觉米有写完尼。。。
这个troubleshooting都要手动枚举么?没有比较成熟的监控产品啊。。。?

2008-05-06 22:01:25
我写这个是给出一个故障诊断的方法

2008-05-06 22:02:14
伯劳.秋香   (447877614) 22:21:14
结论是网通机房闪断 所有的ldap认证失败
伯劳.秋香   (447877614) 22:21:46
然后客户端(cdn服务器)拼命的请求DNS
伯劳.秋香   (447877614) 22:22:10
把DNS忙死了

老大就是厉害。。。。这么快就看明白故障的原因了

2008-05-07 08:56:01
老大,什么时候出一本书啊。
好像跟你学····

2008-05-10 08:31:24
很喜欢高人的文章~~

2008-05-11 16:54:06
强烈支持!秋香师傅

 

发表评论

昵   称:
验证码:  点击图片可刷新验证码  博客过2级,无需填写验证码
内   容: