
记录一点心得供各位奋斗在一线的运维人员提供一点帮助.
遇到服务器故障,问题出现的原因很少可以一下就想到。建议大家从以下步骤入手:
一、尽可能搞清楚问题的前因后果
不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。
必须搞清楚的问题有:
- 故障的表现是什么?无响应?报错? 
- 故障是什么时候发现的? 
- 故障是否可重现? 
- 有没有出现的规律(比如每小时出现一次) 
- 最后一次对整个平台进行更新的内容是什么(代码、服务器等)? 
- 故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? 
- 基础架构(物理的、逻辑的)的文档是否能找到? 
- 是否有监控平台可用? 
- 是否有日志可以查看? 
最后两个是最方便的信息来源,特别是日志系统,作...
