友情提示:小程序,开发制作。

标签《运维》下的文章:

运维人员处理云服务器故障方法总结


记录一点心得供各位奋斗在一线的运维人员提供一点帮助.

遇到服务器故障,问题出现的原因很少可以一下就想到。建议大家从以下步骤入手:

一、尽可能搞清楚问题的前因后果

不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。

必须搞清楚的问题有:

  • 故障的表现是什么?无响应?报错?

  • 故障是什么时候发现的?

  • 故障是否可重现?

  • 有没有出现的规律(比如每小时出现一次)

  • 最后一次对整个平台进行更新的内容是什么(代码、服务器等)?

  • 故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)?

  • 基础架构(物理的、逻辑的)的文档是否能找到?

  • 是否有监控平台可用?

  • 是否有日志可以查看?

最后两个是最方便的信息来源,特别是日志系统,作...

阅读全文>>