你需要的第一条信息是停机或效率变慢发生的范围以及产生了什么样的影响。就像是网络问题可能是因为踩线而影响了一台PC或小的群集。
如果同一问题影响到了多位用户,可以排除环境变量,比如本地PC上的软件误操作或硬件问题。
如果你有多个网站,它们全部受影响吗?这样可以确定问题是否在于本地服务器。
是服务器引起的问题吗?
不同的部门之间倾向于相互指责。系统管理员会将服务前台缓慢的应用程序响应归咎于网络;网络管理员抱怨存储区域网络(SAN);存储管理员指责软件部门。如果你正在解决一个问题——尤其是像应用程序变慢这类无法确定原因所在的问题——那么,确定数据中心里哪些区域的基础设施受到了影响。当多个服务器和应用程序发生故障,通常可以排除服务器问题,真正的问题可能来自网络或存储阵列。虚拟化环境中,检查所有受影响的虚拟机的物理主机位置,确保它们没有共享受损的硬件。
通过排除,结果最终通常会指向某个明确的罪魁祸首,但并非总是如此。发现问题的共性,尝试不同的因素组合,以缩小可能性。例如,问题可能源于文件共享时复制时间过长。如果在相同站点上,从一台服务器复制到另一台服务器时,是否也很缓慢?如果是的话,可排除广域网络的嫌疑。在服务器上的本地磁盘之间复制过程是否缓慢?如果是的话,可排除SAN或局域网的嫌疑。如果你不得不使用数据包捕获
或输入/输出(I/O)速度测试,故障排除可能需要很长时间。