黑群晖不定时失联, 排查故障过程记录.
本来安装好的群晖, 会不定时(几个小时-3天)的出现”失联”. 失联后所有服务无法访问, ping 不通, 在 ESXi 中关机也是一直卡在关机中.
排查过程中首先是怀疑我这台 DIY 主机的硬件问题.
进入 PE 跑 aida64 压力测试, 一晚上无异常. 单独跑 memtest86+, 也是一晚上未出现问题.
根据经验推测, 这种会导致整个系统无响应的故障一般是 io 错误.
因为只是群晖系统卡死, ESXi 正常访问. 所以开始怀疑是群晖硬盘休眠或某些群晖套件导致卡死.
关闭群晖硬盘休眠, 设置系统 panic 自动重启, 没有解决故障.
后来怀疑是自己安装的 ESXi 的社区版网卡驱动问题, 开始排查 ESXi 的问题. 故登入 SSH 执行 esxtop, 发现异常. 系统 USB 储存占用率 100%, 但读写速度均为 0.
检查发现 U 盘很烫, 后重新购买一个新的闪迪酷豆插在前置接口(防止受到主板温度影响), 至今 10 天稳定运行.(所以看来不是网卡驱动的问题…)
这种不定时出现的故障排查相对比较困难, 也比较费时, 更多的依靠经验吧.
2021.08.31 补充:
新买的 U 盘在连续工作 17 天后出现同样故障. 这次在 ESXi 的监控中也可以看到.
ESXi 在尝试还原连接的时候 io 卡死, 虚拟机无法访问.
我尝试重新插拔了 U 盘(见图), 才触发了 ESXi 的超时 fast-fail 功能, 否则系统将会一直卡死.
超时后群晖系统访问恢复正常.
其实群晖只有引导文件在 U 盘上, 真正的系统还是在硬盘上.
如果是物理黑群晖, 引导完成后 U 盘理论没有读写, 也不会掉盘. 可是 ESXi 会一直对 U 盘上的日志产生读写, 导致 U 盘掉盘并卡死.
解决方案: 购买一块傲腾 16 G (其实就是一块 SSD) 作为系统盘. 安装过程与 U 盘一样, 如果将来还是有问题就继续更新.
小容量 SSD 上安装引导并用于数据储存的方法如下.(注意: 对 U 盘无效, U 盘需要安装后再更改分区大小, 见 AIO Ep.4)
1 | ESXI7.0 第一次进入安装时, 按 Shift + O |
本文采用 CC BY-NC-SA 4.0 许可协议发布.
作者: lyc8503, 文章链接: https://blog.lyc8503.net/post/8-syno-down-troubleshooting/
如果本文给你带来了帮助或让你觉得有趣, 可以考虑赞助我¬_¬