AIO Ep8. 记一次 ESXi 黑群晖失联排查

 

黑群晖不定时失联, 排查故障过程记录.

本来安装好的群晖, 会不定时(几个小时-3天)的出现”失联”. 失联后所有服务无法访问, ping 不通, 在 ESXi 中关机也是一直卡在关机中.

排查过程中首先是怀疑我这台 DIY 主机的硬件问题.

进入 PE 跑 aida64 压力测试, 一晚上无异常. 单独跑 memtest86+, 也是一晚上未出现问题.

根据经验推测, 这种会导致整个系统无响应的故障一般是 io 错误.

因为只是群晖系统卡死, ESXi 正常访问. 所以开始怀疑是群晖硬盘休眠或某些群晖套件导致卡死.

关闭群晖硬盘休眠, 设置系统 panic 自动重启, 没有解决故障.

后来怀疑是自己安装的 ESXi 的社区版网卡驱动问题, 开始排查 ESXi 的问题. 故登入 SSH 执行 esxtop, 发现异常. 系统 USB 储存占用率 100%, 但读写速度均为 0.

检查发现 U 盘很烫, 后重新购买一个新的闪迪酷豆插在前置接口(防止受到主板温度影响), 至今 10 天稳定运行.(所以看来不是网卡驱动的问题…)

这种不定时出现的故障排查相对比较困难, 也比较费时, 更多的依靠经验吧.

2021.08.31 补充:

新买的 U 盘在连续工作 17 天后出现同样故障. 这次在 ESXi 的监控中也可以看到.

图片图片

ESXi 在尝试还原连接的时候 io 卡死, 虚拟机无法访问.

我尝试重新插拔了 U 盘(见图), 才触发了 ESXi 的超时 fast-fail 功能, 否则系统将会一直卡死.

超时后群晖系统访问恢复正常.

其实群晖只有引导文件在 U 盘上, 真正的系统还是在硬盘上.

如果是物理黑群晖, 引导完成后 U 盘理论没有读写, 也不会掉盘. 可是 ESXi 会一直对 U 盘上的日志产生读写, 导致 U 盘掉盘并卡死.

解决方案: 购买一块傲腾 16 G (其实就是一块 SSD) 作为系统盘. 安装过程与 U 盘一样, 如果将来还是有问题就继续更新.

小容量 SSD 上安装引导并用于数据储存的方法如下.(注意: 对 U 盘无效, U 盘需要安装后再更改分区大小, 见 AIO Ep.4)

1
2
3
4
5
6
ESXI7.0 第一次进入安装时, 按 Shift + O
在显示的 cdromBoot runweasel 后输入 autoPartitionOSDataSize=8192 注意大小写
8192 表示指定 OSDataSzie 为8GB, 再按Enter回车进行正常安装即可

对比6.7系统, 给出8GB完全可以满足VMware tools, scratch以及coredump空间的需求.
这样指定了空间大小, 就不会自动划分那么大的空间了

本文采用 CC BY-NC-SA 4.0 许可协议发布.

作者: lyc8503, 文章链接: https://blog.lyc8503.net/post/8-syno-down-troubleshooting/
如果本文给你带来了帮助或让你觉得有趣, 可以考虑赞助我¬_¬