黑群晖NAS血泪史后续:大容量硬盘频繁掉盘(100%占用0读写)解决方案 您所在的位置:网站首页 群晖的cpu占用率总是很高 黑群晖NAS血泪史后续:大容量硬盘频繁掉盘(100%占用0读写)解决方案

黑群晖NAS血泪史后续:大容量硬盘频繁掉盘(100%占用0读写)解决方案

2023-08-14 22:57| 来源: 网络整理| 查看: 265

接上次书:https://www.bilibili.com/read/cv6930885

        UP主把数据恢复,系统重装之后的几天之内,6T的硬盘又陆续掉了三次盘,这波我真的把PCIE卡固定牢固了,中途也和另外一只2T的硬盘交换过SATA线,6TB盘照掉不误。

        这次掉盘可把我折腾惨了,这里先说解决方案供遇到此类问题的大佬们参考:关闭IPV6网络协议(这是个偏方,但是很有效)。

 

反选画圈项

        下边是我解决问题的折腾过程和对问题原因的一些推测:

 

服务器环境:

        1、Win10作为宿主机,仅安装Vmware Workstation 15 Pro 和一套简单的Web服务。

        2、群晖NAS作为寄宿系统安装在VM下,开启CPU虚拟化。

        3、群晖挂载1个50M虚拟磁盘作为引导盘、1个8G虚拟磁盘作为系统盘,另挂载1个150G的虚拟磁盘、直通1个2TB机械盘和1个6T机械盘(本此次事故的主角)作为仓库盘。

 

故障表现:

        无论是挂在群晖上还是挂在Win10上边,6TB硬盘都会有一个隐性BUG,不访问或轻度访问时一切正常,满速拷贝大概超过一分钟后就会出现0读取、0写入但是持续100%占用的情况,并且此时硬盘分区无法操作,持续若干秒(不固定)后恢复,而后过若干秒再次重复上述情况,数据越集中,频次越高(见图)。

        挂在群晖上情况比挂在Win10严重,群晖开机即100%占用,拷贝文件直接卡哭我,连关机都点不到。

排查过程:

        首先排除SMR,这块6TB企业盘我是多方求证包括官方也查过的,不是SMR盘,上述情况是我在格式化后空盘测试连续读写时发生的,与SMR的卡顿并不是同一种情形。

        第二,数据线和供电我也有做排查和交换测试,均无问题。

        第三,坏道检测,用DiskGenius检查坏道的时候一路过去都是优,但是因为测试要连续满速读取,所以Bug会直接把检测软件卡死无响应,记住区块位置后结束软件进程重开,从卡死的区块往回推算一段继续测试,仍然是一路优,虽然测着测着继续卡死,但并没有测出坏道。

        排除以上三点以后就只剩兼容性问题了,主板、群晖、VMware、Win10其中有一者或者多者不支持这块6T盘。

        1、主板方面经过官网求证后是支持6TB硬盘的。

        2、群晖安装的是DS3617XS固件,无疑也是支持的。

        3、VMware15之前的版本不支持2TB以上的物理盘直通,但是15以后就支持了,我的是15.5 Pro,无疑也是支持的。

        就剩下Win 10 这货了,随即上网查了资料,果然有和我相似的案例,0读取、0写入但是持续100%占用,该案例中提出了三种解决方案:

        1、更新主板SATA控制器到官方最新版本,而不是使用微软的兼容驱动;

        2、关闭IPV6(但没有解释原理,经过上网查资料也没有找到相关解答);

        3、修改Win10注册表,禁用MSISupported。

        首先我的SATA控制器是Nvidia芯片,经验证驱动是官方最新,所以和这个没关系。

        然后重点来了,关闭IPV6这个操作虽然看似风马牛不相及,但却药到病除,注册表都省得改了,而我在网上找的那个案例也是做到改IPV6这步就好了的。

        之后在群晖下对6TB盘直通,进行了连续拷入、读取100多个1G文件的测试,再也没有出现过100%占用和0读写的情况,至此问题解决。

2TB和6TB硬盘对拷,虽然速度不稳定,但是没有卡顿现象

        我甚至怀疑之前那次系统崩盘并不是因为我碰到主机以后PCIE拓展卡掉了,分明就是Win10这个Bug导致的,当时我使用了一段时间6T盘以后觉得没啥问题,所以就把一些重要的数据库服务、Web服务、群晖应用、Home文件群都迁移进去了,随着服务的增多,6T盘的读写压力陡增,然后进入100%占用的Bug状态,VMware一直得不到6T盘的响应,达到计时门限后程序看门狗把进程跳转到掉盘处理子程序,向桌面弹出硬盘无法访问的对话框并给群晖发送了一个硬盘失去联系的信号,群晖卡死,系统崩盘,之后的几次掉盘也都是故技重施,只不过因为没有安装系统服务,只是6T盘崩了,系统盘安然无恙。

        最后个人主观的推测一下关闭IPV6疗法是个什么原理,仅供参考:

        我这个主板它是捡来的,推断大概是十余年前的产物了,板载总共提供了2个SATA口,却有4道内存槽、1道PCIEx16、2道PCIEx1、4道PCI插槽。看出问题了吧?主板商把为数不多的PCI管线分配了个精光,而那会儿的主板BIOS对PCI中断编号的设置也完全有可能没虑过SATA拓展卡的存在,于是留下IRQ冲突的隐患了,而我这好巧不巧在添加第三块硬盘以后系统中断不够用了,6TB盘的IRQ和网卡IPV6的IRQ冲突,两者抢占资源,轮流卡顿。

        写下此文,仅供和我遇到相同或类似问题的大佬们参考。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有