NVIDIA最新发布的RTX 5090和RTX PRO 6000显卡近日被曝存在严重虚拟化漏洞。据wccftech报道,该漏洞会导致显卡完全无响应,必须物理重启主机系统才能恢复。
GPU云服务商CloudRift率先在生产环境中发现了这一问题。他们在多台搭载Blackwell芯片的系统上复现了该故障后,发布了详细的技术分析报告,并设立1000美元奖金公开征集解决方案。
技术分析显示,该漏洞出现在GPU通过KVM和VFIO传递给虚拟机后。当虚拟机关闭或GPU重新分配时,主机系统发出的PCIe功能级重置(FLR)无法使显卡恢复正常状态。系统日志显示"FLR后65535毫秒仍未就绪;放弃"的错误提示,此时显卡完全失去响应,甚至无法被lspci工具识别。
值得注意的是,AI初创公司Tiny Corp也独立验证了这一漏洞,并质疑Blackwell架构是否存在硬件缺陷。社区讨论中,多位RTX 5090早期用户报告了类似问题,包括Windows虚拟机关闭后导致整个主机系统挂起等异常情况。
目前测试表明,调整PCIe ASPM或ACS设置均无法解决该问题。值得庆幸的是,旧款显卡如RTX 4090尚未出现类似报告,暗示该漏洞可能仅限于NVIDIA Blackwell系列产品。