Cloudflare突发故障

2025-11-19 21:26:35 标签：Cloudflare

　　北京时间 11 月 18 日 19 时许，全球知名网络基础设施服务商 Cloudflare 突发大规模故障，其提供的网站加速、安全保护等核心服务陷入异常。颇具讽刺意味的是，依赖 Cloudflare 服务的宕机追踪工具 Downdetector，以及 Cloudflare 自家的支持网站，均因此次故障一度离线，让用户难以通过常规渠道查询故障情况。

　　故障影响覆盖多领域，热门平台与核心功能受扰

　　此次故障的影响范围极为广泛，涵盖社交、AI、游戏、支付等多个核心互联网领域，全球大量用户的线上活动受到干扰：

　　核心互联网服务中断：OpenAI 旗下的 ChatGPT、Sora 等热门 AI 工具无法正常使用，马斯克创办的社交平台 X(前称推特)陷入瘫痪，用户无法刷新内容或发布动态;

　　游戏与数字商城停摆：国际服《英雄联盟》《无畏契约》等热门在线游戏出现服务器连接失败，玩家被迫中断对局，Epic 游戏商城也无法正常访问，影响用户购买与下载行为;

　　支付与出行功能异常：PayPal、Uber 等应用程序虽能正常加载主页，但核心功能受严重影响 ——PayPal 的支付转账功能、Uber 的订单下单与结算功能均出现间歇性故障，给用户的线上交易与出行安排带来不便。

　　故障原因正式披露，非网络攻击而是配置文件异常

　　Cloudflare 官方后续发布声明，披露了故障的核心原因，明确此次事件并非由网络攻击或恶意活动导致。故障的导火索是数据库系统权限变更，这一操作导致数据库向机器人管理系统使用的 “功能文件” 中输出大量额外条目，使得该文件大小翻倍。

　　由于 Cloudflare 网络中负责路由流量的软件对功能文件有明确大小限制，翻倍后的文件超出承载范围，直接导致软件失效。更特殊的是，该功能文件每五分钟会通过数据库集群自动生成一次，而集群正处于权限管理升级阶段，仅当查询运行在已更新的集群部分时才会生成错误文件，这使得网络中每隔一段时间就会交替出现正常与错误的配置文件，导致故障呈现 “自动恢复后又反复” 的特殊现象。

　　紧急处理与恢复进展：禁用局部服务，多小时后全面修复

　　故障发生后，Cloudflare 工程师迅速启动应急响应，为精准定位问题根源，短暂禁用了伦敦地区的 WARP 访问服务，该地区用户通过 WARP 连接互联网时会遭遇连接失败。

　　团队最初曾怀疑故障由超大规模 DDoS 攻击引发，随后通过排查锁定了配置文件异常的核心问题。北京时间 11 月 18 日 22:30 左右，工程师停止了错误功能文件的生成与传播，手动插入已知正常的文件并强制重启核心代理，核心网络流量基本恢复正常。截至 11 月 19 日 01:06，Cloudflare 的所有系统已完全恢复正常运行，此前受影响的各类平台与服务也陆续恢复稳定，伦敦地区的 WARP 访问限制也已解除。

　　此次故障再次凸显了核心互联网基础设施对全球数字生态的重要性，Cloudflare 作为服务数百万网站的关键服务商，其短暂宕机便引发连锁反应，也让行业对网络系统的冗余设计与故障应急机制有了更高的关注。