摘要:整理汇总2025,2026年发生的Cloudflare重大事故
以下是这两年间最重大的事故整理及受影响点分析:
这是 2025 年影响最深远、甚至导致 Cloudflare 官网都无法访问的“至暗时刻”。
事故原因: 工程师在更新 ClickHouse 数据库集群的权限时,意外触发了一个逻辑错误。这导致用于“机器人管理 (Bot Management)”的特征文件(Feature File)体积瞬间翻倍,超过了边缘节点代理软件的硬编码处理上限(Hard Limit),引发全球代理服务崩溃。
影响点:
核心代理(Proxy): 几乎全球所有开启了“小云朵”代理的流量全部报 5xx 错误。
Cloudflare 官网与控制面板: 由于官网也运行在自己的网络上,导致用户无法登录后台进行“自救”(无法关闭代理或修改 DNS)。
身份验证 (Access/Turnstile): 验证码系统失效,导致即便服务器没挂,用户也进不去。
受影响平台: ChatGPT、X (Twitter)、Spotify、Shopify、Canva、Discord、LinkedIn。
在 11 月大事故仅两周后,Cloudflare 在试图修复一个行业漏洞时再次发生波动。
事故原因: 为了防御针对 React Server Components (CVE-2025-55182) 的关键安全漏洞,Cloudflare 全球推送了一个 WAF(防火墙)缓冲区调整规则(从默认大小增加到 1MB)。由于该规则在某些老旧的 C++ 代理代码中触发了未预见的内存溢出,导致约 28% 的全球 HTTP 流量中断。
影响点:
WAF 防火墙: 开启了高级安全防护的付费客户受影响最重。
API 流量: 许多移动端 App 的 API 接口因缓冲区错误而无法正常解析 JSON。
受影响平台: Zoom、LinkedIn、各种加密货币交易所。
进入 2026 年,事故从软件逻辑转向了更底层的网络协议(BGP)。
事故原因: Cloudflare 尝试对 BYOIP (自带 IP) 业务的自动化流水线进行升级。结果由于代码 Bug,系统错误地向全球互联网发送了“撤回路由”的指令。
影响点:
网络连通性: 受影响的 IP 段在互联网上直接“消失”,没有任何路由可以到达。
1.1.1.1 落地页: 连带导致 Cloudflare 著名的公共 DNS 官方页面出现 403 错误。
受影响平台: Uber Eats、Bet365 (博彩平台)、Steam 登录服务、Microsoft Outlook 部分地区访问。
| 故障维度 | 受影响的系统组件 | 用户感受 |
| 控制平面 (Control Plane) | 官网 (cloudflare.com)、Dashboard、API | 无法修改设置、无法导出日志、无法手动切走流量。 |
| 数据平面 (Data Plane) | 边缘代理 (FL2/Pingora)、WAF、Workers | 网站报 502/504 错误,Serverless 函数无法运行。 |
| 网络层 (Layer 3/4) | BGP 广播、Magic Transit、Anycast | 域名解析正常但无法连接服务器,TCP 连接超时。 |
| 验证层 (Auth) | Cloudflare Access、Zero Trust、Turnstile | 员工无法登录公司内部系统,用户卡在验证码环节。 |