Cloudflare 重大事故

摘要:整理汇总2025,2026年发生的Cloudflare重大事故

2025 年至 2026 年初,Cloudflare 经历了几次具有“里程碑”意义的严重事故。这些事故不仅导致全球大量顶级网站瘫痪,更暴露了现代互联网对单一基础设施供应商过度依赖的“单点故障”风险。

以下是这两年间最重大的事故整理及受影响点分析:


1. 2025年11月18日:全球级“配置爆炸”事故

这是 2025 年影响最深远、甚至导致 Cloudflare 官网都无法访问的“至暗时刻”。

  • 事故原因: 工程师在更新 ClickHouse 数据库集群的权限时,意外触发了一个逻辑错误。这导致用于“机器人管理 (Bot Management)”的特征文件(Feature File)体积瞬间翻倍,超过了边缘节点代理软件的硬编码处理上限(Hard Limit),引发全球代理服务崩溃。

  • 影响点:

    • 核心代理(Proxy): 几乎全球所有开启了“小云朵”代理的流量全部报 5xx 错误。

    • Cloudflare 官网与控制面板: 由于官网也运行在自己的网络上,导致用户无法登录后台进行“自救”(无法关闭代理或修改 DNS)。

    • 身份验证 (Access/Turnstile): 验证码系统失效,导致即便服务器没挂,用户也进不去。

  • 受影响平台: ChatGPT、X (Twitter)、Spotify、Shopify、Canva、Discord、LinkedIn


2. 2025年12月5日:防守反击导致的“自残”

在 11 月大事故仅两周后,Cloudflare 在试图修复一个行业漏洞时再次发生波动。

  • 事故原因: 为了防御针对 React Server Components (CVE-2025-55182) 的关键安全漏洞,Cloudflare 全球推送了一个 WAF(防火墙)缓冲区调整规则(从默认大小增加到 1MB)。由于该规则在某些老旧的 C++ 代理代码中触发了未预见的内存溢出,导致约 28% 的全球 HTTP 流量中断。

  • 影响点:

    • WAF 防火墙: 开启了高级安全防护的付费客户受影响最重。

    • API 流量: 许多移动端 App 的 API 接口因缓冲区错误而无法正常解析 JSON。

  • 受影响平台: Zoom、LinkedIn、各种加密货币交易所


3. 2026年2月20日:BGP 路由大撤回事故

进入 2026 年,事故从软件逻辑转向了更底层的网络协议(BGP)。

  • 事故原因: Cloudflare 尝试对 BYOIP (自带 IP) 业务的自动化流水线进行升级。结果由于代码 Bug,系统错误地向全球互联网发送了“撤回路由”的指令。

  • 影响点:

    • 网络连通性: 受影响的 IP 段在互联网上直接“消失”,没有任何路由可以到达。

    • 1.1.1.1 落地页: 连带导致 Cloudflare 著名的公共 DNS 官方页面出现 403 错误。

  • 受影响平台: Uber Eats、Bet365 (博彩平台)、Steam 登录服务、Microsoft Outlook 部分地区访问

故障维度受影响的系统组件用户感受
控制平面 (Control Plane)官网 (cloudflare.com)、Dashboard、API无法修改设置、无法导出日志、无法手动切走流量。
数据平面 (Data Plane)边缘代理 (FL2/Pingora)、WAF、Workers网站报 502/504 错误,Serverless 函数无法运行。
网络层 (Layer 3/4)BGP 广播、Magic Transit、Anycast域名解析正常但无法连接服务器,TCP 连接超时。
验证层 (Auth)Cloudflare Access、Zero Trust、Turnstile员工无法登录公司内部系统,用户卡在验证码环节。

事故日期持续时间核心原因主要影响来源
2025年11月18日约6小时数据库权限变更导致反机器人系统特征文件异常膨胀,超出流量路由软件的内存限制,致使核心代理系统崩溃六年最严重故障,全球超1万网站受影响,包括X、Reddit、ChatGPT、Shopify等。核心CDN、Turnstile验证、Workers KV等服务中断
2025年12月5日约25分钟防火墙(WAF)规则配置变更引发代码错误。为修复第三方漏洞调整配置时,意外导致代理服务返回HTTP 500错误影响约28%的全球HTTP流量,导致LinkedIn、Zoom、Canva等平台短暂中断
2026年2月20日约6小时“自帶IP”(BYOIP)服务内部清理任务代码错误,导致系统误删了约1100个客户IP前缀(BGP路由撤销),相关服务从互联网上“消失”BYOIP客户服务不可达,1.1.1.1网站显示403错误。核心CDN、Spectrum、Magic Transit等服务均受影响


评论