Cloudflare 在 7 月 2 日晚上出现大规模故障,网上曾一度认为是大型黑客攻击。不过 Cloudflare 很快便澄清不是这原因,而是因为 Cloudflare 内部的软件更新出现设定错误所引发。
由于 Cloudfare 会定期更新 Web Application Firewall 的规则,从而应对不同的网络攻击。一般情况下,Cloudflare 也会先作模拟测试,确定没有问题才会套用在真实环境。
然而,当天 Cloudflare 没有作充足的模拟测试下将新规则套用在全球系统,结果因为一些配置上的错误,导致所有服务器的 CPU 使用率冲上 100%,所以才出现 502 Error。
最终,Cloudflare 用了 20 分钟时间找出问题,先将 Web Application Firewall 暂停,然后再回复。