Cloudflare首席执行官Matthew Prince随后解释了失败的原因是:“[A]我们这边的错误导致防火墙进程消耗过多的CPU。最初看起来像是一次攻击。我们能够关闭进程并使系统恢复正常。因此系统就不会再发生了。”Graham-Cumming和Prince都强调这种服务中断不是由攻击造成的。普林斯推文说,这不是Verizon边界网关协议网络问题的重演,上周困扰了Cloudflare和互联网。
这个简单的错误怎么会导致这么多问题呢?Cloudflare运营着一个非常受欢迎的内容分发网络(CDN)。当它正常工作时,其服务可以保护网站所有者免受峰值负载,评论垃圾邮件攻击和分布式拒绝服务(DDoS)攻击。当它不能正常工作时,我们会遇到类似这样的问题。
Cloudflare CDN的工作原理是优化向访问者提供的网站资源。Cloudflare通过向访问者提供来自其全球数据中心的网站静态来实现这一目标。您的Web服务器仅提供动态内容。此外,一般而言,Cloudflare的全球网络提供的网站访问速度比直接访问您网站的访问者更快。
其CDN是最受欢迎的此类服务,占有34.55%的市场份额。亚马逊CloudFront排名第二,有28.84%。拥有超过1600万个受Cloudflare保护的网站,包括BuzzFeed,Sling TV,Pinterest和Dropbox,当Cloudflare出现问题时,许多网站都被淘汰出局。
普林斯承认这个问题是有史以来最大的内部Cloudflare问题。普林斯推特:“这是独一无二的,因为它以我们以前从未见过的方式影响了主要系统和所有故障转移系统。未来将确保更好的隔离和支持。仍然能够找到根本原因。”该问题还影响了Cloudflare的DNS服务及其CDN。对Cloudflare而言,该公司正在承担责任并对出现问题保持透明。与此同时,这一集强调了互联网现在依赖于一些重要公司而不是许多点对点企业和机构的程度。