2021-10-06 BGP错误配置导致脸书网络瘫痪
论消防斧和其它破门工具对数据中心机房的重要性
在举国欢庆的这几天里,米国的互联网界发生了一件大事,FB因为BGP配置错误导致整个网络瘫痪,所有的业务都不能访问,网络中断时间近6个小时以后才恢复正常。虽然这件事情对咱们完全没有影响,但是了解问题的原因也有助于咱们自己防范类似的问题发生。 网络上已经有很多问题原因的分析,包括FB自己发布的问题报告,简单归纳就是BGP配置错误,withdraw了自己DNS服务的地址,导致依赖DNS服务的业务都不可用,虽然BGP配置命令下发前有Audit流程,也有出现问题的回滚机制,但是都没有发挥作用。更可气的是门禁系统由于DNS服务不可用也失效,工作人员手工配置服务器也由于门禁失效、机房无法进入的原因无法进行操作。最后的结果是从网络失效到工作人员手工配置网络,重新发布BGP路由,最终业务慢慢恢复足足花了6个小时的时间,从千眼的BGP监控可以看到问题从发生到最终解决的全过程。 不知道工作人员在门禁失效的情况下在现场破门而入花了多长时间,不过一方面数据中心和云计算服务提供商往往宣传自身数据中心的安全性,门禁系统是如何的严密,客户信息是如何得到严密的保护,但是紧急情况下消防斧和其它破门工具对数据中心机房而言还是非常重要的,万一电脑控制的这些东西都失效了,还是需要物理手段来解决问题。
|