luckynumber72022-07-10 15:50:55

刚刚收到封Rogers CEO的信

 

>As you know, we experienced a service outage across the Rogers, Fido, Chatr and Cityfone wireless networks on Friday.

I am reaching out to share that our services have been restored, and our networks and systems are close to fully operational. Our technical teams are continuing to monitor for any remaining intermittent issues. I also want to outline an action plan we are putting in place to address what happened.

I want to share what we know about what happened on Friday. We now believe we’ve narrowed the cause to a network system failure following a maintenance update in our core network, which caused some of our routers to malfunction. We disconnected the specific equipment and redirected traffic, which allowed our network and services to come back online over time as we managed traffic volumes returning to normal levels.

 

邮件确定是Rogers内部维护核心网路配置时出现错误,造成网络瘫痪。

 

网上分析是BGP- Border Gateway Protocol (边界网关协议)问题。BGP 配置错误了,很搞笑的是cloudflare发布的报告都比Rogers自己的通知更专业。

简单说就是边界网关路由配置文件错误。核心BGP 配置错误更新,让网络流量流向不正确的节点。并在路由器之间广播更新路由配置。引起局部节点负荷过重而导致全网瘫痪。

由于Rogers内部通讯完全依赖Rogers自己的线路。断网时,内部之间都联系不上,完全没有后备方案。在的人没经验,即使有经验的也没权限,有权限的也没办法联系处理。才造成这么长时间的断网。

 

最近几次BGP配置错误导致全网瘫痪的例子:

2021年10月25日11点20分开始,韩国运营商KT的整个有线和无线互联网服务在全国范围内发生中断.割接时路由配置错误,导致全网瘫痪

 

 

2021-10-06 BGP错误配置导致脸书网络瘫痪

 

2021年11月29日BGPwatch通告了一起和AS18241(国家电网)有关的劫持事件。一起BGP劫持事件

 

2022年3月30日因俄罗斯电信公司 RTCOMM 的 BGP 配置错误,部分 Twitter 的流量短暂路由经过俄罗斯

 

2020年8月,CenturyLink的一个BGP路由错误已引起整个互联网出现连锁反应,导致无数与互联网连接的服务瘫痪。因 BGP 配置错误,美国网络大瘫痪:全球 web 流量下降 3.5%

 

2018年,ISP 配置 BGP 错误导致谷歌云瘫痪,中国电信背了黑锅。。

 

500miles2022-07-10 16:27:54
是不是应该给大家赔钱?加拿大的无线通信费用是全球最高的
luckynumber72022-07-10 16:40:47
是的,信里说的自动返还。