跳转到主要内容

提供商罗杰斯通信公司突然失去互联网服务,导致数百万加拿大人断开连接,并关闭了9-1-1服务、POS支付等服务超过一天,这给全球首席信息官带来了三大教训

2022年7月8日,加拿大罗杰斯ISP网络的一次拙劣维护更新导致全国互联网接入中断至少12小时,一些客户随后几天出现问题。

影响是深远的。全国范围的停电影响了约1220万客户的电话和互联网服务——约占加拿大互联网容量的25%——中断了Interac网络上的销售点借记支付,阻止罗杰斯移动电话用户访问9-1-1服务,中断了依赖在线支付的中转服务,甚至对多伦多依赖蜂窝GSM的交通信号造成严重破坏。

雪上加霜的是,停电甚至迫使加拿大音乐家《周末》推迟了他在多伦多罗杰斯中心世界巡回演出的第一站。

原因?正如罗杰斯随后向监管机构加拿大广播电视和电信委员会提交的文件所披露的,更新“删除了一个路由过滤器,并允许所有可能的互联网路由通过路由器……某些网络路由设备被淹没,超出其容量水平,然后无法路由流量,导致公共核心网络停止处理流量。”

尽管罗杰斯——加拿大主要的互联网、广播和移动无线公司之一——在一天内恢复了对大多数客户的服务,但服务的灾难性损失震惊了加拿大企业。一些,如农场和农业供应零售商Peavey Mart经营的大约100个网点,已经有了与其他互联网供应商的冗余访问。

因此,“只有两家商店在没有互联网连接的情况下受到直接影响,”该公司信息技术高级副总裁兼加拿大首席信息官协会副总裁Shaun Guthrie说。

“然而,我们的客户交易依赖Interac服务,这完全依赖罗杰斯,因此我们失去了使用借记卡付款的能力。”

不仅仅是一个国内问题

“我服务的一些非营利组织在一两天内失去了记录满足弱势群体需求的能力,”加拿大非营利组织虚拟首席信息官和战略技术顾问海伦·奈特(Helen Knight)说。“就我个人而言,我的孩子和我无法沟通。我13岁的女儿一直到晚上10点才回家,我担心她没办法回家。”

其他人则没有那么幸运。“作为一家生产水滑道和水上公园景点的全球性公司,罗杰斯网络中断对我们的影响确实超出了我们最初的想象,”WhiteWater West Industries的IT运营和服务台支持经理克里斯·帕森巴格(Chris Palsenbarg)说。“在海外旅行的员工甚至不能使用手机。”

Sapper Labs Group是一家加拿大网络安全/网络情报公司。“虽然我们公司没有受到罗杰斯停机的影响,但我们的许多合作伙伴、客户和竞争对手都受到了影响,”Sapper Labs首席情报官戴夫·麦克马洪(Dave McMahon)说。“一些组织尚未完全恢复。这在市场上产生了连锁反应。”

罗杰斯停电事件发生后,加拿大的首席信息官、IT主管和专家正在审查他们在未来应对此类故障的准备情况。他们的结论值得世界各地的首席信息官注意,他们都有可能在自己的国家遭遇类似的服务中断,无论是由于系统问题、入侵还是由于环境或其他原因导致的停电。

建立冗余

罗杰斯停电事件强调了冗余ISP接入的价值,尽管这样做的成本比仅仅依靠一个ISP接入要高。尽管一些公司对这一额外费用犹豫不决,但Peavey Mart接受在任何可能的情况下为冗余互联网接入付费的价值。该公司于2022年7月8日因其远见卓识而获得奖励。

罗杰斯ISP网络的故障也没有使公司蒙蔽双眼,因为“我们主动监控我们的数据通信状态,”Guthrie说。“因此,一旦商店受到停电的影响,它们就会通过我们支持SD-WAN的基础设施自动故障转移到辅助ISP。”

像加拿大救世军这样的非营利组织负担不起Peavey Mart使用的基础设施。但他们的首席信息官是坚定的专家,习惯于“使用免费软件和捐赠的硬件完成惊人的壮举,”奈特说。“他们已经习惯于陈旧的IT基础设施出现故障,因此他们通常需要依靠手动流程,”她说。

因此,加拿大非营利CIO可以应对ISP故障,至少在实际发生时是这样。奈特说:“停电造成的数据丢失将影响到他们以后,因为他们没有正确的记录显示他们为多少人服务过,并向捐赠者展示,这可能会影响未来的赠款。”。

在这种情况下,奈特认为罗杰斯的停电可能会改变非营利组织对冗余ISP接入的态度。“毕竟,多年来,对所有关键业务组件都有冗余连接是一种常见做法,因此,好消息是,现在非营利组织了解了一个他们可能没有考虑过的新风险领域,”她说。

“因此,如果这一事件让非营利组织认识到有必要让一位高级技术领导者参与决策,让他们的战略计划与技术路线图保持一致,那幺这很可能是最廉价、最简单的方式来吸取教训。这比面对网络入侵要好得多!”

检查供应商的备份计划

对于Sapper实验室,“罗杰斯的停电增强了我们对自己的架构和运行模式的信心,”麦克马洪说。但这种信心强化了一个观点,即公司的IT基础设施并不是孤立存在的。相反,它是ISP、云平台和其他通过互联网连接到企业的链中的一个环节。

因此,“罗杰斯停电的好处是确保供应链、合作伙伴和客户都做好了同样的准备,并有应急措施帮助他们维持业务运营,”他说。“有启发意义的是,停机立即揭示了谁是罗杰斯的客户,他们是否有其他通信手段,他们的网络安全成熟度水平,以及整个生态系统的关键相互依赖性。”

Peavey Mart在检查其数据供应链中的漏洞方面同样勤勉。“我们问我们所有的云提供商,他们有冗余吗?”格思里说。“他们的系统是否内置了故障切换到备份系统,他们是否制定了业务连续性计划,以便在发生故障时,他们的员工知道该怎么做?我们提前提出了这些问题。”

不幸的是,像Peavey Mart这样的零售商无权要求Interac这样的加拿大银行间大公司提供这样的答案。“因此,我们别无选择,只能假设Interac有这样的后备措施,但他们显然没有,”他说。

预计会出现更多ISP故障

罗杰斯在加拿大的停电事件解决后,政府进行了调查,媒体进行了负面报道,并引发了许多可预见的公众愤怒。但这些反应都无法改变一个非常简单的事实:ISP网络是由许多部分组成的复杂而庞大的系统,其对维护升级的响应无法完全模拟。

因此,即使在罗杰斯承诺做出的所有改进以及其他加拿大互联网服务提供商可能出于谨慎而效仿之后,“我毫不怀疑,我们可能会看到更多的失败,”Guthrie说。“我不知道会是谁,但我认为我们可能会在一年内看到更多的失败。”

在这种情况下,公司依赖ISP访问的首席信息官现在需要采取措施保护企业免受此类中断的影响。Dave McMahon认为,前进的道路是明确的:“双供应商和冗余独立系统是业界的最佳实践,”他说。

“这是高可用性系统的定义。这就是为什么所有Sapper Labs员工都已经拥有多种安全通信手段和在线协作能力。我们目前正在评估如何将类似的安全高保证解决方案扩展到我们的客户和合作伙伴。”

与此同时,首席信息官需要保持谦虚,不要高估他们提前计划此类事件的能力。

奈特说:“技术无处不在,非常复杂,过去几年,每个人和每个组织都面临着新的、复杂的技术挑战,虽然可以保护公司免受罗杰斯式的停机,但不可能或不符合成本效益地防范所有风险。”。“相反,这是一个量化每个风险的影响和紧迫性的问题,并为最关键的运营领域确定组织连续性计划的优先级。”

一句话:罗杰斯式的互联网服务提供商中断是一场危机,在未来几年内,可能会和世界各地公司的首席信息官面对。这就是为什么现在必须加强冗余系统并制定应急计划,以最小化和减轻这些通信故障对企业的不可避免影响。

本文:https://cioctocdo.com/what-cios-everywhere-can-learn-canadas-nationwide-internet-outage