英航发生史上最大规模延误,原因竟然是……

2017-07-04 16:56:30 admin 255

上半年最后一个假期——端午节已经结束了,有好多同事最近生物钟乱到内分泌失调,上周六因为忘了调闹钟迟到,周一又因为忘了调闹钟而赖床失败。但是,勤奋如小编我,已经迫不及待要跟你聊一聊引发腐国机场旅客超大面积滞留的IT系统故障。

上半年最后一个假期——端午节已经结束了,有好多同事最近生物钟乱到内分泌失调,上周六因为忘了调闹钟迟到,周一又因为忘了调闹钟而赖床失败。但是,勤奋如小编我,已经迫不及待要跟你聊一聊引发腐国机场旅客超大面积滞留的IT系统故障。

事情大致是这样的:

5月27日,英国航空的系统突然崩溃,无论是航班、行李、还是客服系统都无法正常运行,而且备用系统也没能发挥作用,这让英国航空被迫取消了超过 580 班航班,还有几百班航班必须延误,70 个国家的 170 个机场都受到影响,大约有 7.5 万乘客错过了他们的航班。图片关键词


4.jpg

看到你们这些整天坐飞机出去浪的小婊砸们最后只能跟小编一样哪也去不了,小编内心十(shu)分(fu)痛(duo)苦(le)。

不过,这得多么重大的IT系统故障,导致英国航空需要2天多时间都不能完全解决呢?

作为一个有经验的IT民工,小编深知,是时候搬来小板凳抱起爆米花看一场甩锅大戏了!

5.gif



一开始,英国航空CEO克鲁兹(Alex Cruz)便奋力一甩,企图把锅扔给了电力系统,然而过了两天又说是希思罗附近的数据中心供电短缺,最终导致瘫痪,并且备用系统也无济于事。

6.gif

电网公司也不是吃素的,马上表示这锅我不背,“电网公司新闻发言人在接受采访时表示,英国航空出现电力供应短缺应该是客户的问题,原因不在他们这边。”此时希思罗机场也干赶紧澄清,机场的私有电网周六没有出现任何问题。

7.gif


随后,英航也排除了网络攻击的可能性。


那么故障最终的真实原因是什么呢?

8.jpg

就在锅甩到失去方向的时候,有人把视线放到了一条新闻上:

“根据 BBC 的报道,2016 年英国航空裁撤了数百名 IT 员工,并将整个 IT 部门外包到了印度。


英国总工会负责航空国家官员 Mick Rix 表示“这些原本完全都能避免的”。2016 年 2 月他曾对英国航空的决定表示抗议。英国航空将 IT 部门外包的决策不仅造成约 800 名员工失业,根据 TechCrunch 的报道,随后出现的英国航空的新 IT 系统,在过去的一年里已经崩溃过五次,在 2016 年的 7 月和 9 月,英国航空也曾因为值机系统故障造成了严重的延误。”


What?IT外包是罪魁祸首?阿三哥被这突如其来的一锅砸得一脸懵【哔~】。

9.gif


英国航空作为一家老牌的航空公司,IT系统经历了几十年的建设和运营,很多系统的维护都得靠“人”,而不是靠“系统”或者所谓的平台能搞定的。IT投入的削减意味着随着运维团队的缩编,随着这些人被裁,接着转包,故障的发生也就在所难免。


那么我们如何以英航为鉴,在节约开支的同时避免此类悲剧的发生呢?


显然,你需要一套骞云科技的SmartCMP!

10.jpg

企业的IT运维, 除了要在技术上对运维人员有一定的要求,在管理流程上也要有相应的措施保障运维的精度和准度。通常我们建设好了一个系统,有了硬件,软件,上了虚拟化,云计算之后并不是万事大吉,这只是开始。我们还是需要一个可持续的运维管理系统,管理这些硬件资源,软件资源,虚拟化资源和云计算资源,SmartCMP就是这样一个可持续的运维管理系统。

11.jpg

除了对已有系统进行纳管,对新业务需求进行审核、审批和发布之外,所有运营系统的后续操作都可以在SmartCMP中进行申请和审批,包括开关机、重启、资源扩展、软件升级等等。


SmartCMP可以做到实时发布部署+Day2操作的可持续管理,有了SmartCMP,CIO再也不用担心运维人员的无心之举对系统造成的影响,以及对公司业务造成不可挽回的后果。