跳转到主要内容

同样的系统不断出现故障,影子 IT 正在兴起,想法不再流动——当然,不幸的是在等待那些忽视即将到来的 IT 厄运的早期迹象的人。

您的 IT 部门可能有一些问题,如果您不尽快处理它,您可能会遇到灾难。

现在情况可能看起来不错。但是警告信号已经存在;你只是还没有注意到它们。


网络突然出现故障,简单的问题需要更长的时间才能解决,有些事情只是不断地出现故障。每一次大规模的代码发布都伴随着大量的错误修复。影子 IT 现在一切照旧。你是最后一个听到商业战略变化的人。

当您的员工离开,您的网站下线,您的用户已经在云中建立了自己的数据中心,黑客已经将您的客户记录放在暗网上出售时,为时已晚。


以下是潜在厄运的早期预警信号——以及如何避免它们。忽略它们,后果自负。

1.用户停止抱怨


您可能认为减少投诉是一件好事。你可能错了,Alvaka Networks 的首席执行官 Oli Thordarson 说,该公司为需要 24/7 全天候运行的中型企业提供 IT 服务。

他说,更少的投诉通常意味着用户已经放弃了解决问题的希望——这可能导致各种不良后果。

“帮助请求的减少并不总是意味着经理做得很好,”他说。 “这通常意味着用户社区对那个 IT 团队失去了信心。接下来是发展影子 IT、替代用户支持机制,然后可能是解雇和人员改组。”

Thordarson 说,当用户抱怨时,这意味着他们希望 IT 商店能够响应他们的需求。每个组织在任何时候都有一定数量的开放票;诀窍是建立投诉的基线,然后密切关注该数字是否发生巨大变化。

投诉增加可能是由于大升级或其他重大变化;支持请求数量的减少可能是由于流程的重大改进或一些长期存在的问题得到解决。

“但如果你不能回答它们为什么会上涨或下跌的问题,那就意味着你有一个大问题,”他说。

2. 午餐室突然挤满了陌生人


如果您在工作中吃午饭并且周围都是您不认识的人,那么您的组织很有可能收购了另一家公司而没有告诉您。

此次收购可能对组织有利,也可能不会。无论哪种方式,您的团队都可能需要搁置战略项目并花时间整合新收购公司的系统和数据。这会削弱你的创新能力。

房地产网站 Trulia 的工程副总裁 Deep Varma 在 2000 年代中期在雅虎工作时亲眼目睹了这一点。那是搜索门户网站收购广告技术公司 Overture 以及许多其他小公司的时候。

“雅虎收购了许多大大小小的公司,因此我们大部分时间都花在整合上,而不是寻找提高搜索关键字相关性和质量的方法,”他说。 “当我在那里的时候,我的员工总是说,‘天哪,我花了这么多时间做整合’。这大大减慢了创新。”

诚然,很多事情都超出了你的控制——你不能完全告诉 CEO 停止收购公司。但是您可以集成业务领导者真正需要的部分,例如分析,同时保持产品、路线图和业务部门分开。

“Zillow Group [Trulia 的母公司] 多年来进行了许多收购,但我们的战略通常是创建一个可以独立存在的品牌组合,”他说。

虽然 Varma 仍然忠于他曾经认识的雅虎,但他表示,该公司并没有从战略上考虑每次收购如何适应其整体业务,因此停止了创新。这导致了它的最终灭亡。

3. 你一直在解决同样的问题


让组织的 IT 团队屈服,这很少是一次戏剧性的失败。更常见的是技术债务的微妙、无情的积累。

xMatters 的运营总监 Adam Serediuk 说:“深夜的隐藏工作、轻微但无法解释的中断、简单的任务需要越来越长的时间才能完成——在组织中经常发生因剪纸而死亡的情况。”平台。

Serediuk 承认,任何组织都存在一定程度的低效率,大多数流程都以效率换取效率。但是,当相同的系统不断地反复发生故障,而没有人采取积极措施来防止它发生时,它就会形成一个难以爬出的漏洞。结果通常是员工倦怠和高流失率。

“总有那么一刻,有人决定离开一个组织,”他说。 “就像他们花了整整一周的时间第 10 次处理同一个问题,招聘人员在 LinkedIn 上向他们发送了一条消息。就像,‘你知道吗?我受够了。’然后他们继续前进。”

如果可以的话,最好的解决方案是抛弃有问题的旧系统并重新开始使用新系统。

“当正确的方法就在眼前时,很容易陷入沉没成本谬误的陷阱:利用从那次经验中学到的知识进行重建并使其变得更好,”他说。 “技术变化太快,无法延续过去的错误。”

4. 你发送的代码太多


LinkedIn 网站可靠性团队的工程副总裁布鲁诺·康纳利 (Bruno Connelly) 说,当你发布大量的单体代码时,会大大增加出错的可能性——并冒着可能导致整个系统崩溃的级联效应。

他说:“虽然一次将所有内容都搞定很诱人,但带有大量微小更改的大块代码要处理起来要复杂得多。” “当出现问题时,它可能会引发其他更系统性的故障。”

他说,最好以相对较少的更改发布少量代码,并更频繁地发布。

“我们已经优化了我们的系统,以尽可能多地发送代码,”他说。 “我们尝试不断地发布少量代码。在验证一切仍然具有相同的性能特征和下游依赖性方面,这确实提升了我们的游戏水平。”

专业人士的社交网络还通过刻意模拟意外系统故障,确保为意外系统故障做好准备。去年 11 月,该网站推出了其 LinkedOut 框架,该框架允许可靠性工程师人为地触发应用程序中的故障,以查看服务如何优雅地处理它。

每天一次,LinkedIn 还强制其主要数据中心之一进行故障转移,以确保它有足够的容量和适当的自动化来抵御实际的数据中心灾难。

“如果你对自己在故障转移场景中的生存能力不是超级自信,那是另一个警告信号,”他补充道。 “你需要通过不断地接受失败来适应失败。”

5. 员工不再带着想法来找你


当你挑战你的团队以解决棘手的问题或想出新的策略时,你听到的只是蟋蟀,你知道你手上的士气问题很严重。

“如果经理和用户带着想法和热情的解决方案向 CIO 提出建议,那么这位经理在领导和管理方面做得很好,”Thordarson 说。 “当用户放弃提出新想法时,他们要么对 CIO 失去信心,要么创建了影子 IT。”

这可能源于经理未能鼓励协作和实验的文化、缺乏成熟度或自负。

“我见过整个 IT 团队似乎都蔑视其他人的公司,”他补充道。 “如果你开始认为你的雇主只是你从事交易和探索新技术的东道主,那么你对你的公司来说不是一个很好的资产,可能是时候引入一位新的领导者了。”

Serediuk 说,员工可能不愿意提出新想法,因为他们已经筋疲力尽了。

“当团队精疲力竭时,你会遇到非常不愿意改变的情况,即使这种改变改善了他们自己的生活,”Serediuk 说。 “他们会假设它会失败,因为这是他们迄今为止的经验。迄今为止的每一次变化都让他们的生活变得更糟,那么为什么这次会有所不同呢?你需要能够看到这一点并做出适当的反应。”

6. 你从 cc: 列表中掉了下来


对于 IT 管理,没有消息绝对不是好消息。如果您不了解重要的管理决策或参与 C 级战略会议,那么您就有问题了。

“没有被邀请参加高层管理会议是一个关键信号,你已经脱离中介,不再与公司相关,”Thordarson 说。 “很明显,他们不信任你,也不认为你有任何贡献。”

一些责任归咎于 IT 经理,他们没有意识到,为了获得管理层的尊重,他们需要根据业务成果来界定技术问题,Thordarson 补充道。

“你不能只说‘我们需要新路由器,因为网络真的很慢’,或者说新软件,因为你必须每晚都重建数据库,”他说。 “但如果你告诉他们每晚重建数据库每年要花费他们 200 万美元,你就知道他们会做出回应。”

人工智能驱动的分析公司 ThoughtSpot 的首席数据布道师 Doug Bordonaro 表示,CIO 常常迷恋于基础设施,而忽略了更大的业务图景。

“传统上,首席信息官专注于安全、合规、数据管理和其他基础任务,”他说。 “在当今的数字经济中,这已经不够好了。如果您没有在数据货币化、启用业务线以及在整个组织中宣传数据的力量上花费相同的时间,那么您可能不会长期担任 CIO。”

7. 你的团队正遭受警觉疲劳


IT 经理知道他们需要持续实时监控关键业务系统。但是有太多警报几乎和没有警报一样糟糕。

“您可能有 100 台服务器或 5,000 台服务器,但您的监控仪表板始终有 30 个打开的警报,”Serediuk 说。 “它们可能只是信息性的或已知的问题,但你仍然有这 30 个红框盯着你。因此,当弹出一个严重警报时,您将如何将其与仅是噪音的 30 个区分开来?”

基于云的监控平台 SignalFx 的解决方案工程负责人 John Bruce 说,警报疲劳有两个潜在的严重问题。一是 IT 经理最终会忽略嘈杂的警报,包括潜在的严重警报。另一个是倦怠和损耗。

他回忆起访问了一个潜在的 SignalFx 客户,该客户仍在使用旧工具来监控基于云的动态托管平台。

“他们用来进行监控的系统噪音太大,以至于他们的操作人员完全筋疲力尽,”布鲁斯说。 “如果你经常在凌晨 3 点或 4 点被传呼误报,那可不是什么好感觉。”

Serediuk 说,经理需要检查他们积压的问题并确定它们的优先级,最重视可能影响客户的问题,而这反过来又会影响他们。

布鲁斯说,关键是要积极主动,在问题开始影响用户之前使用指标作为预警信号。

“你需要早期指标表明,‘好吧,这项服务看起来正在退化;我能做些什么来防止这种情况发生?而不是,“好的,服务器和客户端服务已关闭;我们需要跳进去扑灭这场大火。”

 

8. FBI 就在您家门口

每个 CIO 和 CISO 都在考虑数据泄漏和安全漏洞,但他们应该寻找什么并不总是很明显。网络安全专家兼 BugCrowd 顾问 Paul Moreno 表示,大的安全问题通常伴随着大量的小信号。 例如:莫名其妙的系统性能问题或高于平常的数据流出量可能表明攻击者正试图从您的公司窃取信息。来自新位置的登录尝试突然激增可能意味着正在尝试破坏您的客户数据库。对您的 API 或管理端点的异常请求可能表明有人试图入侵您的网络。 “如果您不监控上述任何一项,那将是一个很好的起点,”他说。 “对内部管理端点进行更高灵敏度的监控甚至自主触发(例如锁定)对于任何安全装甲都至关重要。” 这也有助于积极主动。实施双重身份验证可以防止窃贼使用被盗密码。漏洞赏金计划可以帮助在坏人之前识别漏洞,特别是如果您的组织发布了负责任的范围和披露指南。此外,安全情报提供商可以扫描暗网,并在他们发现黑客可以利用的妥协迹象时提醒您。 但最可靠(也是最坏)的迹象是什么? “让 FBI 特工或安全提供商联系您的组织,检查最近获取的与您的数据库仓库中的任何内容相匹配的数据,”Moreno 说。 “这通常是确认数据泄露已经发生。”

原文:https://www.cio.com/article/228351/8-early-warning-signs-of-it-disaster.html

本文:

标签