跳转到主要内容

希望升级其云战略的企业正在转向这一新兴框架,以优化性能并管理在云中开展业务的成本。

任何参与软件产品创建的人都应该非常熟悉 DevOps,这是一套结合软件开发和 IT 运营的实践,旨在缩短开发生命周期并提供持续交付和高质量的产品。

随着企业越来越多地将应用程序开发和工作负载转移到云中,并且这些云支出变得更加复杂,已经出现了一个相关的概念,即“云操作”CloudOps。

在这里,我们将研究 CloudOps 是什么,它如何使您的组织受益,以及在您的企业中实施 CloudOps 时应牢记的关键问题。

什么是云运维?


CloudOps 是一种运营实践,用于管理在云环境中运行的 IT 服务和工作负载的交付、优化和性能。

无论企业是采用多云、混合云还是私有云战略,CloudOps 都旨在为基于云的流程建立程序和最佳实践,这与 DevOps 为应用程序开发和交付所做的方式非常相似。

CloudOps:云操作的多层框架


“Holistic CloudOps 是一个具有多个层次的框架,可帮助企业管理其云生态系统的各个方面,”咨询公司 Capgemini Americas 的副总裁兼云卓越中心负责人 Jason Hatch 说。

一个是治理层,其中包括财务运营(也称为 FinOps)等活动,以控制成本和管理云预算。 “治理层还应该包含关于如何以及在云中部署什么的架构标准,并有办法以编程方式执行这些标准,”Hatch 说。

其他框架层包括云应用层,它涵盖了组织如何在云中部署和管理/监控应用程序和特定于应用程序的服务;云运营层,用于云服务的部署、管理、监控和运营;云基础层,包括身份、网络管理、日志记录、中央备份管理、基础设施即代码和中央监控功能等核心服务。

“跨越所有这些层的是‘安全层’,其中包括漏洞和威胁管理、工作负载保护以及与公司更大的网络安全管理功能的集成,”Hatch 说。

CloudOps 适合企业的地方


CloudOps 模型与应用程序交付特别相关,许多组织都在关注旨在增加销售额和增强客户体验的数字计划。

“CloudOps 将构建、部署、运营、监控和管理云中 [web] 应用程序交付功能的五项首要职责结合在一起,”云提供商 Replicon 工程和运营执行副总裁 Suresh Kuppahally 说——基于服务。

Kuppahally 说,网络、计算、安全和存储是在初始构建和设计阶段必须牢记的四个关键组件。 “从那里,公司要么自动部署他们的应用程序,要么通过持续集成和持续交付部署他们的应用程序,”他说。

Kuppahally 说,组织的 CloudOps 团队还应明确区分职责和独立于工程或产品团队,并补充说这样做使 CloudOps 能够带来“组织内的透明度和服务质量 [QoS] 问责制”。

CloudOps 的好处


Capgemini 的 Hatch 表示,CloudOps 的商业利益是相当可观的,首先是组织对云服务的整体部署。

CloudOps“有助于推动企业内部进一步采用和使用云。如果公司能够有效地部署、管理和保护他们的云环境,它应该增加他们对云的使用,并提供对新服务和技术进行试验和创新的能力,”他说。 “这反过来又可以使他们更加敏捷,提供更快的上市时间,并有助于推动创新。”

Hatch 补充说,利用 CloudOps 的组织还可以对他们使用的越来越多的云服务实现更好的管理和财务控制。

“我们不断从客户那里听到他们超出了他们的云预算,他们要么不知道为什么,要么无法实施控制来管理它,”Hatch 说。 “有效的 CloudOps [有助于] 缓解这种情况。在治理层,我们可以实施更好的预算和财务跟踪和优化。这在运营层面也得到了促进,部署和管理的自动化程度更高。”

咨询公司 Protiviti 的客户引用的另一个最大好处是能够在云中自动释放授权资源,该公司的董事总经理 Will Thomas 说,该公司帮助组织管理云计算日益复杂的问题。

Thomas 说,增强的安全性是 CloudOps 的另一个关键优势,因为该模型“确保与安全控制、标准和/或框架保持一致,并建立可以限制不合规行为的策略,同时报告云中的健康和活动。”

Thomas 还认为,实施 CloudOps 的公司能够更好地优化其云环境,因为“CloudOps 工程师将专注于利用云中的授权资源,通过最新和最优质的服务实现应用程序的现代化,”他说。

此外,部署 CloudOps 的组织可以根据性能和成本考虑制定适当的资源分配时间表;持续报告和审查有关云健康状况的指标;他说,支持主动配置资源,同时保持云中的法规遵从性。

Replicon 的 Kuppahally 指出 CloudOps 能够在不影响 QoS 的情况下经济有效地扩展云服务。 “使 QoS 目标和 CloudOps 投资保持一致是非常具有战略意义的,”他说,因为“可以激励专门的 CloudOps 团队来管理运营成本,因此将在降低运营成本方面获得既得利益。”

CloudOps 在实践中


Stretto 是一家受益于采用 CloudOps 的公司。 Stretto 首席技术官 George Tsounis 说,这家服务于企业和消费者破产部门的破产服务和技术公司很早就确定了对 CloudOps 实践的需求,并将关键原则纳入其在云中运行的应用程序和系统中。

“例如,我们制定了严格、快速的规则,我们只会将基础设施即代码 [IaC] 实践用于任何部署,”Tsounis 说。 “我们通过决定我们所有的应用程序/系统将始终跨两个可用区运行来实现冗余,因此我们利用了云提供商的内置高可用性功能。”

Tsounis 说,Stretto 战略的关键部分是利用 CloudOps 实践来确保对其技术运营采取更积极主动的方法。 “我们更愿意授权我们的架构师和工程师为我们的内部和外部客户创建高性能、自我修复和弹性的云原生解决方案,而不是继续以被动的方式运营,”他说。

Tsounis 说,云服务的引入,甚至是向无服务器功能过渡的过程都带来了独特的挑战。 “CloudOps 是帮助我们应对这些挑战的战略,”他说。

CloudOps 最终为 Stretto 带来的好处包括降低成本、可扩展性、自动化、简化的灾难恢复以及随着基础架构成为应用程序的一部分而无缝集成。

Tsounis 说:“我们的团队受益于应用程序的全面改进,这些 CloudOps 理念已被采用。” “CloudOps 实践也提高了质量。这可以通过利用 IaC 方法使云基础架构的部署和配置可重复来实现。随着我们在各种环境中推出应用程序,我们减少了配置错误,现在利用 IaC 拥有一致的基础架构配置。”

Tsounis 说,Stretto 通过取消对其云基础设施的手动配置,质量问题减少了大约 20%。

“利用 CloupOps 实践为工程师提供了他们需要知道的应用程序/系统行为在预生产环境中发布到生产环境时将是相同的信心,”他说。 “此外,由于我们的应用程序质量改进,服务台和内部工单减少,我们看到了整体 IT 运营改进。”

跟上不断发展的方法论


在云服务及其使用方式方面,没有什么是一成不变的,因此采用 CloudOps 的组织需要定期调整他们的方法以跟上变化。

对于许多企业来说,这仍然是一个需要克服学习曲线的新领域。 “随着越来越多的企业采用真正的多云部署,他们的 CloudOps 实施也需要成熟和扩展,”Capgemini 的 Hatch 说。 “许多客户在孤岛中管理他们的云环境,使用不同的工具和流程管理每个云环境,而从整体上查看整个云环境的能力极低。”

为了更加高效和有效,“公司需要开发他们的 CloudOps 框架,以便能够轻松插入新的云提供商和服务,同时仍然提供适当级别的管理、监控和运营严谨性,”Hatch 说。

Kuppahally 说,公司在云中处理事件管理的方式也可以使用改进。

“这是大多数 CloudOps 团队都在苦苦挣扎的领域,”他说。 “他们充斥着内部和外部事件,并且无法有效管理它们。拥有专门的项目管理 [流程] 来简化事件管理分类和优先级排序是降低风险的方法之一。”

同时,组织需要降低事件误报率。 “当 CloudOps 团队无法跟上高误报率时,他们就会淹死,”Kuppahally 说。 “制定有效的策略和计划来减少或消除误报是非常关键的成功因素。”

研究和教育服务提供商 Wiley 的执行副总裁兼首席技术官 Aref Matin 表示,CloudOps 可以从人工智能 (AI) 和机器学习等技术中受益。

“通过机器学习,CloudOps 工具可以帮助定义企业范围的策略,检测和报告异常情况,并以自动化的方式采取纠正措施,以维护云最佳实践策略,”Matin 说。

云运维文化


与 DevOps 一样,CloudOps 的成功很大程度上取决于培养一种旨在充分利用框架和工具的文化。随着越来越多的组织将更多的工作和流程转移到云端,他们需要专注于构建 CloudOps 专业知识。

“大多数客户在处理云时处于反应状态,无法响应事件、更改或对新服务的请求,”Protiviti 的 Thomas 说。 “CloudOps 为通过自动化启用的部署建立了结构,允许监控、审查和优化现有资源,并检查公司政策以与云保持一致。”

Stretto 的 Tsounis 同意,组织需要“更广泛地了解适当的组织结构、专业知识和协作 [for] CloudOps 才能真正发挥作用。”

“CloudOps 不是一个单独的团队或部门。 IT、安全、架构和应用程序团队需要协作并在常见的 CloudOps 实践上保持一致,”首席技术官说。 “如果这些团队在孤岛中工作,CloudOps 就不能很好地工作。”

根据他将 CloudOps 付诸实践的经验,Tsounis 认为,组织还需要更好地定义 CloudOps 所需的基本技能才能取得成功,而不是重新发明轮子。

“技术团队需要了解基于云的架构、网络、安全和自动化,”他说。 “如果没有基础技能,团队可能会冒险在已经存在云服务的情况下实施解决方案。”

本文:https://cio.ceo/cloudops-framework-optimizing-your-cloud-operations