到目前为止,AIOps非常好,至少在迄今为止的实现中是如此。一个调查的200名IT经理说,他们谁已经与工具或工作实践中说,这是帮助他们管理自己的IT毛球。OpsRamp发布的这项调查显示,87%的人认为AIOps工具“通过主动的IT运营和改善的混合基础架构弹性来提供价值”。由于OpsRamp是AIOps工具的提供者,因此他们有理由鼓吹这些结果。同时,数据指向最佳部署AIOps的位置,并且一些问题仍然取得进展。
让我们从AIOps计划遇到的问题开始。这些问题反映了人工智能和机器学习的一般问题 - 构建值得信赖的数据集,并找到能够使AI和AIOps成为现实的人才。超过三分之二的AIOps实施者表示,需要时间来建立对AIOps建议的相关性和可靠性的信任。在此之前,该调查的作者指出,“IT团队将把数据驱动的洞察力与人类判断结合起来,为性能优化得出正确的结论。”
64%的IT管理人员表示他们无法找到使AIOps成为现实的技能。调查发现,雇佣数据科学和分析专业人员需要六到十二个月的大多数企业(53%)。十分之一以上,聘请数据科学家需要一年多的时间。从理论上讲,从长远来看,AIOps应该降低运行数据中心的技能要求。目前,IT团队需要获得机器学习技术方面的专业知识,并将其与事件分析技能相结合,以支持AIOps部署。
大多数IT经理引用的另一个问题,即57%,也是过去对其他新技术表达的担忧 - 失控。IT经理是否准备好完全控制自动驾驶自动系统,为问题诊断,故障排除和恢复提供可操作的见解?还没有。
调查显示,在积极与AIOps合作的人中,有一些明显的好处,尤其是在运营方面。通过在事件生命周期中消除低价值,重复性任务(85%引用),快速问题修复和更快的根本原因分析(80%)以及通过“降噪”实现更好的基础架构性能,可以提高生产率(77%) )。
该调查还探讨了此时AIOps的五个主要用例:
智能警报(69%的人使用AIOps工具引用)。该调查的作者称:“AIOps工具提供上下文警报通知,让DevOps团队了解事件历史记录,简化事件协作,并满足解决问题的服务级别要求。”
根本原因分析(61%)。“AIOps通过快速的问题诊断确保更好的服务正常运行时间和可靠性,结合了影响可见性和服务环境,以确定可能的原因和运营问题。”
异常/威胁检测(55%)。“机器学习算法可以通过模式识别快速识别异常值,以便IT团队可以从噪声中提取信号并识别偏离常规系统行为的事件。”
容量优化(54%)。管理系统资源的能力一直是IT绩效管理的基石,人工智能和机器学习现在可以根据需要在各种云和本地系统中帮助实现这一目标。
事件自动修复(53%)。调查发现,五分之二的受访者能够显着加快纠正事件的时间,十分之一的受访者能够将整体事件解决时间缩短近一半。
到目前为止,AIOps的这些用例和优势涉及从内部角度提高IT服务的性能和交付。虽然距离直接的商业利益还有一步之遥,但它仍有可能加强IT作为企业内部业务的目标,在保持低成本的同时提供卓越的客户服务和客户体验。