去年加入光纤巨头Ciena之前,Kailem Anderson在思科系统公司工作了12年。作为Ciena软件部门Blue Planet的投资组合和工程副总裁,他正在努力帮助那些必须保持网络运行的人避免这种痛苦。
安德森说:“我管理客户网络,我花了很多时间聘请分析师来观看网络,观察警报,制定大量规则,”用于网络监控。他轻松的澳大利亚口音给听起来像是一件相当悲惨的事情带来了一定的轻松。
蓝色星球在2018年的收入为2600万美元,仅占Ciena 2018年软件收入约2亿美元和总收入30亿美元的一小部分。但它增长了66%,并且可以带来比Ciena的光网络设备销售更高的利润率。它还为公司提供了经常受到华尔街高度赞赏的经常性收入来源。这些经济方面,加上它在设计客户网络方面具有战略意义,使其成为Ciena作为一家公司的重要组成部分。
另外:Google的Snorkel DryBell是企业数据管理的未来吗?
弄清楚网络中出了什么问题涉及到所谓的协议“堆栈”,开放系统互连或“OSI”的几个层面的侦探工作。有些信息来自堆栈的底部,如果你愿意的话,是“第一层”,它由传输的物理媒介组成。例如,这可以是同轴电缆或光纤链路。
在上面的第二层,第二层,原始位被打包成捆绑,例如以太网帧,并且当它们穿过网络的光纤和电缆时,收集有关这些数据帧状态的各种信息。 。下一层是第三层,其中数据被打包为可互联网寻址的数据包,同样要收集大量的欠信息,例如路由和交换有关数据包传输位置的信息。
从那里开始,人们可以进入更高级别,第4到第7层,应用程序域,并获取有关单个应用程序将其数据放入这些Internet数据包的信息以及是否在执行此操作时遇到任何问题。
以两个光链路中的一个上发生转发器故障为例。这导致多协议标签系统或MPLS中的路由改变。网络设备报告沿着IP路由的拥塞,因为链路承担更多流量的负担,并且最终用户使用网络经历严重的延迟。所有这些都是同一问题的一部分,Anderson解释说,但从用户体验到转发器故障可能是一个谜。
传统上,系统管理员以不同的方式查看各种项目,每个OSI层的信号来自不同的遥测系统,例如SNMP监视器,系统日志,跟踪“流”的第三种信息,然后是信息来来自单个设备,例如有关最近配置更改的信息 - 没有一个是协调的。
从一个角度看起来糟糕的用户性能看起来像MPLS路由问题或另一个层面的IP带宽问题,导致一个严重的侦探工作找到罪魁祸首,转发器故障。
此外:谷歌大脑,微软探测与AI网络的奥秘
安德森说,一张门票就会被创建出来,并且它会在团队之间发挥作用,没有任何一个团队可以看到对方。“最终他们解决了这个问题,他们让工程师检查这个问题,但效率非常低。”
系统管理员必须尝试构建规则系统,以确定每种可能的因素组合的含义。“他们花了1000多个小时建立这些规则,”安德森说。“用这个时间来识别所有不同的场景是一场零和游戏。”
相反,Blue Planet工具可以使用标记示例(称为监督学习和强化学习)的组合来训练网络软件,其中计算机探索事态和可能的后续步骤。
通过这种组合,可以训练软件识别难以与基于规则的系统拼凑在一起的“上下堆叠”模式。
“我们希望让系统学会识别这些场景,基本上帮助我们更快地找到根本原因,并利用这些信息来关闭循环,”他说,然后让主管进入图片一旦确定了这个大纲。
此外:英特尔支持的创业公司Nyansa追逐网络监控AI的总体问题
执行指南
什么是机器学习?你需要知道的一切
以下是它与人工智能,工作原理及其重要性的关系。
阅读更多
Anderson表示,实现这一目标所需的工具主要来自现成的机器学习模型。“大多数情况下,是的,我们可以从云计算中获取,”他说,指的是云计算设施中的各种企业级机器学习产品。“我们全部使用它们”,尽管这些工具也可以在本地运行。“目前它只有六个半打,但我认为分析最终是进入云计算的好事。”
SparkML等开源工具在组织所有遥测数据方面发挥着重要作用。
安德森说,机器学习技术近年来已经成熟,使标签网络活动的投资得到了回报。
“五年前,我正在玩这个,并且需要花费大量的时间进行标识,风险与价值的关系是值得怀疑的,”他说。“随着算法的强化和人工智能的成熟,这种努力 - 回报率已经大大压缩。你现在只需要进行合理数量的标记,输出就很重要。”
安德森坚持认为,机器学习的转变还有另一个方面,即对网络的更全面的认识可能导致不同的方式或结构和维护网络。
传统上,许多系统管理员只会关闭信息来源,安德森说,这是可以理解的,因为信息过载,但这意味着网络管理员正在抛弃重要的线索。
“这是使用数百万种不同数据源进行操作的复杂性,”他说。“管理运营团队的传统方式是过滤信息,几乎关闭过多的信息。
“在思科,如果我在运营一个服务提供商网络,我每天会接近一百万个活动,而我可能会有一个40到50人的运营团队,他们必须处理所有这些事情。”
因此,管理员最终只会寻找“他们认为公平的场景”,“正在关闭基于性能的场景”,以及有关网络相对质量的信息。
但是,安德森说,“你不想关闭信息,你想把它汇集起来,并用它来确定哪些条件会推动一致的场景,
“最终,如果他们受过训练,解决方案可能会有所不同,”他提出。数据可能导致以不同方式构建事物。“通常,您有一个有计划的网络条件,但是有一个实际的网络条件;通过学习,您可能会发现实际情况比计划更优化,然后根据新的洞察力执行策略”。
Anderson表示,有一些新领域需要实现,例如以“图形数据库”格式提供数据分析。“我们处于运营和网络世界,因此您希望在网络图概念中可视化所有这些。”一些客户“希望看到它只是以编程方式传播到北向系统,这些系统将利用该信息,能够使用图形数据库进行可视化,并使用API将该北向信息发送到BSS层。”
目前所有这一点中的一个问题是,系统管理员尚未准备好关闭循环,可以这么说,让机器学习完全接管并自动检测和解决网络问题。
“这不是技术限制,它是一种文化方面,”他说。机器学习系统是概率性的,而不是确定性的。因此,虽然他们可以检测到许多故障问题,但是不愿意自动化可能是误报的情况。“你只需要花费0.0001%的时间,这就是一个大问题。”
“我仍然认为我们在关闭循环方面有点偏僻,我认为它对技术的信任。它将逐步发生,你可以在非灾难性的东西上关闭循环,不会造成失败的情况,风险低的地方,然后是其他地区