为什么有这么多组织落后于曲线?
人工智能长期以来一直是开发人员从事高性能计算和基于云的系统的工具。人工智能改变了网络监控方式,电子邮件扫描方式,甚至是我们与手机和设备交互的方式。虽然AI和机器学习总是感觉像是一个生活在实时嵌入式系统之外的遥远工具,但机器学习正在基于微控制器的系统中实现,事实上,它已经存在!
我们每周都会与公司见面,这些公司正处于他们第一个ML项目的某个阶段。遗憾的是,大多数谈话或多或少都是一样的。该项目具有战略性,在组织内部非常明显。内部的概念证明毫无障碍地发生了。现在,该团队专注于将模型的信心水平提升到可以投入生产的程度。
正是在这一点上 - 从概念证明到生产软件开发的过渡 - 项目通常会遇到大麻烦。当我们第一次与数据科学团队会面时,他们的预算往往在减少,他们的交付截止日期迫在眉睫,他们的模型仍然表现不佳。
听起来有点熟?以下指南可能有助于您的组织按时将其AI模型投入生产,而不会超出您的预算。
1.)不要用新手工作任务你的团队
新雇用的企业数据科学家始终确信组织拥有构建和测试AI系统所需的所有源数据。科学家没有被告知的是数据无法使用。这些星光熠熠的,非常昂贵的数据科学家不是将人工智能带到迫在眉睫的公共或公司问题上,而是发现自己正在清理,组织和规范大量的原始数据。
这些类型的数据准备任务在每个人推荐的外包AI活动列表中都很重要。让您的数据团队专注于颠覆性和创新性工作。
2.)与时俱进;获得敏捷
企业软件开发团队很久以前就了解到,敏捷开发方法可以生成更好的软件,并且比传统的瀑布式方法更快。
瀑布方法将一个复杂的大型软件系统视为一个整体,它必须在许多开发阶段的每个阶段通过集合才能移动到下一个阶段。现代敏捷方法将复杂的系统分解为更小的离散部分,每个部分都可以独立地进行规划,编码和测试阶段。敏捷方法可以更早地发现项目中的问题,从而节省时间和金钱。
3.)不要低估培训数据的挑战
凭借其背后的概念证明,数据科学团队开始构建和训练他们的算法的实际工作。他们中很少有人为训练数据任务的规模做好准备。对于项目概念验证阶段所需的培训数据,他们面对100倍甚至1000倍的跳跃并不罕见。
数据科学家非常了解他们需要多少数据。这是他们培训的一部分。在他们掌握AI项目之前他们没有掌握的是准备大量培训数据所需的努力范围。
结果是数据科学家陷入了看似无穷无尽的标签和日夜诠释数据的困境,同时对最终目标几乎没有取得可衡量的进展。
培训数据准备是另一项经常外包的活动,因为它需要大多数数据科学团队所缺乏的技术,劳动力和项目技能。但是,如果您计划在内部执行此任务,请确保引入培训数据所需的所有资源。如果您不确定需要多少数据,请将项目的这个区域外包以保护您的预算和团队。
最后,即使在部署之后,模型训练也不会停止。因此,您的培训设备 - 无论是内部还是外包 - 必须保持不变。要知道,一旦您的模型达到适当的置信水平,您的工作仍然不完整。
公司可以通过使用敏捷方法为数据科学团队设定明确的期望和责任,并为培训数据集的挑战做好准备,从而更快地在预算内实现人工智能和机器学习模型的生产。如果实施AI的公司的比率继续飙升,那么将模型提升到适当的置信水平所需要的现实观点将至关重要。不要成为浪费时间和预算不足的受害者。
Don Roedner是Alegion的营销主管,Alegion是一个人工智能(AI)和机器学习计划的培训数据平台。Don拥有超过25年的B2B软件公司作为营销人员的经验,之前担任过各种技术职务。