“将机器学习模型应用到生产中的最大障碍是培训数据的数量和质量,”Alegion首席执行官兼联合创始人纳撒尼尔盖茨在一份新闻稿中表示。“这项研究强化了我们自己的经验,建立投资回报率驱动系统的新数据科学团队试图在内部解决培训数据准备工作,并且不堪重负。”
报告称,系统可能无法处理大量数据,但为了让AI系统脱离实际,他们自相矛盾地需要大量数据。数据科学团队被迫走钢丝,使用大量数据交付成功的项目,同时确保系统可以处理特定数量的信息。
为了应对这些挑战,约76%的受访者表示他们有时会尝试自行标记和注释培训数据。超过一半(63%)的人表示他们甚至尝试建立自己的标签和注释自动化技术。报告发现,最终,71%的团队表示他们将培训数据和其他机器学习项目活动外包出去。
有关更多信息,请查看TechRepublic关于组织如何充分利用机器学习的文章。