您的位置:首页>科技 >内容

Splice Machine在管理机器学习方面翻了一番

2019-05-05 10:27:45来源:
导读 Splice Machine将自己定位为可以进行操作机器学习的数据库,它正在添加一个新工具,用于执行ML模型的生命周期管理。数据库和分析产品的常

Splice Machine将自己定位为可以进行操作机器学习的数据库,它正在添加一个新工具,用于执行ML模型的生命周期管理。数据库和分析产品的常见做法是自我清洗。例如,许多平台已经添加了对运行Spark计算作业的支持,并且因为Spark支持ML,所以他们可以提出这种说法。正如我们几年前所报道的那样,Splice Machine已经采用了Spark分析和Zeppelin笔记本电脑的第一步。

Splice Machine现在采用了新的ML Manager功能,为机器学习模型提供生命周期管理。它将功能类型捆绑到数据库中,否则需要单独的工具,如Data Robot,Domino Data Lab或Dataiku。最接近的平行线是Cloudera的Data Science Workbench,它与公司的Hadoop平台起着类似的作用。虽然它允许跟踪模型,笔记本及其属性(如功能和超参数和数据源),但它目前缺少一些协作功能,例如许多第三方工具提供的聊天或注释功能。

Splice Machine的ML Manager的优势在于它是在数据库的基础上构建的,这意味着可以在不必序列化数据的情况下获取数据。经过实验测试完成了模型的不同变化后,Splice Machine的Spark集成使得将数据填充到Spark DataFrame中变得简单,为模型的运行铺平了道路。

通过Spark集成,与Databricks Delta存在一些架构相似性,该公司最近开放了一个新的数据湖功能,可以更新Delta事务(例如,强制执行A​​CID一致性)。但是,正如我们在Databricks delta上发表的文章所述,我们在推特上向我们指出,交易保证只是HDFS而非云存储。Splice Machine的Spark集成分析还可以运行来自HDFS(运行HBase)或云存储的数据。不同之处在于Databricks ACID保证以批处理模式运行,而对于Splice Machine,ACID支持在单元(记录)级别添加并发控制。

从一开始,Splice Machine就与其他开源关系数据库平台(例如MariaDB或PostgreSQL)区分开来,其根源在于大数据。作为混合事务/分析系统,OLTP端运行Hadoop的HBase,而其分析风格可以在各种数据源上运行,从文件系统到云存储,只要数据采用像Parquet这样的结构化格式。它在AWS和azure中引入了自己的托管数据库即服务(DBaaS),我们预计在明年,Google Cloud平台将被添加到列表中。

Splice Machine在孔中的王牌与其机器学习能力密切相关。埃森哲已将Splice Machine作为其AI平台的核心数据库。作为Splice Machine在2月份的B轮融资的一部分,埃森哲的风险投资部门在游戏中投入了一些资金。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章