Splice Machine现在采用了新的ML Manager功能,为机器学习模型提供生命周期管理。它将功能类型捆绑到数据库中,否则需要单独的工具,如Data Robot,Domino Data Lab或Dataiku。最接近的平行线是Cloudera的Data Science Workbench,它与公司的Hadoop平台起着类似的作用。虽然它允许跟踪模型,笔记本及其属性(如功能和超参数和数据源),但它目前缺少一些协作功能,例如许多第三方工具提供的聊天或注释功能。
Splice Machine的ML Manager的优势在于它是在数据库的基础上构建的,这意味着可以在不必序列化数据的情况下获取数据。经过实验测试完成了模型的不同变化后,Splice Machine的Spark集成使得将数据填充到Spark DataFrame中变得简单,为模型的运行铺平了道路。
通过Spark集成,与Databricks Delta存在一些架构相似性,该公司最近开放了一个新的数据湖功能,可以更新Delta事务(例如,强制执行ACID一致性)。但是,正如我们在Databricks delta上发表的文章所述,我们在推特上向我们指出,交易保证只是HDFS而非云存储。Splice Machine的Spark集成分析还可以运行来自HDFS(运行HBase)或云存储的数据。不同之处在于Databricks ACID保证以批处理模式运行,而对于Splice Machine,ACID支持在单元(记录)级别添加并发控制。
从一开始,Splice Machine就与其他开源关系数据库平台(例如MariaDB或PostgreSQL)区分开来,其根源在于大数据。作为混合事务/分析系统,OLTP端运行Hadoop的HBase,而其分析风格可以在各种数据源上运行,从文件系统到云存储,只要数据采用像Parquet这样的结构化格式。它在AWS和azure中引入了自己的托管数据库即服务(DBaaS),我们预计在明年,Google Cloud平台将被添加到列表中。
Splice Machine在孔中的王牌与其机器学习能力密切相关。埃森哲已将Splice Machine作为其AI平台的核心数据库。作为Splice Machine在2月份的B轮融资的一部分,埃森哲的风险投资部门在游戏中投入了一些资金。