“该公司希望了解其客户的所有属性,”Shiran说。“为了获得整体客户视图,它必须在各种系统中收集所有客户数据,无论是预订,娱乐场活动,还是其他交易和大数据存储库。”
五年前,这可能是在Hadoop环境中尝试的,它可以处理大量数据有效载荷,最终将这些数据处理成一个中央数据存储库 - 这种方法至今仍在公司中广泛使用。
Shiran和其他人争论的是,有一种更好的方法来加速数据查询,而不是等待这种庞大的数据整合发生。
“实际上有两个要素需要公司才能进行有效和快速的数据查询,”Shiran说。“第一个要求是,无论数据位于何处,您都必须能够访问和查询数据。例如,您可能需要跨AWS S3和Oracle数据库中包含的数据运行查询。
“第二个要求是您需要数据查询的速度。通过使用ETL等技术将所有数据整合到中央数据存储库中的时间无法提供 - 也无法同时访问各种数据集市和孤岛分布在整个公司。您需要的是一种加速数据查询的方法。“
那么如何在不必执行冗长的数据ETL和数据整合的情况下加速数据查询?
“Google搜索采用了声音数据查询加速技术,”Shiran说。“当你问谷歌一个问题时,它就会从世界各地的网络服务器上访问数据。”
由于在反向数据结构索引的帮助下访问结构化和非结构化数据,因此促进了该过程。索引存储来自内容(例如单词或数字)的映射,然后将您引导至文档和网页中的特定单词。
因此,您从Google查询中获得的信息是来自顶级网络来源的信息汇总,但不一定来自网络上存在的每个网络来源。这样可以加快查询时间,因为您正在执行的操作是访问从源子集中提取的预定义数据聚合。您不必浏览可以为您的查询分析的每个数据源。
“你正在做的是创建更小的数据子集,我们称之为'数据反射',”Shiran说。“这使您可以快速处理查询并获得结果。用户还可以设置他或她想要查看数据刷新的时间间隔。”
像Dremio这样的公司会创建初始系统数据聚合,但DBA可以修改此数据以根据特定业务需求对其进行微调。
Shiran建议公司在开始使用数据查询加速器时从小规模开始,然后随着用户和IT熟悉,他们开始在更多用例和业务领域利用加速器。
Shiran警告说,任何系统都无法做任何事情:“对于每个应用程序及其处理的数据,公司中已有少数主题专家了解数据,以及如何最有效地使用数据, “ 他说。“这些人最终了解数据模式以及可以从中学到什么。”