推陈出新,不断突破
2003 年,Tableau 在斯坦福大学诞生,它脱胎于 VizQL™,一种彻底改变数据使用方式的技术,有了它,用户只需使用简单的拖放功能,即可创建复杂的可视化效果。这项重大的革新技术是一种获得专利的查询语言,它可将您的操作转换成数据库查询,然后以图形表示查询结果。
随后的突破性创新来自于 Tableau 的数据引擎技术 Hyper,它可以在几秒钟之内对几十亿行数据完成临时分析。Hyper 是 Tableau 平台的核心技术,它利用专有的动态代码生成机制和最先进的并行方法提高数据提取的生成速度及查询的执行速度。
Hyper
Hyper 是一种高性能的内存中数据引擎技术,它可以直接在事务处理型数据库中高效评估分析查询,从而帮助客户更快地分析大数据集和复杂数据集。Hyper 是 Tableau 平台的核心技术,它利用专有的动态代码生成机制和最先进的并行方法提高数据提取的生成速度及查询的执行速度。
Hyper 的独特设计
在过去十年,通过采用采样和摘要等方法,内存中数据引擎和分析数据库技术让查询性能得到了极大的提高。但此类性能提高是有代价的。为了优化分析工作负荷,许多系统牺牲了写入性能,而写入性能对于数据提取的快速生成和刷新至关重要。写入性能的不足会导致数据失去时效性和连接性。结果如何?人们无法及时获得他们想要分析的数据。 Hyper 的使命是提供快速的写入性能和分析工作负荷性能,从而让人们更加及时地获得数据。简单地说,Hyper 可以更快地提供最新数据,让您能够分析更大的数据集,获得更全面的信息。重新思考系统架构:让事务处理和分析查询具有同样的状态
借助 Hyper,人们可以在相同的列存储中处理事务和分析查询,获取数据后无需进行后处理。这样可以减少陈旧数据,最大限度降低专用系统之间的连接差异。Hyper 的独特方法可以在同一个系统中真正兼顾频繁读取型工作负载和频繁写入型工作负载。这意味着您可以在不影响查询速度的情况下快速创建数据提取。(用我们的话说,这是“双赢”。)执行查询的新方法:动态代码生成
Hyper 采用了一种新颖的即时编译执行模型。许多其他系统采用了传统的查询执行模型,这种模型并不能充分利用现代多核硬件的优势。而 Hyper 可以对查询进行优化并将其编译为自定义机器代码,从而更好地利用基础硬件。在接收到查询时,Hyper 会创建一个树结构,对其进行逻辑优化,将其用作蓝图来创建独特的程序,然后执行该程序。最终的结果是,现代硬件得到了更好的应用,查询执行速度大大提高。更好地利用硬件:morsel-driven(碎屑驱动型)并行机制
Hyper 的设计始终着眼于大规模多核环境。我们的并行模型以很小的工作单元(碎屑)为基础。这些“碎屑”在所有可用的核之间进行高效分配,从而让 Hyper 可以更加高效地应对核的速度差异。这样便可以更加高效地利用硬件,获得更快的性能表现。Hyper 最初是慕尼黑工业大学 (TUM) 在 2010 年启动的一个学术研究项目。2015 年,它发展为一个独立的组织,目标是实现 Hyper 的产业化,并提供这项技术的商业版本。Tableau 于 2016 年收购 Hyper;这就是 Tableau 数据引擎的核心技术。
VizQL™
原生可视化,天生更快捷
Tableau 的核心是一种专有技术,在这种技术的推动下,交互式数据可视化成为理解数据的过程中不可缺少的一环。传统的分析工具迫使您分析行列式数据,选择要显示的数据子集,将这些数据组织成表,然后才能根据此表创建图表。而 VizQL 跳过了这些繁琐步骤,直接为您的数据创建可视化表现形式,在您进行分析时提供可视化反馈。因此,与传统方法相比,您可以更深入地理解数据,显著提高工作速度——最高可提升至 100 倍。