Tableau の知られざる 5 つのビルトイン統計機能

Tableau の知られざる 5 つのビルトイン統計機能

Tableau はリリースサイクルが短く、使いやすい新機能が頻繁に追加される一方、従来の基本的な機能が忘れられてしまうことがあります。現在、統計関連の機能の需要はかつてないほど高まっていますが、Tableau はその分析精度より、むしろ使いやすさでよく知られています。統計ツールというと、複雑な数式や計算のイメージが浮かびますが、Tableau ではこれらの計算がドラッグ & ドロップで行えます。

この記事では、適切な分析機能でデータを最大限に活用していただけるよう、統計分析に使える簡単かつ強力な機能と、分析に関するリソースをご紹介します。

ヒストグラム = ただの棒グラフではありません

ヒストグラムは大規模なデータセットを理解するための強力なツールです。同じサイズ (等間隔) のビンにデータを分けて度数を表示することによって、データの分布が正常か、または偏っているかを把握できます。

Tableau では、たった 2 回のクリックでヒストグラムが作成できます。あまり知られていませんが、メジャーを右クリックして [作成] メニューに移動することで、ビンやパラメーター、計算、グループが簡単に作成できます。さらに Tableau はビンサイズの提案もします!

ヒストグラムの典型的な例は、SAT (大学進学適性試験) のスコア分布図です。スコアは 50 点または 100 点単位で集計され、棒は各ビンのスコアを獲得した学生の数を示しています。1600 点もの高得点を取る学生は稀で、ほとんどの学生は中くらいの範囲に位置しています。

残差: では、傾向線は実際のところどれだけ正確なのでしょうか?

そこで確認したいのが残差です。残差は誤差とも呼ばれており、実測値 (実際の値) と予測値の差を表します。残差プロットを使うと、回帰モデルの正確性をビジュアル化できます。もちろん、Tableau では R-2 乗値と P 値を求めることもできます。

Windows 上であれば、Tableau で傾向線を表示しているビューから残差をエクスポートすることができます。[ワークシート] メニューから [エクスポート]、[データ] の順に移動し、データファイルを選択すると、残差が Access ファイル形式で保存されます。X 軸 (この例の場合は Order Date) のディメンションと、予測値と残差のメジャーを含む新しいデータソースに直接接続することもできます。残差を行に、予測値を列にドラッグし、[Order Date] を [詳細] にドラッグしてみましょう。散布図のポイントの分布範囲が広ければ広いほど、モデルが正確であることを示しています。

標準偏差: データの分布範囲

標準偏差の数式を高校で習った人もいるかもしれませんが、恐らく、それ以来標準偏差を思い出したこともないという人が大多数だと思います。標準偏差とは、単にデータが平均値からどれだけ広範囲に広がっているかを示す値です。標準偏差の計算方法には、母集団用と標本用の 2 つがあります。つまり、データセット全体を分析する場合は母集団の数式を使い、大きなデータセットの一部を分析する場合は標本用の数式を使います。

Tableau ではメジャーの集計を変えるだけで、標準偏差を求められます。母集団用、標本用の統計偏差は、どちらもビルトインの集計機能です。下の例では、標準偏差から平均値のコンテキストがわかります。コピー機は平均売上高が高いものの、標準偏差も高いことがわかります。下のプロットは、非常に高額な商品を 1 つ販売したことによって平均値が上がったことを示しています。

簡易表計算: 移動平均と百分位

表計算は Tableau で非常によく利用されている機能ですが、いくつかあまり利用されていない計算機能もあります。中でもその一例と言えるのが、移動平均と百聞位です。

移動平均はデータの不要な部分を取り除き、傾向をビジュアル化します。Tableau では、移動平均計算をカスタマイズできます。計算の対象となる期間の数や、使用するディメンションを選択でき、差の割合などの表計算を移動平均と組み合わせることもできます。

百分位というと、「あなたの身長は、同じ年齢のグループの 90 パーセンタイルに相当します」と説明する小児科医を思い浮かべる人もいるかもしれませんが、百分位はデータポイント (または集計) をより大きな分布と比較するのに便利な方法です。数字 (例えば売上) から目測する代わりに百分位を計算すると、データポイントがどのように分布しているか確認できます。

少し難しい表計算: Window 関数と参照計算

LOOKUP()、PREVIOUS_VALUE() 、FIRST() などの関数は一見難しそうに見えます。恐らく皆さんも、Tableau のブログ記事からコピーした計算や、簡易表計算で見かけたことがあるでしょう。LOOKUP() は差の割合などの多くの計算の基礎となります。

LOOKUP() 関数では、オフセットを指定して、パーティションの中の別の値を参照することができます (パラメーターを使えば、動的に値を参照することもできます)。非常に単純な百分率の計算は簡易表計算で行えますが、LOOKUP() を使用することで、裏で動作する関数についての理解が進みます。そして、論理演算やデータ計算などのより複雑な計算に、それらの関数を使用できるようになります。

Window 関数は、ビューのデータを要約するのに最適な方法で、既に集計されたメジャーに、さらに集計を追加することができます。例えば、WINDOW_AVG(SUM([Sales])) は、ビュー内のすべての売上の合計の平均、つまり平均線を足したときと同じ値を返します。Window 関数は、特に大きなデータセットを要約した値を参照する場合に便利です。下の例では、Z スコアが WINDOW_AVG と WINDOW_STDEV で計算されています。この式は、実測値が平均値からいくつ分の (ウィンドウのデータの) 標準偏差で離れているかを計算しています。

ボーナス: R と Python の統合

統計分析をワンランク上に進化させたいとお考えですか? R サーバーに接続したり TabPy をインストールすれば、計算フィールドに R や Python スクリプトを使用できます。これらの機能の詳細は、Tableau のホワイトペーパー「Tableau を使った高度な分析」をご覧ください。

さらに高度な分析をしてみませんか?

Tableau は、誰もがデータを見て理解できるよう支援するためには、どのようなレベルの技術能力を持つユーザーにも、豊富な機能を提供しなければならないと考えています。Tableau は、シンプルで使いやすい指標や高度な分析テクニックなど、データサイエンティストが必要とする豊富な分析機能を備えた、データ探索のための柔軟なフロントエンドを提供します。データサイエンティストは、Tableau の高度な計算や、R と Python の統合、高速なコホート分析、予測機能を活用することで、複雑な計量分析を行い、ビジュアライゼーションを他のメンバーと共有できます。その結果、データへの理解を深め、データを使ったコラボレーションを促進することができます。

#HardcoreAnalytics で Twitter の会話に参加しましょう。さらに詳しい情報をお求めの場合は、以下のリソースをご覧ください。