Tableau に代表される BI プラットフォームは、専門知識やスキルの有無にかかわらず、誰でもデータからビジネスに役立つ知見を引き出すことができます。しかし、その原資となるデータソースがなければ何もできません。 日々収集される膨大なデータを蓄積するデータソースにはさまざまな種類があり、それぞれ名称も似ているので混同しやすいのですが、その中でも特に重要な役割を果たす「データウェアハウス」について詳しく解説します。
データを可視化してビジネスを加速!
データウェアハウスとは情報の倉庫と呼ばれるシステムのこと
まずは、大型のホームセンターなど、それなりに規模の大きい小売店のバックヤードを想像してみてください。そこには、その店舗で販売するさまざまな商品が保管されており、「工具」「生活用品」「ペット用品」などの種類ごとに商品が整理して並べられ、店頭在庫が尽きたときに、すぐに補充できるような体制が整えられています。 BI プラットフォームによるデータ分析において、こうした典型的な小売店のバックヤードと同じ役割を果たすのがデータウェアハウス(Data Ware House 、DWH)と呼ばれる一連のシステムです。
データウェアハウスの役割
データウェアハウスには、データ分析の原資となるデータがすぐに使える状態で格納されており、データ分析ツールからの要請に応じて、必要なデータをスピーディーに提供します。これにより、分析とその結果にもとづいたビジネスの意思決定の迅速化を可能にするという、極めて重要な役割を担っています。また、必要なデータを、検索によってすぐに取り出すことも可能です。
データウェアハウスが必要とされるようになった背景には、近年の飛躍的なデータの増大、ビッグデータ化があります。組織はあらゆるタッチポイント(顧客接点)や端末機器などのエンドポイントからデータを収集できるようになり、さまざまなデータが未整理で蓄積されていきます。しかし、膨大な量の未整理のデータをそのままデータ分析のプロセスに受け渡すことは、システム的にも人的リソース的にも現実的ではなく、当然ながら迅速な意思決定も望めません。 そこで、小売店のバックヤードのように、業者から納品された未整理状態の大量の商品を、所定の場所に分類・整理して保管しておくのが、データウェアハウスなのです。
■データウェアハウスのイメージ
データクレンジングでデータを整理・加工する
データウェアハウスは、未整理だった大量のデータを、整理した状態で保管しておく情報の倉庫です。ということは、保管しておく前段階として情報の整理が必要になります。 小売店のバックヤードに例えるなら、納入された大量の商品から、不要な梱包材をあらかじめ取り除いておく、カテゴリごとに分けておく、値札シールを貼りつけておくといった各種プロセスを経て整理しておくイメージです。
この、元データから不要部分を取り除いたり、分析やデータマイニングのシステムが読み込めるように加工、変換したりすること、およびそのためのツールのことを「データクレンジング」と呼びます。データクレンジングもデータ分析の前準備として不可欠なプロセスで、データウェアハウスの一連のシステムに組み込まれています。 また、データウェアハウスには、重複を統合しながら時系列にデータを保管する機能も備わっており、古いデータを削除することなく大量のデータを保持し続けることが容易です。実は、これがデータ分析においては重要で、古いデータから新しいデータまで網羅されていることで、各データを比較分析して、将来予測をする際などに役立ちます。
データを可視化してビジネスを加速!
こちらの記事を見た方は、下記のページにも興味をお持ちです。
データウェアハウスとデータベースとの違い
日常業務でのデータの管理に、使い慣れた Excel 、場合によっては Access を使っているという人も多いのではないでしょうか。確かに、Excel にもピボットテーブルなどのデータ分析機能が備わっていますが、これらはあくまで個人が使用することを前提としたツールであるため、ビッグデータの管理や保管には向きません。データベースに特化した Access にしても、部門横断的、全社的なデータ管理には力不足です。 そもそも、データウェアハウスは、データベースとどのような違いがあるのでしょうか。
データベースはビッグデータの処理に不向き
データベースは、あまりに巨大なストレージ容量を前提としていません。一般的なデータベースの目的は、そのシステム内でのデータ活用にあります。そのため、内部構造は複雑で、データ量が増大すればするほど、その処理にとにかく時間がかかってしまいます。分析のためにデータを整理した形で取り出そうとすると、本来の目的である会計や販売などの機能にも支障をきたしてしまうおそれもあります。 ここが、ビッグデータを想定し、分析システムへのデータ提供を目的としたデータウェアハウスとの大きな違いです。
データウェアハウスはデータベースの上位的な存在
データベースとデータウェアハウスは目的が異なるシステムですが、データベースにもデータを蓄積し、管理するという役割があります。データ分析にこれらのデータを活かさない手はなく、データベースのデータも活用したいという一定のニーズが存在します。そのため、一般的なデータウェアハウスには、異なるデータベースに接続して、そこから必要なデータを収集し、必要に応じてデータクレンジングを行うための機能が備わっているのです。 つまり、データウェアハウスは、データベースの上位レイヤーにある存在ともいえるでしょう。
データを可視化してビジネスを加速!
データウェアハウスと混同しやすいデータレイクとデータマート
データウェアハウスと混同されやすい用語として、「データレイク」と「データマート」があります。これらはいずれも、データ分析、データマイニングといった BI プラットフォームのプロセスとも密接に関わるため、余計に混乱してしまうという人もいるでしょう。 データレイクとデータマートには、それぞれ下記のような意味があります。
■データウェアハウス、データレイク、データマートのイメージ
データレイク:未整理状態のデータが集まる湖
データレイクを直訳すると「情報の湖」となり、自然に出来上がったもの、いつの間にか存在するものといったイメージがあります。実際にそのとおりで、データウェアハウスが小売店のバックヤードのように、整然とデータが並べられた状態で保管されているのに対して、データレイクはさまざまな端末から収集したデータを、ただひたすら蓄積するために存在します。 そのメリットは、データの内容を問わず柔軟に保管でき、とにかく収集したデータを蓄積し続けられることにあります。特に、データサイエンティストやデータアナリストなど、専門知識がある人にとっては、より自由度の高いデータレイクのほうが、データウェアハウスに比べて使いやすいかもしれません。BI の観点でいえば、データレイクのデータがデータクレンジングの原資となります。
データマート:分析に必要なデータだけを抽出したもの
データウェアハウスと混同しやすいもうひとつの用語であるデータマートは、直訳すると「情報の小売店」。例えるなら、データウェアハウスが大規模ホームセンターの倉庫、データマートは街の支店や個人商店の収納庫です。 具体的な違いは、その目的にあります。データウェアハウスは、より大規模なデータを扱い、汎用的、多面的な分析をすることが目的です。一方、データマートはその目的が明確で、分析をするために必要なデータだけを集約したものとなります。 データウェアハウスとデータマートも、データレイク(あるいは各種データベース)からクレンジング済みのデータを受け取り、利用することに変わりはありませんが、データマートは扱うデータが小規模(一般的に 100 GB 未満)である分、構築にかかる時間もコストも大幅に抑えることができます。
データを可視化してビジネスを加速!
自分のデータから価値ある情報を引き出そう!
データ分析を簡単にする Tableau でデータの価値を最大化しましょう! Tableau の無料トライアルを今すぐお試しください。
Tableau 無料トライアルをダウンロードデータウェアハウスは、自社環境や目的にマッチしたものを選ぶ
データウェアハウスは、単なる情報の倉庫にとどまらない、データ分析という目的を定めたデータの集合体です。 データベースやデータレイクにはない、目的別、時系列でのデータ管理が可能なことにより、データ分析によってインサイト(知見や気づき)を導き出すプロセスが迅速化します。タイムリーな意思決定ができることは、データウェアハウスを利用する最大のメリットです。また、近年急速に進むクラウドの浸透によって、データソースの分散とサイロ化(情報がどことも連携せず孤立している状態)が顕著になっていますが、これらを仮想的に統合する役割も、データウェアハウスが担っています。 重要なことは、自社のデータ戦略にマッチするソリューションを見極め、選択することです。取り扱うデータの量やデータ分析の目的によっては、あえてデータウェアハウスを構築せず、データレイクやデータマート、さらにはリレーショナルデータベースなどのデータソースでも十分な場合があります。リレーショナルデータベースとは、複数の表を統合しデータの相互関係をコンピューターに理解させる仕組みのことです。
データを可視化してビジネスを加速!
Tableau でデータウェアハウスに接続し、迅速なデータ分析を実現しよう
代表的な BI プラットフォームである Tableau では、柔軟なデータパイプライン(大規模データの交通整理)の実装により、データウェアハウスをはじめとした多様なデータソースにシームレスに接続し、必要なデータに迅速にアクセスできます。そのため、データウェアハウスに過度に依存しない、まったく新しい形の仕組みを構築できます。これを、Tableau ではハイブリッドデータアーキテクチャと呼びます。
ハイブリッドアーキテクチャは、「ライブ接続」と「インメモリの抽出」を使った 2 つのモードでデータを操作することが可能です。ライブ接続では、データソースからデータをインポートするのではなく、動的なクエリ(データの検索や更新などの要求)をソースデータベース(統計や実験などで得られた事実を収録しているデータベース)に直接送信することによって、既存のデータインフラストラクチャ(データ共有するために構築された総合的な基盤)を活用します。このため、高速でデータ処理ができ、分析においてストレスを感じることもありません。 インメモリの抽出とは、利用するユーザーがワンクリックでデータを抽出してメモリに読み込み、Tableau でクエリ(データの検索や更新などの要求)を実行できるというものです。クエリの再実行にかかる時間を大幅に削減することができ、ユーザーにとって大幅に利便性が向上します。
このように、データウェアハウスおよび、そのデータを活用するための数多くの機能やテクノロジーが搭載された Tableau は、データを効果的に活用することができ、新たなビジネス価値を生み出すことに、大いに貢献してくれるはずです。
Tableau は、国内外の多くの企業に導入され、さまざまなビジネスに活用されています。まず、無料トライアルからスタートしたい方は、こちらより詳細をご確認ください。
データを可視化してビジネスを加速!