ビジネスの現場で、データにもとづいた意思決定ができる環境をこれから構築しようとしている人にとって、「データレイク」の基礎知識を得ておくことは大切なことです。 ここでは、データレイクの基礎知識と、データレイクを活用するメリットをご紹介します。また、データレイクの構築・運用における注意点や、具体的にどのような業種で有用なのかについても見ていきましょう。
蓄積されたデータの価値を最大化!
データレイクとは情報の湖のこと
データレイクとは、さまざまなソースから収集したデータを、一元管理で貯めておけるリポジトリ(貯蔵庫、収納庫)のことです。「Data Lake」という名前のとおり「情報の湖」や「データの貯蔵池」とも表現されます。 データレイクに貯めておくデータは、形式をそろえて統一する必要はありません。スマホアプリ、IoT デバイス、Web サイト、SNS など、さまざまソースから収集したローデータ(生のデータ)を、非構造化データか構造化データかを問わず、まとめて入れておことができます。
ですから、データレイクの構築や活用は、ビッグデータ分析、全文検索、リアルタイム分析、機械学習などに取り組みたい場合に向いています。さまざまなソースから取得したデータを貯めておき、後々「こんな分析が必要になった」という場面で、柔軟に活用できるのです。
非構造化データと構造化データの違い
蓄積されたデータを可視化して課題解決を!
データレイクの必要性
データレイクは、さまざまなソースから取得した幅広い種類のローデータを、長期的に保管しておくことができます。では、なぜデータレイクが必要かというと、データレイクはデータマイニングのための原資になるからです。
データマイニングとは、膨大なデータの中からビジネスに役立つ有用なデータ(知見)を採掘することです。データマイニングを行うためには、ローデータの湖であるデータレイクが欠かせません。
データレイクはあらゆるデータが保管されているため、分析担当者が気づかない有用なデータが埋まっている可能性があります。例えば、SNS から取得した口コミデータをもとにして新たなインサイトの発見につながるなど、データレイクは新たな価値を生み出す原資となるのです。
蓄積されたデータの価値を最大化!
蓄積・収集されたデータから価値ある情報を引き出そう!
データ分析を簡単にする Tableau でデータの価値を最大化しましょう! Tableau の無料トライアルを今すぐお試しください。
Tableau 無料トライアルをダウンロードデータレイク、データウェアハウス、データマートの違い
データを蓄積するリポジトリというと、データレイクのほかに「データウェアハウス」「データマート」があります。データレイクとの大きな違いは、保管しているデータに非構造化データが含まれるか、処理済みの構造化データのみかという点です。このほか、データサイズにも違いが見られます。
3 つの違いをわかりやすくまとめると、下記のようになります。
データレイク・データウェアハウス・データマートの比較
データを利用する流れとしては、まず、さまざまなソースから収集したデータをデータレイクで一時保管。次に、データクレンジングを施して整理したデータをデータウェアハウスに保管します。
そして、データを利用したい各部署などで分析しやすいように、必要なデータだけを保管するのがデータマートです。
データ活用の流れのイメージ
蓄積されたデータを可視化して課題解決を!
データレイクを構築・利用する際の注意点
データマイニングのために必要なデータレイクですが、構築や利用をする際には注意点もあります。 次に挙げる 3 点に注意して、データレイクを活用しましょう。
データレイクはデータの「底なし沼」になりがち
データレイクは、データの「湖」ならぬ「沼」になりがちで、しかもただの沼ではなく底なし沼です。 構造化データか非構造化データかを問わず、取得したデータをとにかく次々に入れ込むため、保管期間が長ければ長いほど、誰が何のために保管したデータなのかわからなくなり、内部が混沌とした状態になります。
カオス化が進み、統制がとれていない状況に陥ってしまうと、今度は「今まで貯めてきた膨大なデータをどう活用すればいいのか?どこから手をつけていいのかわからない」という、使い勝手の悪いものになってしまいます。
そのため、データレイクを構築する前にデータアーキテクチャ(どのようなデータを保管・活用していくかのプラン)を考え、データガバナンス(運用ポリシー、データ利用の統治)をもって活用していくことがポイントになります。
データレイク使用者の労力・リテラシーが必要
データレイクを使用する際には、使用者(データサイエンティストなど)の労力や、データに関するリテラシーが必要です。
データレイクには、非構造化データと構造化データの両方が混在しています。蓄積されたデータは、自然言語や PDF、音声、画像、動画であるケースも含まれ、必ずしも Excel などで、すぐに計算処理に進められるデータ形式とは限りません。
そのため、蓄積したデータを分析に活用するためには、データを理解して整理・変換できるリテラシーや、専用ツールが必要になります。
データレイクへの保管方法に問題があると余計な労力やコストがかかる
データレイクに蓄積したデータの中に、重複などが多く含まれていると、データウェアハウスなどでのデータ整理や変換の際に、多大な労力やコストが発生することになりかねません。場合によっては、分析自体が不可能なケースもあります。
そのため、データレイクにデータを貯めておくプロセスにおいて、データアーキテクチャやデータガバナンスが欠落していると、貯めたデータをいざ活用して分析し、インサイトを得ようとする際に、多大な労力やコストがかかるおそれがあるのです。
蓄積されたデータの価値を最大化!
データレイクの構築はオンプレミス型か、クラウド型か?
データレイクの構築という点にフォーカスして見ると、「オンプレミス型」にするか、それとも「クラウド型」にするかという議論も必要になります。
オンプレミス型とは自社内にサーバーを構築して運用するスタイルであり、クラウド型とは何らかのクラウドサーバーと契約し、そこにデータを蓄積していくスタイルを指します。
それぞれ、メリット・デメリットがありますので、自社に適したスタイルを検討して決める必要があります。
オンプレミス型で構築するメリット・デメリット
オンプレミス型はゼロから自社内で、自前で構築するため、工数はかかるものの、自社のビジネス特性に合わせて要件をカスタマイズした設計をすることができます。また、サーバーを利用するのは自社内に限られるため、セキュリティリスクが低い点もメリットです。
しかし、オンプレミス型のデメリットとしては、大型のサーバーを自社内に用意する必要がありますので、サーバールームなど物理的に広いスペースが必要であり、その分、初期および維持管理コストがかかります。そして、セットアップには専門のエンジニアのスキルが必要で、数週間から数か月の工数を要する点もデメリットといえるでしょう。
運用途中でサーバーのスケールを拡張したい場合には、物理的なスペース(部屋)を拡大する必要性に加え、その都度、上長や役員などの予算承認プロセスが生じます。そのため、まずはシステムの構築時に、自社にとって最適なサーバー要件について精緻な見積もりを出す必要があります。
クラウド型で構築するメリット・デメリット
クラウド型は、社外のクラウドサービスと契約し、必要なサーバーのスケール分だけ従量課金していくスタイルです。そのため、大規模な物理サーバーを自社内で構築・運用する必要はありません。広いサーバールーム、専門のエンジニア、大きな設備投資などは一切不要です。契約したその日から、サーバーにログインさえすれば利用できるようになります。運用途中で、より大きなサーバーが必要になっても、契約内容を見直してプランを変更すれば良いだけです。
また、自社内に物理サーバーを置かないため、災害時にサーバーが被害を受けてデータを消失するといったリスクを低減できるメリットもあります。 初期段階で「どのくらいのスケールのサーバーが必要か、まずは使ってみないとわからない」「社内に大規模サーバールームを構築できるスペースはない」といった会社に向いています。
一方、クラウド型のデメリットとしては、自前でサーバー要件を設計するオンプレミス型に比べて、カスタマイズの柔軟性が低いことです。クラウドサーバー事業者のサービス要件に依存することになり、自前でカスタマイズできる範囲は狭まります。初期費用はオンプレミス型より低くて済みますが、運用過程では従量課金になるプランがほとんどのため、保管するデータ量が膨大になれば、長期的に見て運用コストが増大しがちという点にも留意が必要です。
蓄積されたデータを可視化して課題解決を!
データレイクが向くビジネス
データレイクのビジネス上の意義と、構築・運用する上での留意点を解説してきました。ここからは、データレイクの導入がビジネスの現場に大きく貢献する業種を具体的にご紹介します。
医療業界:構造化データと非構造化データの双方に柔軟にアクセス
データレイクは、医療業界での導入に適しています。医療や創薬の現場では、社内データソースをはじめ、膨大な論文・文献、各地域で公開されているパブリックデータベースなど、数多くのデータソースに接続して分析を行うことが必要です。そのため、構造化データと非構造化データのいずれも併せて扱うことができる、データレイクの構築と運用が適しています。
現場のサイエンティストがさまざまなデータから新たな示唆を得ることを強力にアシストし、研究の発展に大いに寄与します。
教育業界:現場での柔軟なアクションを後押し
教育業界でも、「ビッグデータをいかに活用するか?」という課題があります。例えば、「データにもとづき、問題を抱える生徒に対する支援アクションを決定する」「問題発生前に予測する」といった活用がなされています。
生徒の成績や出席状況など、さまざまなデータソースから取得したローデータは、教育現場の意思決定、資金調達を合理化するプロセスでも役立てることが可能です。 近年、日本国内の教育現場では「生徒一人ひとりにタブレット端末を配備」といった施策が進められています。各人が使用するタブレット端末から取得した「学習履歴」「行動履歴」といったデータのほか、さまざまなシステムやデバイスから収集したデータを、構造化データか非構造化データかを問わずに一元管理し、アクセス・分析する必要があるため、データレイクの構築・運用が向いています。
運輸業界:さまざまな形式のデータから分析・洞察・予測につなげる
データソースを問わず、さまざまな形式のデータを柔軟に保管しておけるデータレイクは、運輸業界における意思決定の合理化・現場改善にも寄与します。
例えば、「車両管理」という課題にフォーカスしてみましょう。車両管理を効率的に行うためには、車両そのものから取得できる「速度データ」「温度データ」、それ以外のソースで記録された「車両メンテナンス記録」「燃料ログ」など、さまざまなデータへのアクセスが想定されます。それらのデータは、構造化データや非構造化データがばらばらに混ざっています。しかし、そういったばらばらな形式のデータから分析・洞察・予測をし、車両管理を効率的に実行できることが、データレイクの大きな強みです。
蓄積されたデータの価値を最大化!
データレイクに接続し、長所を最大限に引き出す BI プラットフォーム Tableau
データレイクをうまく活用すれば、さまざまな業界で現場の意思決定支援・業務改善につながることを紹介してきました。
データレイクに保管されるデータが膨大になるにつれて、「データを効果的に保管すること」「効果的に活用できること」が重要になります。スケールの大きなサーバーを用意すれば、多くのデータを保管することはできますが、無意味に価値のないデータをただ貯めておくだけでは労力とコストを無駄にするだけで、構築したデータレイクは結果的に無用の長物にもなりかねません。
そこで、データレイクなどのビッグデータ処理によく使われる解決策が「Hadoop(ハドゥープ)」という手法です。Hadoop とは、オープンソースのソフトウェアの一種であり、プログラミングスキルを持つ人なら、比較的安価に導入して操ることができます。データの保管・インデックスに優れた手法であるため、多くの場面で採用されています。
しかし、Hadoop は BI ツールに代わるものではありません。保管・インデックスを適正に処理しているだけでは、ビジネスの次のアクションにつながるインサイトや示唆を引き出すことは難しくなります。 そこで、Hadoop での課題を解決してくれるツールが、BI プラットフォームである Tableau です。
Tableau は、ツール使用者がデータを見て理解できるように設計された製品です。アナリスト、データサイエンティスト、学生、教員、エグゼクティブ、ビジネスユーザーと、あらゆるユーザーの視点を第一に設計しています。データレイクに接続することが可能であり、生のデータにアクセスして、乱雑なデータを素早く整理。組織内で蓄積してきたさまざまな形式のデータを、分析担当者に対してわかりやすくビジュアル化して表現し、データにもとづく明確な課題解決が可能です。運用しながらの拡張も柔軟にでき、さまざまな会社のデータ戦略にフィットするでしょう。
蓄積されたデータを可視化して課題解決を!
データレイクの特徴やメリットを知ってビジネスに活かそう
データレイクは、構造化データか非構造化データかを問わず、まとめて長期的に保管し、「今すぐは使途が決まっていないが、いつか活用できるかもしれないデータ」を貯蔵しておくのに向いています。 将来的に、機械学習や深層学習の開発に取り組みたい会社にも適しています。その反面、「構築するのはそれほど難しくなさそうだが、有効活用できるだろうか?」と、課題を感じる人も多いかもしれません。そこで、大いに役立つのが Tableau です。
Tableau は、国内外の多くの企業に導入され、多様なビジネスに活用されている BI プラットフォームです。データレイク活用について課題を感じている人や、これからデータレイクを構築するなら現場で即戦力となる分析ツールをセットで導入したいという人は、こちらから詳細をご確認ください。
蓄積されたデータの価値を最大化!