menu

これからは、コレ!旬なIT技術やこれから主流となりつつあるIT技術に関する情報をご紹介します。

2023年09月01日

進化し続けるデータ活用基盤テクノロジー
~データレイクハウス~

データ活用基盤の変遷

近年、企業のデジタル変革(DX)の推進に伴いデータ分析の役割がますます重要性を増しており、これに応じてデータを活用するための基盤技術の在り方も変化を遂げています。かつてデータ活用の初期段階では、組織内に散在するデータはデータウェアハウスというデータ管理システムに集約され、データの集計・可視化から洞察を得て意思決定に活用されてきました。その後、企業内で扱うデータ量の増大への対応や、多種多様になったデータを保管可能なデータレイクが普及したことにより、AIを活用した高度なデータ分析が進展してきました。

データウェアハウスとデータレイク図1:データウェアハウスとデータレイク
(クリックして拡大できます) 

データ活用基盤の併用とその課題

データウェアハウスとデータレイクにはそれぞれ長所・短所があります。現在では、様々なデータ分析シナリオに対応するため、一般的には、これらの両方を組み込んだハイブリッド形式が採用されています。一方で、データウェアハウスとデータレイクは異なるシステムとして構築することが主流であるため、データの蓄積や分析もそれぞれ別々に実施されることになります。それに伴い、ハイブリッド形式を採用する際には、データ管理・分析プロセスが複雑化しやすくなるという課題が指摘されています。

データウェアハウスとデータレイクの長所・短所図2:データウェアハウスとデータレイクの長所・短所
(クリックして拡大できます) 

データレイクハウスの登場

そこで、新たなデータ活用基盤の仕組みとして「データレイクハウス」が提案されました。データレイクハウスは、データウェアハウスとデータレイクの特性を組み合わせ、柔軟性とパフォーマンスを両立させたデータ管理の概念です。この概念は、データウェアハウスの高速な大規模データ処理、およびデータレイクの低コストな大容量ストレージの両方の特長を備えています。データレイクハウスの導入によるメリットをいくつかご紹介します。

1点目は、データ分析の柔軟性の向上です。従来、構造化データ※1の分析はデータウェアハウス、非構造化データ※2の分析はデータレイク、といった使い分けが一般的でしたが、データレイクハウスを導入することで両者を組み合わせた多角的な分析が容易になります。
2点目は、保管データの信頼性担保です。データ分析のシナリオが多様化する中で、データが散在してしまい、データ更新処理の際に更新漏れやタイムラグの問題が生じることがありますが、データレイクハウスを導入しデータを一元管理することでこれらの問題を軽減することができます。
3点目は、コストパフォーマンスの向上です。データレイクハウスのサービスを提供するDatabricks社によると、複雑なデータ分析シナリオのベンチマーク※3であるTPC-DSにおいて、データレイクハウスの価格に対する性能が従来のデータウェアハウスと比較して7倍以上も向上するという結果が報告されています※4

データレイクハウスとそのメリット図3:データレイクハウスとそのメリット
(クリックして拡大できます) 

データファブリックとの比較

2023年5月の本コラムでは、分散されたデータの管理性を高める概念であるデータファブリック※5についてご紹介しました。分散データの一括管理が可能になるという利点は、データファブリックとデータレイクの両方に共通しています。ただし、データファブリックはデータレイクおよびデータウェアハウスの機構はそのままにデータ管理の拡張機能を付加する一方で、データレイクハウスは並列分散処理において高いコストパフォーマンスを誇るSparkというフレームワークを主軸とした新しいデータ活用基盤の仕組みとなります。

データレイクハウスの展望

以上のようにデータ活用基盤に新たな価値をもたらすデータレイクハウスですが現時点では発展途上にあると言われています。特にSparkフレームワークやデータレイクハウスにおけるデータ設計の最適化について、高度な専門性が必要になると考えられます。しかしながら、今後データレイクハウスに関連する技術が普及しサービスが成熟するにつれて、データレイクハウスが効果的なデータ管理・分析のツールとしてますます広く利用されることが期待されています。

※1:構造化データ … データベースのテーブルやスプレッドシートなど、明確なデータ構造が存在するデータ
※2:非構造化データ … 画像や音声、eメールなど、データ構造が定められていないデータ
※3:ベンチマーク … 各種製品・サービスの性能を比較するため、特定のタスクを実行した際の処理速度を測定する評価方法
※4:DatabricksがDWHパフォーマンスの公式記録を更新
https://www.databricks.com/jp/blog/2021/11/02/databricks-sets-official-data-warehousing-performance-record.html
※5:データドリブン経営を促進するデータファブリック
https://www.kobelcosys.co.jp/column/itwords/20230501/
 

2023年9月

ITの可能性が満載のメルマガを、お客様への想いと共にお届けします!

Kobelco Systems Letter を購読

電話でのお問い合わせ

営業時間 9:00-17:30(土・日・祝日は除く)

Webでのお問い合わせ

お問い合わせ