これからは、コレ!旬なIT技術やこれから主流となりつつあるIT技術に関する情報をご紹介します。

2016年01月01日

Data Lakes(データレイク)
ビックデータの湖

データレイクとは?

センサーのログやGPS(全地球測位システム)、ソーシャルメディア、画像・映像、音声といった「非構造化データ」を管理するのに適した仕組みで、簡単に言うと「多種多様なデータ形式を飲み込んで貯めておけるような広大な領域」です。

一般的にデータ蓄積には、時系列で業務データを溜めていく「データウエアハウス」がよく適用されますが、これは目的をはっきりさせた上で設計を行い、収集するデータを必要なものだけに絞り込んで使用されます。そのため、ビックデータや IoT と言ったキーワードが世間で話題となり、後から「こんな分析をしたい!」と多様なニーズが出てきたとしても、データがないという場合がありました。

データレイクは、「様々なデータを最初から収集して、何か活用(分析)をしようと思い立った時、すぐに実行できること」が特徴となっています。

データレイクの仕組み

巨大な貯蔵領域にデータをまるごと格納する事になる為、データモデルは事前に設計しません。利用を進めていく中で、データにビューを設定していくなど、段階的に構築が進んでいく事となります。具体的には、あらゆるデータをネットワーク経由で収集し、オープンソースソフト(OSS)(*1)の分散処理基盤である「Hadoop」(*2)に蓄積します。

*1『オープンソースソフトウェア』
https://www.kobelcosys.co.jp/column/itwords/67/
*2『大規模データを効率良く活用!分散処理技術』
https://www.kobelcosys.co.jp/column/itwords/215/


データレイクとデータウェアハウスの仕組みの違い


データレイクのメリット

データレイクを利用することで、新たな知見(洞察)を得るためのデータ分析を行うにあたり、以下のメリットを得ることが出来ます。

  • データの一元管理

    これまでのシステムは個別にデータを最適化していましたが、データレイクにデータを集約することで、全体最適化できます。データ管理も一元管理により簡素化できます。

  • データ供給環境の整備

    データ形式に関わらず、多様なデータを蓄積しておくため、欲しいデータを欲しい分だけ、容易に早く抜き出すことが可能になります。

逆にデメリットとして、データを分析するためのツール活用方法や、中にどのようなデータが存在するかを把握する時など、活用時に高度なスキルが必要になってきます。

データレイクの事例

「インダストリアル・インターネット」を提唱するGE社では、テラバイト(TB)規模に達する航空機の飛行データの管理や分析にデータレイクを採用しています。たとえば航空機のエンジンが通常より高温を報告した場合、エンジンの機種や使用年数、整備実績、その他の多くの要素に基づいて、即座に過去の類似案件を見つけ出すことができます。また、飛行データの分析結果を活用して年間燃料コストを削減するなど、航空会社に対するサービス提供に生かしています。

欧州の通信事業者も、データレイクで携帯情報端末のGPSデータなどを管理・分析し、顧客サービスの向上に活用しています。例えば、利用者の位置情報をリアルタイムで特定し、顧客にクーポンを発行するなどの取組み例があります。

製造業を中心に、IoT(Internet of Things *3)に対するニーズが飛躍的に高まっている日本でも、今後データレイクを採用する企業が増えてくると思われます。

*3『あらゆるモノがインターネットにつながる世界 ~「モノのインターネット(Internet of Things)」』
https://www.kobelcosys.co.jp/column/itwords/227/


2016年1月

ITの可能性が満載のメルマガを、お客様への想いと共にお届けします!

Kobelco Systems Letter を購読