コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

データレイク

出典: フリー百科事典『ウィキペディア(Wikipedia)』

データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XMLJSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。

適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される[1]

背景

[編集]

Pentaho のCTOであるJames Dixonが、データマートと対比してこの概念を提唱したと主張している[2]。彼はデータマートにおけるデータのサイロ化などの問題点を指摘し、データレイクの必要性を説いている。PWCコンサルティングは"データレイクはデータのサイロ化の対策となりえる"と発言している[3]

脚注

[編集]
  1. ^ Olavsrud, Thor. “3 keys to keep your data lake from becoming a data swamp” (英語). CIO. http://www.cio.com/article/3199994/big-data/3-keys-to-keep-your-data-lake-from-becoming-a-data-swamp.html 2017年7月5日閲覧。 
  2. ^ Woods, Dan (21 July 2011). “Big data requires a big architecture”. Forbes. https://www.forbes.com/sites/ciocentral/2011/07/21/big-data-requires-a-big-new-architecture/ 
  3. ^ Stein, Brian; Morrison, Alan (2014). Data lakes and the promise of unsiloed data (pdf) (Report). Technology Forecast: Rethinking integration. PricewaterhouseCooper.

関連項目

[編集]