コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

データジャケット

出典: フリー百科事典『ウィキペディア(Wikipedia)』
データジャッケトから転送)

データジャケットは、コンテンツを公開することなく、データセットに関する貴重な情報を潜在的なユーザーに伝え、プライバシーを保持し、データセットの主題に関する専門家以外の人に説明するためのメタデータの一種です。大澤幸生が2013年に考案した。[1][2]大澤幸生が、当時主催されたデータ分析コンテストで用いられたデータが既に入手できなくなっていたことを知り、2013年3月に考案した。岩田修一東京大学名誉教授らと教育支援ツールとして、横浜市と地域活性化支援ツールとして実装的研究を進め、経済産業省におけるデータ駆動イノベーション協議会[3]や国土交通省の事業[4]にも用いられ、情報の価値を検討し創造するデータ市場として世界をけん引する方法論となった。

背景

[編集]

インターネットの普及、技術の進歩、AIの出現以来、学界とビジネスのいくつかの分野でのデータの潜在的な用途が増加しました。[5]。機械学習アルゴリズムや意思決定支援システムへの入力など。 さらに、Open Data InitiativeやWorld Wide Web Consortiumなどの他の動きは、データへのアクセスを容易にする方法を開発しています。 これに関連して、データジャケットは、ユーザーが貴重なデータを見つけるのを支援するために提案され、データのアクセシビリティへの障壁を表す3つの問題に対処します:1)理解可能性、2)機密性、3)データの転送コスト。

これに関連して、データジャケットは、ユーザーが貴重なデータを見つけるのを支援するために提案され、データのアクセシビリティへの障壁を表す3つの問題に対処します:1)理解可能性、2)機密性、3)データの転送コスト。

理解しやすい [6]: データセットは多くの場合、技術的な記号に体系化されているか、単に高度な技術知識が必要です。 たとえば、ゲノムプロジェクトのデータセットは特定のコードとタンパク質名で記録されますが、この分野の専門家ではない人は、専門知識を学ぶための多大な努力なしには理解できません。

機密性 [7]: データセットには、個人情報を含む患者の健康診断など、特定の条件なしに開かれてはならない個人データが含まれる場合があります。 機密性の問題の別の例は、所有者が所有権のためにプライバシーを保持したいデータの商用利用です。 データの経済的価値のため、交渉された条件なしでは開示されない場合があります。

譲渡性のコスト [8]: データセットを使用可能にするには、転送とメンテナンスにコストのかかるストレージとセキュリティプロトコルが必要です。 データプロバイダーは、セキュリティプロトコルを必要とせずに、メタデータ内のデータの開示可能な情報のみを提供できます。

最後に、上記の問題を克服して、利害関係者は交渉の成功のためにデータの条件と価格を評価することができます。 データジャケットは、データマーケットプレイスでデータを記述するための標準的な慣行としてデータトレーディングアライアンスによって推進されたデータカタログガイドラインのコンポーネントになりました。[9] また、データに関する情報およびデータの潜在的な使用の可能性を開示する方法として企業によって採用されています。[10][11]

スキーマ

[編集]

データジャケットは、データセット自体を移植しないメタデータ形式の非技術言語で記述されたデータセットに関するダイジェスト情報で構成されます。 情報をダイジェストすると、特定のフィールドの専門家でなくても説明を理解できます。 データセットのコンテンツを含まないメタデータのみになったら、データへのアクセスを開始する前に共有の条件を検討し、データセットをプライベートストレージに保存して、ストレージとメンテナンスのコストを削減またはゼロにすることができます。 同様に、CDショップのCDジャケットは、棚でアクセス可能なCDに関する関連情報を提供しますが、CDは店内に保管されます。 強盗の可能性から安全になり、保管が容易になります。 データジャケットは、潜在的なユーザーに関連する可能性のあるデータセットに関する貴重な情報を作成者が整理できるように、半構造化されています。

データジャケットのダイジェスト情報の主な構成

[編集]

タイトル–データセットの名前

概要-専門家以外の短い説明

変数ラベル–データセットに含まれる変数のリスト

その他のコンポーネント

[編集]

共有ポリシー-開いていないデータを共有する条件がある場合。

収集方法–研究者が分析のためにデータの信頼性を評価するため。

適用可能な分析方法–データセットから情報を取得する方法をアドバイスします。

データ形式–データが記録される形式。

データ型–データの計算方法。

脚注

[編集]
  1. ^ Ohsawa, Yukio; Kido, Hiroyuki; Hayashi, Teruaki; Liu, Chang (2013-01-01). “Data Jackets for Synthesizing Values in the Market of Data”. Procedia Computer Science 22: 709–716. doi:10.1016/j.procs.2013.09.152. ISSN 1877-0509. https://www.sciencedirect.com/science/article/pii/S1877050913009459. 
  2. ^ 大澤, 幸生 (2014). “データジャケット : 創造的コミュニケーションのあるデータ市場のために(Big Data Becomes Personal-発見情報学が拓くヘルス&ウェルネス-)”. 人工知能 29 (6): 622–627. doi:10.11517/jjsai.29.6_622. https://www.jstage.jst.go.jp/article/jjsai/29/6/29_622/_article/-char/ja/. 
  3. ^ 企業間データ連携からビジネスモデルの創造へ--経産省が考える社会の未来”. ZDNET Japan (2015年7月21日). 2024年11月21日閲覧。
  4. ^ ビッグデータの活用手法(IMDJ)の紹介”. 2016 年夏季閲覧。
  5. ^ Carrara, W., Chan, W. S., Fischer, S., & Steenbergen, E. (2015). Creating Value through Open Data: European Data Portal. Belgium, EU: Digital Agenda for Europe.
  6. ^ Ohsawa, Y., Liu, C., Hayashi, T., & Kido, H. (2014). Data jackets for externalizing use value of hidden datasets. Procedia Computer Science, 35, 946-953.
  7. ^ Hayashi, T., & Ohsawa, Y. (2016). Comparison between Utility Expectation of Public and Private Data in the Market of Data. Procedia Computer Science, 96, 1267-1274.
  8. ^ 早矢仕晃章, & 大澤幸生. (2016). Data Jacket Store: データ利活用知識構造化と検索システム. 人工知能学会論文誌, 31(5), A-G15_1.
  9. ^ Data Trading Alliance, 2019. Data Catalogue Guidelines (in Japanese). Accessed https://data-trading.org/
  10. ^ Fujitsu, 2019. Fujitsu Puts Blockchain to Use for "Virtuora DX" Data Distribution and Utilization Service. Accessed https://www.fujitsu.com/
  11. ^ ABEAM 2019. Using issue-driven data to move toward Connected Enterprises. In: ABEAM Public Relations Report 2018-19. Accessed https://www.abeam.com/