データプレパレーションとは?その概要とメリット、ETLとの違い

社会の急速なデジタル化に対応するため、企業ではセルフサービスBIや機械学習の活用が進んでいます。しかし、これらをスムーズかつ低コストに活用できているでしょうか。「分析したいデータはあるけれど、そのままでは使えない」「使えるようになるまで手間がかかる」といった問題に直面していませんか?こういった「データ準備にかかる悩み」への解決手段として注目されているのが「データプレパレーション」です。ここでは、データプレパレーションの基礎知識、ETLとの違いなどを中心に解説していきます。

1. データプレパレーションの概要と注目される背景

まず、データプレパレーションの概要と、注目される理由(背景)について整理しておきましょう。

1-1. データプレパレーションの概要

データプレパレーションとは、企業内外のあらゆるデータを、IT部門だけでなくビジネス部門のユーザーも思いどおりに加工・変換していく新しい手法のことです。データを必要とするビジネス部門のユーザーが自ら、すばやくデータを準備できる環境にすることで、企業全体のデータ活用を大きく前進させることができます。
データプレパレーションでは、データ活用のボトルネックであるデータ準備コストを、以下のような特徴で低減します。

  • データ収集、欠損値の補完、変換、表記ゆれ、などを効率よく処理できるGUI
  • コーディングのスキルを持った開発者向けではなく、一般のビジネスユーザーやデータアナリストの使用を想定
  • 分散コンピューティングの利用

セルフサービスBIや機械学習に代表される分析ツールには、「整備されたデータ」が必要です。つまり、一定以上の統一性や定型性が担保されたデータが求められるわけです。一方、収集された膨大なデータは、必ずしも整備された状態とは限りません。表記ゆれや誤変換、欠損値、フォーマットのズレなどが点在しています。これらデータの不備をアドホックに効率よく処理し、いちはやく「使えるレベル」に引き上げられるのが、データプレパレーションの強みなのです。

1-2. データプレパレーションが注目される背景

データプレパレーションが注目される背景としては、以下のようなものがあります。

データ準備にかかるコストの大きさ

データサイエンティストがデータ分析作業に投入するコストのうち、約5割から8割が「データ準備にかかるもの」という調査結果があります。(参考:New York Times)

つまり、データ準備のコスト低減は、データ分析作業全体のコスト低減に直結しやすいということです。

良質なデータへの需要拡大

あらゆる業務でデータ活用が進み、モダンBIなどセルフサービスツールの人気が高まっています。これを受けて、一般のビジネスユーザーが独力で分析を行う機会が増え、「良質なデータ」への需要が高まっています。

データ量の急激な肥大

IoTやSNS、クラウドサービスの普及により、「データの量」が急激に肥大化しています。これまで当たり前のように行われてきた、Excelを使ったアナログな修正作業(目視確認しながら、色付け、手入力など)が、通用しなくなる可能性が高いのです。

半構造化データの増大とフォーマットの多様化

SNSから収集したJSON形式のソーシャルデータやオープンデータ(インターネットから誰もが自由に取得し、利用・再配布可能な情報)、マシンデータ(IoTデバイスなどから収集される雑多なデータ)には、ビジネスのヒントになり得る重要な情報が含まれています。しかし、半構造的であったり、構造化されていなかったりと、そのまま分析に使えるような形式ではないことが多いでしょう。また、フォーマットの違いが、データ分析の障壁になることも少なくありません。近年のデータ分析作業では、これら「半構造化データへの対処」と「フォーマットの多様化を吸収する方法」が求められているといえます。

2. データプレパレーションの活用事例

次に、データプレパレーションがどういったシーンで活用できるのかを紹介していきます。

VOC(顧客の声)活動の促進

VOC活動は、製品開発やマーケティング、営業、業務効率化につながる重要なプロセスです。データプレパレーションを使えば、テキストで収集したVOC(アンケート結果など)に対して、クレンジング・表記ゆれ修正・名寄せ・グルーピング・カテゴリ分けなどが容易になります。

顧客理解とCX向上

データプレパレーションを、特定の製品・サービスを利用する顧客行動の理解とCX向上に役立てることもできます。具体的には、顧客IDやメールアドレスをキーにしたデータ結合・フィルタリングを行い、セグメント設定やターゲット抽出に繋げる、といった方法です。

非IT部門ユーザーによるデータセット構築

前述したように、データプレパレーションは、GUIをベースとした対話形式での操作が可能です。プログラミングやコマンド入力は不要で、モダンBIツールに対して、Excelデータの整形、DWHデータの可視化、API結合による自動取り込みなどが容易に行えます。マウス操作をベースにしているため、非IT部門のユーザーでも扱いやすいでしょう。

センサーデータ加工の容易化

IoTデバイスが収集するデータを可視化できれば、品質改善につながる有益な情報が得られるでしょう。しかし、IoTデバイスが収集したセンサーデータは、複雑な構造を持っています。PythonやJavaでしか扱えず、加工しにくいことが多かったわけです。データプレパレーションを使えば、センサーデータ全件を対象に、プログラムレスで加工整形が可能になります。もちろん、GUIベースの操作が基本です。

3. データプレパレーションとETLの違いは?

データプレパレーションと混同されがちな仕組みとして「ETL」があります。ETLは「Extract(抽出)」「Transform(変換)」「Load(格納)」というデータ統合時に発生するプロセスの頭文字を繋げた言葉です。現在では、CRMやERP、SCMなどの企業内システムからデータを取り込み、DWH構築に繋げる仕組みとして活用されています。企業内に点在するデータソースごとに、適宜加工処理を施した上で情報を蓄積していくわけです。データ加工という点においては、データプレパレーションと似たような役割を負っているといえます。ただし、両者の間には明確な違いがあります。

データプレパレーションとETLの違い

ターゲットユーザー

ETLが「システム開発者」を対象にしている一方、データプレパレーションは「ビジネスアナリスト」「データアナリスト」「データサイエンティスト」がターゲットユーザーです。これまでも紹介してきたように、一般のビジネスユーザーでも扱えることが、データプレパレーションの強みです。

ユースケース

ETLは、プログラミングによって企業内システムに点在するデータを集約し、DWHを構築するためのツールです。また、データ移行や複製、仮想化にも対応しています。一方データプレパレーションは、担当者ベースでのデータ加工を想定しており、GUIを使った対話形式でのデータセット構築が基本です。

UI

コーディングによるワークベンチスクリプト作成が必要なETLに対し、データプレパレーションはマウスクリックが操作の基本です。

コーディングの要否

ETLはツールによって多少の差はありますが、コーディングが求められるケースが多々発生します。一方、データプレパレーションはコーディングが不要です。

ETLは「比較的大規模な企業内システムからデータを集めるための仕組み」と考えて良いでしょう。一方のデータプレパレーションは、「収集されたデータを個人単位で容易に加工・修正できる仕組み」といえます。

4. まとめ

本稿では、データプレパレーションの概要と活用事例、ETLとの違いについて解説しました。データプレパレーションは、構造化データはもちろん、半構造化データの活用を促進します。また、専門的なITの知識を必要としません。データ活用のコスト低減や、非IT部門での円滑なデータ分析を目指すならば、データプレパレーションを提供するベンダーへ問い合わせを検討してみてはいかがでしょうか。

おすすめコンテンツ