Tableau Prep Builder のお話 〜データ全体を見ながら前処理できる?〜
本ページにはプロモーションが
含まれていることがあります

前々回の投稿では、大人気なBIツール(データ可視化ツール)Tableau Desktopを紹介しました。
“Tableau” と聞くと、皆はどうしても、データを読み込んでグラフを作り、それらを組み合わせて、ダッシュボードを作成する機能を果たすTableau Desktopの方を考えることが多いかと思います。
以外と知られていないのは、データの整形・前処理を行う「従兄弟」のTableau Prep Builder です。
AI・データサイエンス、機械学習の
実践力を高めたい方へ
- AI・データサイエンス・LLMアプリについて知りたい
- AIエンジニア、データサイエンティストになりたい
- DX化推進のための知識を身につけたい
AI人材コースを
無料体験してみませんか?

追加購入不要!これだけで学習できるカリキュラム
充実のサポート体制だから安心
2万円相当の基本講座をプレゼント!
▶AI人材コースを見る


自分のスキルに合わせたカリキュラムが生成できる!
理解度を記録して進捗管理できる!
テキストの重要箇所にハイライトを残せる!
1分で簡単!無料!
▶無料体験して特典を受け取るTableau Prep Builder とは
Tableau Prep Builder は、分析対象となるデータの前準備を行うためのツールです。
データの前処理は非常に重要です。データ品質に問題がある場合は有用な分析結果を期待できません。よく言われるように、「生データ」の7割以上は“Ready”な状態になっていません。
Tableau Prep Builder(以下Prepと呼ぶ)を用いると、データの結合、分割、置換、変換、不要な文字を除くクリーニングなど、データに対して様々な操作を、ノンプログラミングGUIの上で簡単に行うことができます。Prepにはデータ準備でありがちな問題を解決するスマートな機能が用意されており、後ほど図でお見せします。
しかも、今行っているプロセスを全て可視化しながら作業することができるのが特徴です。データの加工と同時に、信頼性・整合性の確認も行えて、変更に伴う結果を即座に確認可能です。
一連のデータ処理を記述する「データフロー」を構築し、これを特殊なPrep専用の形式のファイルとして保存すると、繰り返し使用可能になります。
プログラミングをしなくても、相当複雑なデータ処理を楽々GUI上でできると、データ利活用を、少なくとも完全にデータエンジニアへ依存しなくても良くなりますね。
以下では、実際Prepを操作している様子を通じて、Prepを使うイメージをより具体的にお伝えします。
Tableau Prep Builderの操作を図で見る
ここでは、Tableau Prep Builder で出来る基本的な操作を一通り紹介します。Prepをどのようにデータの準備に使用できるか、のイメージをしてみてください 。

【Prepの基本的な構成】
ワークフロー(フロー) :Tableau Prep Builder (以下 ”Prep”) で作る、データに対する処理を記述するファイル のことです。上の図にあるフローペインやプロファイルペインが、フローを構築しデータを視覚的に操作できるキャンバスのような存在です(Desktopのシートと同様)。
ステップ :データに対してアクションを実行するためのノード(操作群)です。 インプット、クリーニング、集計、ユニオン、結合、出力などいくつもの種類があります。ステップを追加する際に、1つ前のステップの間を線でつなぎます。
Prepを使う際には、まずPrep を開きデータを繋ぎます。データに接続し、インプットステップを作成します。Prepには、使用可能なデータへのコネクターが多種あります。例えばCSVのファイルに接続したい場合は下図のように「テキストファイル」を選びます。

データファイルに接続すると、Prep のワークスペースが開きます。主に2つのセクションに分かれているのが分かりますね。
上にあるのは操作が記述されたステップが見える「フローペイン」、下にあるのはデータの入力情報や統計情報が見える部分です。
フローの中でインプットステップを選択すると、関与するデータの取り込みに使用する設定、含まれているフィールド、一部のサンプル値が表示されます。

フローにステップを追加するたびに、ワークスペースとデータの詳細表示が変化します。
Prepフローを構築する上で、常にデータの確認と加工を反復しています。
データの整合性を調べながら、状況に応じて、クリーニング、統合、集計など様々なアクションを実行 します。
下図のように、いつでも気になるステップを選択しフローのその段階での中身(データの構成、構造、外れ値やNULL値の有無など)を確認・観察することができます。

プロファイルペインから、各フィールドの「カード」にある「その他のオプション」メニューより、使用可能な豊富なクリーニングオプションを選択できます。
フィルタ、空白の削除、値の分割、値の置換、フィールド名の変更、など様々な機能をワンクリックでデータ全体に対して実行できます。

フィールドや値を変更すると、画面左の [変更内容] ペインで追跡できます(下図)。

例えば、下図の具体例では、[Sales] 列に、通貨コード“USD”が含まれており、ゆえに文字列として解釈されています。
通貨コードを削除し、データ型を数字型に変更することができます。

もう1つの操作例:下図は読み込んだ複数のデータファイルを1つのファイルに統合(ユニオン;Union)している様子です。ドラッグ&ドロップだけでこれを実現できます。

もう1つの操作例です。
下図では、不要なスペースを1つの列の項目から一括に省いています。こうすることで、本来同じ意味のデータが余計なスペースが入っていたために異なるデータとして認識されてしまっていた、という問題が解決されました。
目視で確認しにくいが、フリーテキストは余分なスペースが存在しがちです。
分析する上で、文字列に対する操作を行う前に余分なスペースを排除するのが鉄則です。余計なスペースがあるとフィールドが NULL 値として読み取られるリスクもあります。



データのクレンジング、前処理を全て終えた後は、「クリーンなデータ」を出力するステップを追加します。
この出力ステップをクリックすると、[出力] ペインが開き、データのスナップショットが表示される ①生成する出力ファイルのタイプを選択 (hyper または csv) ②名前とファイルの保存先を指定 する必要があります。
Prepのフローから出力を生成する形式は2通りあります。
参考:Tableau データ抽出 (.hyper) –https://dev.classmethod.jp/business/business-analytics/tableau-105-new-feature-hyper-about/
抽出を第3者に共有する必要がある場合は csv ファイルで出力してください。
フローの実行が完了すると、フローの実行が成功したかどうかと、実行に要した時間がステータス ダイアログに表示されます。
エラーが出る場合はフローの右上に表示され、エラーメッセージに従って修正を行う必要があります。最後に[完了] をクリックしてダイアログを閉じます。
フローの実行が成功すれば、指定した出力フォルダーに分析にこれから使用できる綺麗な処理後のデータを見つけることができます。

Tableau Prep と Tableau Desktopとの相性
PrepはTableau Desktop と相性抜群です。Prepの出力データはワンクリックで、 Desktop ですぐに開くことができて、そうするとデータ処理を終えたものを即座に分析フローに乗せることができますね。

AI・データサイエンス、機械学習の
実践力を高めたい方へ
- AI・データサイエンス・LLMアプリについて知りたい
- AIエンジニア、データサイエンティストになりたい
- DX化推進のための知識を身につけたい
AI人材コースを
無料体験してみませんか?

追加購入不要!これだけで学習できるカリキュラム
充実のサポート体制だから安心
2万円相当の基本講座をプレゼント!
▶AI人材コースを見る


自分のスキルに合わせたカリキュラムが生成できる!
理解度を記録して進捗管理できる!
テキストの重要箇所にハイライトを残せる!
1分で簡単!無料!
▶無料体験して特典を受け取る
この記事の著者 ヤン ジャクリン
2015年 東京大学大学院 理学系研究科物理学専攻 修了(理学博士)
2015年 高エネルギー加速器研究機構 素粒子原子核研究所(博士研究員)
2017年 株式会社GRI(現職) 講師 兼 分析官
2019年 Tableau Desktop Certified Associate 資格取得
・英検1級
・TOEFL IBT試験満点
北京生まれ、米国東海岸出身(米国籍)、小学高学年より茨城県育ち。
万物の質量の源となるヒッグス粒子の性質を解明し、加速器実験による新粒子発見に関する研究を行い、国際・国内学会発表20件以上、査読論文5件以上。
10年以上に渡り、幅広い年齢層の学習指導を学習塾や大学などで実施(5科目、英会話、受験指導、素粒子物理など)。
現在は、株式会社GRIにて、データ分析官(データ前処理、可視化分析、マーケティング施策の分析 他)
公開講座および法人研修を多数開設。