「altreyx」を使って実際に分析してみた!

こんにちは。山口です。先日の記事(http://www.exture-ri.com/?p=136)では「altreyx」(オルタリックス)という解析ツールを紹介しましたが、今回は実際に使ってみてのレポートをしたいと思います。

 この記事では次のようなトピックスについてご説明します。

  1. 「alteryxのインストール」
  2. 「複数のファイルに別れたデータの結合(データブレンド)」
  3. 「グラフの作成」
  4. 「回帰分析による推計」

1.「alteryxのインストール」

alteryxは(http://www.alteryx.com/)のDOWNLOAD NOWからexeファイルをダウンロードし実行してください。2週間は試用期間として無料で使えます。

alteryx 予測ツールインストール

 2.「複数のファイルに別れたデータの結合(データブレンド)」

今回は「妖怪ウォッチ」と「ポケモン」の関係性についてこのツールを使って分析を行っていきます。今年の夏頃から急激に話題に登るようになった妖怪ウォッチですが、既存の人気コンテンツであるポケモンにどう影響を与えたのでしょうか。今回はGoogle Trendのデータからそれを探って行きたいと思います。

まずGoogle Trendから持ってきた2つの「妖怪ウォッチ」と「ポケモン」の2つのデータセットを一つにまとめる必要があります。スライド2

alteryxのツールバーから「Input Data」のアイコンをドラッグしてきて、該当のcsvファイルを開きましょう。

スライド3次に「Select」からデータ型の選択・リネームを行います。データ型に関してこのタイミングでcsvの元ファイルの戻らずとも、設定できラベルのリネームも簡単に行えるのが非常に良いです。ストレスなく分析の設計が行えます。スライド4そして「Join」からデータの結合を行います。Weekの変数をもとにデータの結合を行いました。結合後に同じデータがあるのを避けるため、片方のWeekのチェックボックスを外しています。

スライド5そして「Browse」を使って、結合後のデータセットをチェックします。きちんと結合できていることが確認できました。

3.「グラフの作成」

次にグラフを用いたデータの可視化を行います。数値を眺めているだけでなく、グラフにしてみることで新しい切り口が見えるかもしれません。

スライド6

Reportingから「Charting」をドラッグしてきます。そしてグラフの設定を行います。今回が折れ線グラフを使いました。

スライド7

その結果を「Browse」で眺めているのがこちらの画像です。赤が妖怪ウォッチのトレンド、青がポケモンのトレンドになっています。一見すれば妖怪ウォッチの隆盛とともにポケモンが落ちてきているように思えます。

 

 4.「回帰分析による推計」

グラフでは妖怪ウォッチにより王者ポケモンが侵食されているように見えましたが、実際「統計的にはどれくらいの影響」なのかを線形回帰分析を用いて推計してみます。

スライド8

「Predictive」から「Liner Regression」をドラッグしてきます。そして被説明変数にポケモンを説明変数に妖怪ウォッチを入れます。

スライド9

 

今回も同様に「Browse」から結果を眺めています。妖怪ウォッチが1増えるとポケモンが-0.3となることがわかりました。今回のデータから行った推計では、確かに妖怪ウォッチの検索数が増えることで、ポケモンの検索数が減るということが示唆されています。

まとめ

今回「alteryx」を用いての分析を行いました。分析の内容に関しては賛否があると思いますが、alteryxの魅力に関しては十分にアピールできたかなと思っています。実際に使ってみて、「GUIによるワークフローの設計」という部分が非常に強力だと実感しました。分析の途中で元データに立ち返らなくても、データの型を変更したり、ラベルの名前を変更できるということは分析におけるストレスを減らしてくれます。「このデータってどういう加工をして作られたんだっけ」というときもすぐに確認することができます。目の前のデータに集中してしまい、分析の設計を忘れがちな人にオススメです。

データ分析の上流から下流までをトータルでカバーできる「alteryx」でした。