jupyter notebookで多変量データの分析をしているとき、しばしばデータの理解に集中できていないと感じます。
例えば変数間の相関をクロスプロットで見るときに、データの一部を抽出したり、除外したりするのに手間がかかり、ストレスを感じていました。
初めて得たデータを解析するときは、どこにどう注目すべきか、どう可視化すべきか定まっていないことが多いので、データ抽出→可視化の繰り返しになります。
抽出や可視化のためのコーディングに脳のリソースを割いているせいでデータの理解のための思考が中断されるのを避けたいと考え、試行錯誤の結果、最終的にGlueというPythonライブラリに行き着きました。
http://glueviz.org/en/stable/#調べた感じでは日本語で紹介している人はいなさそうで、ユーザーも少なそうですが、少し使ってすぐにファンになりました。
- dataframeの散布図やヒストグラムの表示
- データのsubsetをGUIで簡単に生成・管理でき、複数のグラフ間で共有される
- ipython consoleが埋め込まれているので、凝った解析やグラフ描写も可能
- 読み込むデータ形式やグラフテンプレートの登録が可能
このへんが気に入りました。
最近は、
- 新鮮なデータ→Glue
- 詳細な解析→Jupyter notebook
- 自動化→Spyder
という感じで、役割が分担されつつあります。