Np-Urのデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

Anacondaを使って爆速でMacにPython分析環境を構築する

データ分析ではRやPythonがよく使われますが、こと機械学習の領域になるとPythonユーザーが一気に増える印象があります。
流行りの機械学習、乗り遅れないためにもPythonが使える環境を整えましょう!

難しさはほとんどありません。今回は、Anacondaというツールを使ってPython環境をセットアップする方法をお伝えします!
なお、主にMacユーザーに向けて今回は執筆しました!

Anacondaとは

ヘビではありません!!Anacondaとは、pythonでデータ分析をする上で必要なパッケージをまとめてくれているディストリビューションです。

これをインストールするだけで、数値計算やデータ整形に必要なnumpy,pandas、機械学習をする際に必要になる
scikit-learnを使用することができ、正直Anacondaさえ入れてしまえば、大体の分析はできちゃいます!!

簡単に言うと、家を買ったらついでに家具や食器などがついてくるような感じですね♪(この例え合ってるのかな、、、、)
必要なパッケージを個々にインストールしてもいいのですが、
正直面倒臭い(コンパイルのエラーとかも起きる)ので、Anacondaを入れてさっさと分析の環境を整えてしまいましょう!

Anacondaのインストール方法

まずは以下URLからAnacondaのサイトに飛びましょう。
https://www.continuum.io/downloads

f:id:gl2000-sans:20170607192954p:plain
OSごとにインストーラが違いますので、自分の環境に適したものを選んでください。

また、Python3.XXとPython2.XXがあると思いますが、基本的にはPython3.XXの方を選んでいただいて大丈夫です。
Python2.XX系でしか動かないパッケージも中にはあったりしますが(今はもうあまり無い気がする)、後からでもPython2.XX系専用の分析環境は整えることができるので、安心してください。

MacOSの場合は、
グラフィカル版のものをダウンロードして、
Anaconda3-4.3.0-MacOSX-x86_64.pkg を実行してインストーラーを起動します。
基本的にはデフォルトのままでいいでしょう。

さて、インストールできたら、早速Pythonが使えるのか試してみましょう!
ターミナルでpythonと打ち込んで頂くと、以下のようなメッセージが表示され、Pythonが起動されるかと思います。

$ python
Python 3.5.2 |Anaconda 4.2.0 (x86_64)| (default, Jul  2 2016, 17:52:12) 
[GCC 4.2.1 Compatible Apple LLVM 4.2 (clang-425.0.28)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> 

次にPythonで分析する上で必ずと言っていいほど必要となる、

  • numpy
  • pandas

これらのライブラリをimportしてみます。
以下のコマンドを入力してみてください。

>>> import numpy
>>> import pandas

エラーもなくライブラリをimportできているかと思います。
いやーほんとAnacondaをインストールしただけで、必要なものが揃ってるって本当に便利ですねー。

jupyter notebookを導入したら分析がらくちん?

jupyter notebookってなんぞや?と思うかと思いますが、
これを導入するとブラウザ上でPythonを動かすことができるようになります。

それって何がいいの?

一言で言うとインタラクティブにコードが書ける点だと私は思います。
データ分析に限らず、プログラミングはなんでもそうだと思いますが、
書いたコードが動くのかどうか適宜試しながら進めたいですよね?

いちいちpythonファイルを開く→コードを書く→ファイルを閉じる→Pythonを実行する→エラーが出る→ファイルを開く→...というのを繰り返すのは正直効率が悪いです。
jupyter notebookを使えば、コードを書いて、実行してみるというのを手間もなく簡単に実現できます!

なかなか文字だけではわからないと思うので、実際に使ってみましょう!!
Anacondaをインストールしていればjupyter notebookもインストールされているので、すぐに使うことができます。
ターミナル上でjupyter notebookと打ち込んでみましょう。

$ jupyter notebook
[I 20:07:45.198 NotebookApp] [nb_conda_kernels] enabled, 3 kernels found
[I 20:07:47.636 NotebookApp] [nb_conda] enabled
[I 20:07:47.980 NotebookApp] [nb_anacondacloud] enabled
[I 20:07:48.425 NotebookApp] ✓ nbpresent HTML export ENABLED
[W 20:07:48.426 NotebookApp] ✗ nbpresent PDF export DISABLED: No module named 'nbbrowserpdf'
[I 20:07:48.440 NotebookApp] Serving notebooks from local directory: /Users/takahiro-nakano
[I 20:07:48.440 NotebookApp] 0 active kernels 
[I 20:07:48.440 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/
[I 20:07:48.441 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).

すると、謎のメッセージがズラっとでてきます。(無視しましょう!)
その後、ブラウザが勝手に開いて、このような画面が出てくるかと思います。
f:id:gl2000-sans:20170607201056p:plain

右上にNEWというボタンがあるので、そこをクリックしてPython[default]を選択してみましょう!
f:id:gl2000-sans:20170607201438p:plain

このような画面が立ち上がりましたでしょうか?
ここの小さい枠に

for i in range(1,5):
     print(i)

と打ち込んで、shift + enterを押してみてください。
f:id:gl2000-sans:20170607201703p:plain

すると、この画面上でPythonが実行され、その実行結果が表示されてるかと思います。
そして、コードを書く四角い枠が新しくできててます。
この新しい枠にまたコードを書いて実行するといったように、
コードを部分的に書いて実行してみるといったサイクルがお手軽にできるわけです。

いやーほんとに便利ですね!!

以上でPythonでの分析環境づくりは終わりです。。(Anacondaしか入れてない笑)

もしpyenv(Pythonのバージョン管理ツール)を既に入れているかたは、上記の方法だと動かないかもしれません。
その場合はpyenvからでもAnacondaを入れることができるので(というかそっちの方が速い)、
そちらの方法はまた別の機会に執筆いたします。

次回からは、実際にPythonを使って回帰分析をしてみたいと思います。
Rの分析環境を整えたいという方はこちらを参考にしてみてください。。
randpy.hatenablog.com