これで無理なら諦めて!世界一やさしいデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

Pythonでデータ分析

本ブログで紹介した理論記事をもとに、Pythonにて実際に分析をしています。データの前処理から結果の可視化、モデル評価まで一連の分析の流れについて紹介します。

add・reduce・outerなど、Numpyのユニバーサル関数(ufunc)について整理してみた

今回は、numpyを使う上での備忘録として、universal function(通称ufunc)について整理しておきたいと思います。ufuncとは、何ぞやuniversal functionとは、numpy配列に含まれる全ての要素に対して、何らかの演算を行う関数です。ufuncの良いところとして、 …

「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた

「マジ卍」って一体どんな意味なんでしょうか?正直おじさんにはさっぱりです…。そんなときはword2vec先生に質問してみましょう! PythonでTwitterデータを元に実践してみました。

Pythonで高速化処理!numbaとCythonの実行速度を比較してみた。

本記事は、python Advent Calendar 2017の23日目の記事です。今回はPythonを高速化するための、numbaとCythonについて紹介します。Pythonを使っている方なら、for文処理が遅い、データの前処理が終わらないといった状況に一度は陥ったことがあると思います。…

【Pythonで決定木 & Random Forest】タイタニックの生存者データを分析してみた

タイタニックの乗客データを使い、何が生存率に影響を与えいるのか、決定木とランダムフォレストで分析してみました。

【Pythonでテキストマイニング】TwitterデータをWordCloudで可視化してみる

スピードワゴンの小沢さんのツイートを使い、PythonからWord Cloudによる可視化を行いました。Word Cloud関連の記事は、既に多くあり特に目新しいものではないですが、可視化ツールとしてはなかなかインパクトがあるので、テキストマイニング関連の分析の一…

Pythonで傾向スコア(Propensity score)マッチングとIPWを実装してみた

さて、今回は傾向スコアマッチングのPythonによる実践編です。 傾向スコアって何?という方は、まずはこちらの記事を参考にしてみてください。 www.randpy.tokyo www.randpy.tokyo今回の趣旨としては、Pythonでの実装という部分に重きを置いていますので、手…

都議選のデータ使ってPythonでロジスティック回帰分析 都民ファーストがやっぱり最強か!?

今回は、前回習った一般化線形モデルの実践編です。 理論編については、以下記事を参考にしてください。 randpy.hatenablog.com分析テーマは、この前行われた都議選です!!立候補者のどのような属性が当選確率に影響したのか、ロジスティック回帰分析を使っ…

PythonのStatsModelsによる線形回帰分析! 交差項もモデルに入れてみた!

今回は、Pythonを使って実際に重回帰分析をしていきたいと思います。 回帰分析って何?という方はこちらの記事を参考にしてみてください。 randpy.hatenablog.com データの傍観 Pythonにはscikit-learnという機械学習によく使われるライブラリがあります。ク…