Np-Urのデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

Pythonでデータ分析

本ブログで紹介した理論記事をもとに、Pythonにて実際に分析をしています。データの前処理から結果の可視化、モデル評価まで一連の分析の流れについて紹介します。

【お手軽監視カメラ】Raspberry Pi + USBカメラ + Python + Slack で自宅を守るぞ！

ハードウェア Docker Pythonで実践編 Slack

最近、利便性は高いけど少し治安の気になる地域への引っ越しを考えていまして…。自宅に監視カメラがあれば、心置きなく引っ越しを進められるなと思い、Raspberry Pi と USBカメラを使って自作してみることにしました！エンジニアだったら自分で作って当たり…

add・reduce・outerなど、Numpyのユニバーサル関数（ufunc）について整理してみた

numpy 備忘録 Pythonで実践編

今回は、numpyを使う上での備忘録として、universal function(通称ufunc)について整理しておきたいと思います。ufuncとは、何ぞやuniversal functionとは、numpy配列に含まれる全ての要素に対して、何らかの演算を行う関数です。ufuncの良いところとして、 …

「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた

Pythonで実践編テキストマイニング word2vec

「マジ卍」って一体どんな意味なんでしょうか？正直おじさんにはさっぱりです…。そんなときはword2vec先生に質問してみましょう！ PythonでTwitterデータを元に実践してみました。

Pythonで高速化処理！numbaとCythonの実行速度を比較してみた。

Pythonで実践編 Python高速化

本記事は、python Advent Calendar 2017の23日目の記事です。今回はPythonを高速化するための、numbaとCythonについて紹介します。Pythonを使っている方なら、for文処理が遅い、データの前処理が終わらないといった状況に一度は陥ったことがあると思います。…

【Pythonで決定木 & Random Forest】タイタニックの生存者データを分析してみた

Pythonで実践編決定木・ランダムフォレスト

タイタニックの乗客データを使い、何が生存率に影響を与えいるのか、決定木とランダムフォレストで分析してみました。

【Pythonでテキストマイニング】TwitterデータをWordCloudで可視化してみる

Twitter API テキストマイニング Pythonで実践編

スピードワゴンの小沢さんのツイートを使い、PythonからWord Cloudによる可視化を行いました。Word Cloud関連の記事は、既に多くあり特に目新しいものではないですが、可視化ツールとしてはなかなかインパクトがあるので、テキストマイニング関連の分析の一…

Pythonで傾向スコア(Propensity score)マッチングとIPWを実装してみた

Pythonで実践編傾向スコア

さて、今回は傾向スコアマッチングのPythonによる実践編です。傾向スコアって何？という方は、まずはこちらの記事を参考にしてみてください。 www.randpy.tokyo www.randpy.tokyo今回の趣旨としては、Pythonでの実装という部分に重きを置いていますので、手…

都議選のデータ使ってPythonでロジスティック回帰分析　都民ファーストがやっぱり最強か!?

Pythonで実践編一般化線形モデルロジスティック回帰

今回は、前回習った一般化線形モデルの実践編です。理論編については、以下記事を参考にしてください。 randpy.hatenablog.com分析テーマは、この前行われた都議選です！！立候補者のどのような属性が当選確率に影響したのか、ロジスティック回帰分析を使っ…

PythonのStatsModelsによる線形回帰分析! 交差項もモデルに入れてみた!

Pythonで実践編線形回帰

今回は、Pythonを使って実際に重回帰分析をしていきたいと思います。回帰分析って何？という方はこちらの記事を参考にしてみてください。 randpy.hatenablog.com データの傍観 Pythonにはscikit-learnという機械学習によく使われるライブラリがあります。ク…