Np-Urのデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

2017-07-01から1ヶ月間の記事一覧

【傾向スコア-後編】犠牲バントの「本当の効果」を分析するための傾向スコア使い方

本記事は下の記事の続きとなります。まだご覧になっていない方は、是非お読みください! www.randpy.tokyo前編では、現実世界のデータから施策の評価をしたいときに、よく起こる問題点について述べました。 そしてその問題点を解決する手法の一つが傾向スコ…

【傾向スコア-前編】現実のデータを扱う上での問題点とその対策について

突然ですが、施策の効果をきちんと測定することは、実はとても難しいのです。ここでいう施策の効果とは、例えばあるクラスの生徒への特別な教育の効果であったり、ある病気にかかった人々への薬の処方の効果であったり、プロ野球のある場面で犠牲バントを行…

都議選当選への影響要因をロジスティック回帰で推定してみた!【Rで実践編】

前回は、都議選の当選・落選という結果が候補者のどんな属性に影響を受けているのか、Pythonで推定を行いました。 また必要なデータは、PythonのBeautiful Soupというライブラリを使ってスクレイピングして取得しました。 randpy.hatenablog.comロジスティッ…

都議選のデータ使ってPythonでロジスティック回帰分析 都民ファーストがやっぱり最強か!?

今回は、前回習った一般化線形モデルの実践編です。 理論編については、以下記事を参考にしてください。 randpy.hatenablog.com分析テーマは、この前行われた都議選です!!立候補者のどのような属性が当選確率に影響したのか、ロジスティック回帰分析を使っ…

はてなでtex書いている人たちへ…数式が長くてスマホだとはみ出るときの対処法

はてなでtex駆使して数式書いている人って素敵ですよねー…。 はい、つまり僕も素敵です。ちなみに僕はmathjaxというのを使っています。headタグにjavascriptの読み込みコードを挿入するだけなので非常に簡単です。今回は小ネタとして、はてなでtexを書いてい…

柔軟な確率分布を仮定して分析できる!一般化線形モデル(GLM)とは?

前回までは線形回帰の理論とそれを使った分析の実例について紹介しました。 【理論編】 randpy.hatenablog.com 【実践編】 randpy.hatenablog.com randpy.hatenablog.comしかし全てのデータを線形回帰で分析しようとすると、良い結果が得られないことがあり…

ポアソン分布:ある時間帯にかかってくる電話の数がわかる!??

今回は、ポアソン分布についてやっていきます。 こちらの確率分布も非常に重要ですので、頑張って理解していきましょう。関連する分布としては二項分布があるので、それについては以下の記事を参考にしてみてください。 randpy.hatenablog.com ポアソン分布…

二項分布とベルヌーイ分布 登校中にヤンキーに遭遇してしまう確率…?

統計学を勉強するにあたって、様々な確率分布が頭に入っていることはとても大切です。 分析対象のデータがどんな分布に従っているのか考え、それに適した統計モデルを選択しないと、一見結果が有意に現れてもそれは意味のない推定となってしまいます。前回は…