Np-Urのデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

【Shiny100本ノック No.3】ggplotグラフをインタラクティブに作成してPowerPointダウンロードまで行う

Shiny100ノックもなんと今回で3回目。 2回で挫折するかと思いましたが、皆様の応援もあってあと4回くらいは続けられそうです。さて、前回と前々回ではGoogleアナリティクスのデータをAPI経由で取得して、グラフ可視化するところまでやりました。 www.randpy.…

【Shiny100本ノック No.2】Google Data StudioもどきをRで作る

記念すべきShiny100ノックの第1回を執筆してから3週間近くたってしまいました。ちょっと忙しくて更新が止まってしまっていましたが、今後は週1本以上の更新ペースで頑張って執筆していくので、皆さま応援お願いします。さて、前回は皆大好き(?)Google ア…

Pythonで傾向スコア(Propensity score)マッチングとIPWを実装してみた

さて、今回は傾向スコアマッチングのPythonによる実践編です。 傾向スコアって何?という方は、まずはこちらの記事を参考にしてみてください。 www.randpy.tokyo www.randpy.tokyo今回の趣旨としては、Pythonでの実装という部分に重きを置いていますので、手…

傾向スコア(Propensity score)をRで実践 マッチングとIPWの結果を比較

前回、前編・後編と2回に傾向スコアの考え方について学びました。 www.randpy.tokyo www.randpy.tokyo今回は傾向スコアを使って実際に分析をしていきます。 これまでの実践編記事では、主にスクレイピングを使ってデータを集めていました。今回は趣向を変え…

【Shiny100本ノック No.1】RユーザーならGoogle のQuery Explorerは自分で作るべし!

記念すべきShiny100本ノックの第1弾です。Shinyの記事を100本書いたら、どこかの誰かが書籍化の話しを持ってきてくれると信じています。 本当に書籍化が実現するのか、15本ぐらい書いた時点で挫折してしまうのか、皆さんお楽しみにしていてください。Shinyに…

【傾向スコア-後編】犠牲バントの「本当の効果」を分析するための傾向スコア使い方

本記事は下の記事の続きとなります。まだご覧になっていない方は、是非お読みください! www.randpy.tokyo前編では、現実世界のデータから施策の評価をしたいときに、よく起こる問題点について述べました。 そしてその問題点を解決する手法の一つが傾向スコ…

【傾向スコア-前編】現実のデータを扱う上での問題点とその対策について

突然ですが、施策の効果をきちんと測定することは、実はとても難しいのです。ここでいう施策の効果とは、例えばあるクラスの生徒への特別な教育の効果であったり、ある病気にかかった人々への薬の処方の効果であったり、プロ野球のある場面で犠牲バントを行…

都議選当選への影響要因をロジスティック回帰で推定してみた!【Rで実践編】

前回は、都議選の当選・落選という結果が候補者のどんな属性に影響を受けているのか、Pythonで推定を行いました。 また必要なデータは、PythonのBeautiful Soupというライブラリを使ってスクレイピングして取得しました。 randpy.hatenablog.comロジスティッ…

都議選のデータ使ってPythonでロジスティック回帰分析 都民ファーストがやっぱり最強か!?

今回は、前回習った一般化線形モデルの実践編です。 理論編については、以下記事を参考にしてください。 randpy.hatenablog.com分析テーマは、この前行われた都議選です!!立候補者のどのような属性が当選確率に影響したのか、ロジスティック回帰分析を使っ…

はてなでtex書いている人たちへ…数式が長くてスマホだとはみ出るときの対処法

はてなでtex駆使して数式書いている人って素敵ですよねー…。 はい、つまり僕も素敵です。ちなみに僕はmathjaxというのを使っています。headタグにjavascriptの読み込みコードを挿入するだけなので非常に簡単です。今回は小ネタとして、はてなでtexを書いてい…

柔軟な確率分布を仮定して分析できる!一般化線形モデル(GLM)とは?

前回までは線形回帰の理論とそれを使った分析の実例について紹介しました。 【理論編】 randpy.hatenablog.com 【実践編】 randpy.hatenablog.com randpy.hatenablog.comしかし全てのデータを線形回帰で分析しようとすると、良い結果が得られないことがあり…