Np-Urのデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

【2017年9月版】RからTwitter APIを叩くための基礎講座 ~認証からツイート取得まで~

テキストマイニングを気軽にやってみたい!という方は多いと思います。 そんな時に便利なのが、SNSの投稿データ。今回はTwitter APIをRから使用して、ツイートデータを取得してみます。 本記事を踏まえて、テキストマイニングにどんどんチャレンジしていきま…

【アンサンブル学習】多様性が大事? バギング・ランダムフォレスト編

前回・前々回は、決定木と木の剪定方法について学習しました。 www.randpy.tokyo www.randpy.tokyo決定木は、可読性が高いという点で実際に今働いている職場でもよく使われる手法ですが、問題点としては学習データに依存しすぎる点にあり、汎用的なモデルを…

複雑になりがちな決定木を汎用的に変身!剪定の考え方について

前回の記事では、決定木についてまとめました。 www.randpy.tokyo 今回は、前回チラッと触れた「木の剪定」について学んでいきましょう。以下のような流れで進めていきます。 決定木の問題点 剪定・枝切りの考え方 正則化パラメータの決定の仕方 なお、前回…

決定木入門編 「ウォーリーを探せ」から考える不純度の考え方

機械学習の分野でよく使われる決定木について今回は説明していきます。 決定木は、回帰、分類問題に対して、非常によく使われる手法の一つで、あらゆる現場でよく使われているのではないかと思います。アルゴリズム自体はとてもシンプルですし、R,Pythonにお…

【Shiny100本ノック No.4】Google Data Studio的な機能+PowerPointでダウンロードできるアプリを作る

Shiny100本ノック、4回目の公開となります。さて、No.1 ~ No.2ではGoogleアナリティクスのデータをAPI経由で取得して、グラフ可視化するところまでやりました。 www.randpy.tokyo www.randpy.tokyo No.3では、グラフの見た目をインタラクティブに変更して、…

【Shiny100本ノック No.3】ggplotグラフをインタラクティブに作成してPowerPointダウンロードまで行う

Shiny100ノックもなんと今回で3回目。 2回で挫折するかと思いましたが、皆様の応援もあってあと4回くらいは続けられそうです。さて、前回と前々回ではGoogleアナリティクスのデータをAPI経由で取得して、グラフ可視化するところまでやりました。 www.randpy.…

【Shiny100本ノック No.2】Google Data StudioもどきをRで作る

記念すべきShiny100ノックの第1回を執筆してから3週間近くたってしまいました。ちょっと忙しくて更新が止まってしまっていましたが、今後は週1本以上の更新ペースで頑張って執筆していくので、皆さま応援お願いします。さて、前回は皆大好き(?)Google ア…

Pythonで傾向スコア(Propensity score)マッチングとIPWを実装してみた

さて、今回は傾向スコアマッチングのPythonによる実践編です。 傾向スコアって何?という方は、まずはこちらの記事を参考にしてみてください。 www.randpy.tokyo www.randpy.tokyo今回の趣旨としては、Pythonでの実装という部分に重きを置いていますので、手…

傾向スコア(Propensity score)をRで実践 マッチングとIPWの結果を比較

前回、前編・後編と2回に傾向スコアの考え方について学びました。 www.randpy.tokyo www.randpy.tokyo今回は傾向スコアを使って実際に分析をしていきます。 これまでの実践編記事では、主にスクレイピングを使ってデータを集めていました。今回は趣向を変え…

【Shiny100本ノック No.1】RユーザーならGoogle のQuery Explorerは自分で作るべし!

記念すべきShiny100本ノックの第1弾です。Shinyの記事を100本書いたら、どこかの誰かが書籍化の話しを持ってきてくれると信じています。 本当に書籍化が実現するのか、15本ぐらい書いた時点で挫折してしまうのか、皆さんお楽しみにしていてください。Shinyに…

【傾向スコア-後編】犠牲バントの「本当の効果」を分析するための傾向スコア使い方

本記事は下の記事の続きとなります。まだご覧になっていない方は、是非お読みください! www.randpy.tokyo前編では、現実世界のデータから施策の評価をしたいときに、よく起こる問題点について述べました。 そしてその問題点を解決する手法の一つが傾向スコ…

【傾向スコア-前編】現実のデータを扱う上での問題点とその対策について

突然ですが、施策の効果をきちんと測定することは、実はとても難しいのです。ここでいう施策の効果とは、例えばあるクラスの生徒への特別な教育の効果であったり、ある病気にかかった人々への薬の処方の効果であったり、プロ野球のある場面で犠牲バントを行…

都議選当選への影響要因をロジスティック回帰で推定してみた!【Rで実践編】

前回は、都議選の当選・落選という結果が候補者のどんな属性に影響を受けているのか、Pythonで推定を行いました。 また必要なデータは、PythonのBeautiful Soupというライブラリを使ってスクレイピングして取得しました。 randpy.hatenablog.comロジスティッ…

都議選のデータ使ってPythonでロジスティック回帰分析 都民ファーストがやっぱり最強か!?

今回は、前回習った一般化線形モデルの実践編です。 理論編については、以下記事を参考にしてください。 randpy.hatenablog.com分析テーマは、この前行われた都議選です!!立候補者のどのような属性が当選確率に影響したのか、ロジスティック回帰分析を使っ…

はてなでtex書いている人たちへ…数式が長くてスマホだとはみ出るときの対処法

はてなでtex駆使して数式書いている人って素敵ですよねー…。 はい、つまり僕も素敵です。ちなみに僕はmathjaxというのを使っています。headタグにjavascriptの読み込みコードを挿入するだけなので非常に簡単です。今回は小ネタとして、はてなでtexを書いてい…

柔軟な確率分布を仮定して分析できる!一般化線形モデル(GLM)とは?

前回までは線形回帰の理論とそれを使った分析の実例について紹介しました。 【理論編】 randpy.hatenablog.com 【実践編】 randpy.hatenablog.com randpy.hatenablog.comしかし全てのデータを線形回帰で分析しようとすると、良い結果が得られないことがあり…

ポアソン分布:ある時間帯にかかってくる電話の数がわかる!??

今回は、ポアソン分布についてやっていきます。 こちらの確率分布も非常に重要ですので、頑張って理解していきましょう。関連する分布としては二項分布があるので、それについては以下の記事を参考にしてみてください。 randpy.hatenablog.com ポアソン分布…

二項分布とベルヌーイ分布 登校中にヤンキーに遭遇してしまう確率…?

統計学を勉強するにあたって、様々な確率分布が頭に入っていることはとても大切です。 分析対象のデータがどんな分布に従っているのか考え、それに適した統計モデルを選択しないと、一見結果が有意に現れてもそれは意味のない推定となってしまいます。前回は…

PythonのStatsModelsによる線形回帰分析! 交差項もモデルに入れてみた!

今回は、Pythonを使って実際に重回帰分析をしていきたいと思います。 回帰分析って何?という方はこちらの記事を参考にしてみてください。 randpy.hatenablog.com データの傍観 Pythonにはscikit-learnという機械学習によく使われるライブラリがあります。ク…

Rを使って重回帰分析を実践 野球選手の年俸には何が影響しているのか?

前回は線形回帰について勉強しましたね! randpy.hatenablog.com今回は習った線形回帰を使って、実際にデータを使って分析をしてみます。線形回帰というシンプルなモデルですが、色々な分野に応用できます。 今回は、野球選手の年俸が何によって影響を受けて…

【初心者大歓迎!】線形回帰分析入門 ~ 最小二乗法から決定係数まで

今回は、統計分析の中でも基本的かつよく使われる線形回帰分析についての理論編です。 多少、数式も出てきますが、なるべく図や例を多く使って、直感的に分かりやすく伝えられればと思います。この辺りについては、以下書籍でよくまとまっているので、よろし…

確率分布の基本 正規分布について5分でざっくり理解できる記事

統計学をやるうえで、確率分布を考えることは非常に大切です。 線形回帰でよく用いられるOLS(最小二乗法)という手法がありますが、これはデータが正規分布に従うことを仮定しています。正規分布に従わないデータを持ってきて、正規分布を仮定した手法を用…

Anacondaを使って爆速でMacにPython分析環境を構築する

データ分析ではRやPythonがよく使われますが、こと機械学習の領域になるとPythonユーザーが一気に増える印象があります。 流行りの機械学習、乗り遅れないためにもPythonが使える環境を整えましょう!難しさはほとんどありません。今回は、Anacondaというツ…

AWS上でR(ついでにR studioも)を使用する方法を世界一簡単に解説した

前回は自分のPC上でRの環境をセットアップする方法について書きました。 randpy.hatenablog.com今回は、PCの環境を汚したくないという方に向けて、AWS(アマゾンウェブサービス)を使ったRの環境構築方法についてご紹介します。 AWS自体初めて触る、という方…

データ分析を始める前に! Rの環境をWindows or Macに2分でセットアップする方法

初めての方はよろしければ以下のリンクに本ブログのコンセプトについて書いてありますので、是非一度お読みください。 randpy.hatenablog.com データ分析に特化したプログラミング言語として、有名なものにRやPythonがあります 中でもRは日本人のユーザーが…

本ブログの方針について

記念すべき第1回のブログ更新です!第一回は、本ブログの執筆方針について説明します。 是非最後までご覧ください。執筆者について紹介 -RとPythonユーザーの2人-本ブログの執筆は2名で行っています。1人はある企業にて、アドテク(広告の配信に関する技術)…

プライバシーポリシー

当サイトの掲載広告当サイトでは、第三者配信の広告サービス(Google アドセンス、Amazonアソシエイト)を利用しています。 Google アドセンスでは、ユーザーの興味に応じた商品やサービスの広告を表示するため、当サイトや他サイトへのアクセス情報が含まれ…

お問い合わせフォーム

記事に関して、また筆者に関してのご質問・お問い合わせを受け付けております。