Np-Urのデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

【Rでテキストマイニング】他人のタイムラインをWord Cloudで可視化してみる

民進党代表の前原さんと日本維新の会代表の松井さんがツイッターで見ている景色(タイムライン)を可視化してみました。 RからTwitter APIを叩いてテキストを取得し、Word Cloudを使って可視化しています。

【Pythonでテキストマイニング】TwitterデータをWordCloudで可視化してみる

スピードワゴンの小沢さんのツイートを使い、PythonからWord Cloudによる可視化を行いました。Word Cloud関連の記事は、既に多くあり特に目新しいものではないですが、可視化ツールとしてはなかなかインパクトがあるので、テキストマイニング関連の分析の一…

【2017年9月版】RからTwitter APIを叩くための基礎講座 ~認証からツイート取得まで~

テキストマイニングを気軽にやってみたい!という方は多いと思います。 そんな時に便利なのが、SNSの投稿データ。今回はTwitter APIをRから使用して、ツイートデータを取得してみます。 本記事を踏まえて、テキストマイニングにどんどんチャレンジしていきま…

【アンサンブル学習】多様性が大事? バギング・ランダムフォレスト編

前回・前々回は、決定木と木の剪定方法について学習しました。 www.randpy.tokyo www.randpy.tokyo決定木は、可読性が高いという点で実際に今働いている職場でもよく使われる手法ですが、問題点としては学習データに依存しすぎる点にあり、汎用的なモデルを…

複雑になりがちな決定木を汎用的に変身!剪定の考え方について

前回の記事では、決定木についてまとめました。 www.randpy.tokyo 今回は、前回チラッと触れた「木の剪定」について学んでいきましょう。以下のような流れで進めていきます。 決定木の問題点 剪定・枝切りの考え方 正則化パラメータの決定の仕方 なお、前回…

決定木入門編 「ウォーリーを探せ」から考える不純度の考え方

機械学習の分野でよく使われる決定木について今回は説明していきます。 決定木は、回帰、分類問題に対して、非常によく使われる手法の一つで、あらゆる現場でよく使われているのではないかと思います。アルゴリズム自体はとてもシンプルですし、R,Pythonにお…

【Shiny100本ノック No.4】Google Data Studio的な機能+PowerPointでダウンロードできるアプリを作る

Shiny100本ノック、4回目の公開となります。さて、No.1 ~ No.2ではGoogleアナリティクスのデータをAPI経由で取得して、グラフ可視化するところまでやりました。 www.randpy.tokyo www.randpy.tokyo No.3では、グラフの見た目をインタラクティブに変更して、…

【Shiny100本ノック No.3】ggplotグラフをインタラクティブに作成してPowerPointダウンロードまで行う

Shiny100ノックもなんと今回で3回目。 2回で挫折するかと思いましたが、皆様の応援もあってあと4回くらいは続けられそうです。さて、前回と前々回ではGoogleアナリティクスのデータをAPI経由で取得して、グラフ可視化するところまでやりました。 www.randpy.…

【Shiny100本ノック No.2】Google Data StudioもどきをRで作る

記念すべきShiny100ノックの第1回を執筆してから3週間近くたってしまいました。ちょっと忙しくて更新が止まってしまっていましたが、今後は週1本以上の更新ペースで頑張って執筆していくので、皆さま応援お願いします。さて、前回は皆大好き(?)Google ア…

Pythonで傾向スコア(Propensity score)マッチングとIPWを実装してみた

さて、今回は傾向スコアマッチングのPythonによる実践編です。 傾向スコアって何?という方は、まずはこちらの記事を参考にしてみてください。 www.randpy.tokyo www.randpy.tokyo今回の趣旨としては、Pythonでの実装という部分に重きを置いていますので、手…

傾向スコア(Propensity score)をRで実践 マッチングとIPWの結果を比較

前回、前編・後編と2回に傾向スコアの考え方について学びました。 www.randpy.tokyo www.randpy.tokyo今回は傾向スコアを使って実際に分析をしていきます。 これまでの実践編記事では、主にスクレイピングを使ってデータを集めていました。今回は趣向を変え…