これで無理なら諦めて!世界一やさしいデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

【Rでテキストマイニング】他人のタイムラインをWord Cloudで可視化してみる

民進党代表の前原さんと日本維新の会代表の松井さんがツイッターで見ている景色(タイムライン)を可視化してみました。 RからTwitter APIを叩いてテキストを取得し、Word Cloudを使って可視化しています。

【Pythonでテキストマイニング】TwitterデータをWordCloudで可視化してみる

スピードワゴンの小沢さんのツイートを使い、PythonからWord Cloudによる可視化を行いました。Word Cloud関連の記事は、既に多くあり特に目新しいものではないですが、可視化ツールとしてはなかなかインパクトがあるので、テキストマイニング関連の分析の一…

【2017年9月版】RからTwitter APIを叩くための基礎講座 ~認証からツイート取得まで~

テキストマイニングを気軽にやってみたい!という方は多いと思います。 そんな時に便利なのが、SNSの投稿データ。今回はTwitter APIをRから使用して、ツイートデータを取得してみます。 本記事を踏まえて、テキストマイニングにどんどんチャレンジしていきま…

【アンサンブル学習】多様性が大事? バギング・ランダムフォレスト編

前回・前々回は、決定木と木の剪定方法について学習しました。 www.randpy.tokyo www.randpy.tokyo決定木は、可読性が高いという点で実際に今働いている職場でもよく使われる手法ですが、問題点としては学習データに依存しすぎる点にあり、汎用的なモデルを…

「樋○カッター!!」で決定木を汎用的に!剪定の考え方について

前回の記事では、決定木についてまとめました。 www.randpy.tokyo 今回は、前回チラッと触れた「木の剪定」について学んでいきましょう。以下のような流れで進めていきます。 決定木の問題点 剪定・枝切りの考え方 正則化パラメータの決定の仕方 なお、前回…

決定木入門編 「ウォーリーを探せ」から考える不純度の考え方

機械学習の分野でよく使われる決定木について今回は説明していきます。 決定木は、回帰、分類問題に対して、非常によく使われる手法の一つで、あらゆる現場でよく使われているのではないかと思います。アルゴリズム自体はとてもシンプルですし、R,Pythonにお…

【Shiny100本ノック No.4】Google Data Studio的な機能+PowerPointでダウンロードできるアプリを作る

Shiny100本ノック、4回目の公開となります。さて、No.1 ~ No.2ではGoogleアナリティクスのデータをAPI経由で取得して、グラフ可視化するところまでやりました。 www.randpy.tokyo www.randpy.tokyo No.3では、グラフの見た目をインタラクティブに変更して、…