これで無理なら諦めて!世界一やさしいデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

Rでデータ分析

本ブログで紹介した理論記事をもとに、Rにて実際に分析をしています。データの前処理から結果の可視化、モデル評価まで一連の分析の流れについて紹介します。

TokyoR 第69回に参加してきたので簡単に感想を書いておく

久しぶりの記事更新です。 皆さん覚えてますか?先週TokyoRの第69回でLTをさせていただきました。 TokyoRへの参加は3回目で、LTは2回目です。記事ネタに困っていますしせっかくなので、簡単に感想をまとめておきます。TokyoRでLTした内容こちらの記事をLTっ…

【Rでword2vec】AKB48と乃木坂46の歌詞を分析して「人生とは何か?」質問してみた

前回は、巷で話題の「マジ卍」とはどんな意味なのか、Python+word2vecで分析してみました。今回は同じくword2vecのR実践編。AKB48と乃木坂46の歌詞から、「人生とは何なのか」分析してみます。

【RでDeep Learning】R+KerasでCifar10の画像分類に挑戦してみる

本記事は、R Advent Calendar 2017の14日目の記事です。これまで、R言語でロジスティック回帰やランダムフォレストなどを実践してきました。Rは統計用のライブラリが豊富、Pythonは機械学習用のライブラリが豊富。というイメージがありますが、Rでも機械学習…

【Rでランダムフォレスト 】スピワゴ小沢さんと井戸田さんのTweetを分類!

スピードワゴンの小沢さんと井戸田さんのツイートをランダムフォレストで分類に挑戦しています。それぞれのツイートにはどんな特徴があるのでしょうか。

【Rでテキストマイニング】他人のタイムラインをWord Cloudで可視化してみる

民進党代表の前原さんと日本維新の会代表の松井さんがツイッターで見ている景色(タイムライン)を可視化してみました。 RからTwitter APIを叩いてテキストを取得し、Word Cloudを使って可視化しています。

傾向スコア(Propensity score)をRで実践 マッチングとIPWの結果を比較

前回、前編・後編と2回に傾向スコアの考え方について学びました。 www.randpy.tokyo www.randpy.tokyo今回は傾向スコアを使って実際に分析をしていきます。 これまでの実践編記事では、主にスクレイピングを使ってデータを集めていました。今回は趣向を変え…

【Shiny100本ノック No.1】RユーザーならGoogle のQuery Explorerは自分で作るべし!

記念すべきShiny100本ノックの第1弾です。Shinyの記事を100本書いたら、どこかの誰かが書籍化の話しを持ってきてくれると信じています。 本当に書籍化が実現するのか、15本ぐらい書いた時点で挫折してしまうのか、皆さんお楽しみにしていてください。Shinyに…

都議選当選への影響要因をロジスティック回帰で推定してみた!【Rで実践編】

前回は、都議選の当選・落選という結果が候補者のどんな属性に影響を受けているのか、Pythonで推定を行いました。 また必要なデータは、PythonのBeautiful Soupというライブラリを使ってスクレイピングして取得しました。 randpy.hatenablog.comロジスティッ…

Rを使って重回帰分析を実践 野球選手の年俸には何が影響しているのか?

前回は線形回帰について勉強しましたね! randpy.hatenablog.com今回は習った線形回帰を使って、実際にデータを使って分析をしてみます。線形回帰というシンプルなモデルですが、色々な分野に応用できます。 今回は、野球選手の年俸が何によって影響を受けて…