Np-Urのデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

テキストマイニング 〜理論から実践まで〜

様々なテキストマイニング手法を紹介していきます。特に重要であるデータの加工部分についてRとPythonで詳細に解説しています

【Rでword2vec】AKB48と乃木坂46の歌詞を分析して「人生とは何か?」質問してみた

前回は、巷で話題の「マジ卍」とはどんな意味なのか、Python+word2vecで分析してみました。今回は同じくword2vecのR実践編。AKB48と乃木坂46の歌詞から、「人生とは何なのか」分析してみます。

「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた

「マジ卍」って一体どんな意味なんでしょうか?正直おじさんにはさっぱりです…。そんなときはword2vec先生に質問してみましょう! PythonでTwitterデータを元に実践してみました。

word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり

word2vecでは、大量のテキストデータを解析し、各単語の意味をベクトル表現化する手法です。単語をベクトル化することで、「単語同士の意味の近さを計算」・「単語同士の意味を足したり引いたり」ということが可能になります。

【Rでランダムフォレスト 】スピワゴ小沢さんと井戸田さんのTweetを分類!

スピードワゴンの小沢さんと井戸田さんのツイートをランダムフォレストで分類に挑戦しています。それぞれのツイートにはどんな特徴があるのでしょうか。

【Rでテキストマイニング】他人のタイムラインをWord Cloudで可視化してみる

民進党代表の前原さんと日本維新の会代表の松井さんがツイッターで見ている景色(タイムライン)を可視化してみました。 RからTwitter APIを叩いてテキストを取得し、Word Cloudを使って可視化しています。

【Pythonでテキストマイニング】TwitterデータをWordCloudで可視化してみる

スピードワゴンの小沢さんのツイートを使い、PythonからWord Cloudによる可視化を行いました。Word Cloud関連の記事は、既に多くあり特に目新しいものではないですが、可視化ツールとしてはなかなかインパクトがあるので、テキストマイニング関連の分析の一…