テキストマイニング 〜理論から実践まで〜
前回は、巷で話題の「マジ卍」とはどんな意味なのか、Python+word2vecで分析してみました。今回は同じくword2vecのR実践編。AKB48と乃木坂46の歌詞から、「人生とは何なのか」分析してみます。
「マジ卍」って一体どんな意味なんでしょうか?正直おじさんにはさっぱりです…。そんなときはword2vec先生に質問してみましょう! PythonでTwitterデータを元に実践してみました。
word2vecでは、大量のテキストデータを解析し、各単語の意味をベクトル表現化する手法です。単語をベクトル化することで、「単語同士の意味の近さを計算」・「単語同士の意味を足したり引いたり」ということが可能になります。
スピードワゴンの小沢さんと井戸田さんのツイートをランダムフォレストで分類に挑戦しています。それぞれのツイートにはどんな特徴があるのでしょうか。
民進党代表の前原さんと日本維新の会代表の松井さんがツイッターで見ている景色(タイムライン)を可視化してみました。 RからTwitter APIを叩いてテキストを取得し、Word Cloudを使って可視化しています。
スピードワゴンの小沢さんのツイートを使い、PythonからWord Cloudによる可視化を行いました。Word Cloud関連の記事は、既に多くあり特に目新しいものではないですが、可視化ツールとしてはなかなかインパクトがあるので、テキストマイニング関連の分析の一…