Np-Urのデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

決定木、バギング、ランダムフォレストの理論と実践編

教師あり学習の一つである決定木について解説しています。機械学習の代表的な手法である決定木、理論からコードの書き方までしっかり押さえておきましょう。

【Rでランダムフォレスト 】スピワゴ小沢さんと井戸田さんのTweetを分類!

スピードワゴンの小沢さんと井戸田さんのツイートをランダムフォレストで分類に挑戦しています。それぞれのツイートにはどんな特徴があるのでしょうか。

【Pythonで決定木 & Random Forest】タイタニックの生存者データを分析してみた

タイタニックの乗客データを使い、何が生存率に影響を与えいるのか、決定木とランダムフォレストで分析してみました。

【アンサンブル学習】多様性が大事? バギング・ランダムフォレスト編

前回・前々回は、決定木と木の剪定方法について学習しました。 www.randpy.tokyo www.randpy.tokyo決定木は、可読性が高いという点で実際に今働いている職場でもよく使われる手法ですが、問題点としては学習データに依存しすぎる点にあり、汎用的なモデルを…

複雑になりがちな決定木を汎用的に変身!剪定の考え方について

前回の記事では、決定木についてまとめました。 www.randpy.tokyo 今回は、前回チラッと触れた「木の剪定」について学んでいきましょう。以下のような流れで進めていきます。 決定木の問題点 剪定・枝切りの考え方 正則化パラメータの決定の仕方 なお、前回…

決定木入門編 「ウォーリーを探せ」から考える不純度の考え方

機械学習の分野でよく使われる決定木について今回は説明していきます。 決定木は、回帰、分類問題に対して、非常によく使われる手法の一つで、あらゆる現場でよく使われているのではないかと思います。アルゴリズム自体はとてもシンプルですし、R,Pythonにお…