これで無理なら諦めて!世界一やさしいデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

理論 〜統計、機械学習、etc〜

統計学、機械学習に関わる様々な理論について解説しています。

word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり

word2vecでは、大量のテキストデータを解析し、各単語の意味をベクトル表現化する手法です。単語をベクトル化することで、「単語同士の意味の近さを計算」・「単語同士の意味を足したり引いたり」ということが可能になります。

【ROC曲線とAUC】機械学習の評価指標についての基礎講座

機械学習ではモデルを作って終わり、ということは無く、モデル作成後にテストデータを使って「本当に良いモデルなのか?」という評価を必ず行う必要があります。では具体的にどのように評価をすれば良いのか?という話になりますが、今回は代表的な評価指標…

【アンサンブル学習】多様性が大事? バギング・ランダムフォレスト編

前回・前々回は、決定木と木の剪定方法について学習しました。 www.randpy.tokyo www.randpy.tokyo決定木は、可読性が高いという点で実際に今働いている職場でもよく使われる手法ですが、問題点としては学習データに依存しすぎる点にあり、汎用的なモデルを…

複雑になりがちな決定木を汎用的に変身!剪定の考え方について

前回の記事では、決定木についてまとめました。 www.randpy.tokyo 今回は、前回チラッと触れた「木の剪定」について学んでいきましょう。以下のような流れで進めていきます。 決定木の問題点 剪定・枝切りの考え方 正則化パラメータの決定の仕方 なお、前回…

決定木入門編 「ウォーリーを探せ」から考える不純度の考え方

機械学習の分野でよく使われる決定木について今回は説明していきます。 決定木は、回帰、分類問題に対して、非常によく使われる手法の一つで、あらゆる現場でよく使われているのではないかと思います。アルゴリズム自体はとてもシンプルですし、R,Pythonにお…

【後編】犠牲バントの「本当の効果」が分かる!? 傾向スコアの考え方とは

本記事は下の記事の続きとなります。まだご覧になっていない方は、是非お読みください! www.randpy.tokyo前編では、現実世界のデータから施策の評価をしたいときに、よく起こる問題点について述べました。 そしてその問題点を解決する手法の一つが傾向スコ…

【前編】犠牲バントの「本当の効果」が分かる!? 傾向スコアの考え方とは

突然ですが、施策の効果をきちんと測定することは、実はとても難しいのです。ここでいう施策の効果とは、例えばあるクラスの生徒への特別な教育の効果であったり、ある病気にかかった人々への薬の処方の効果であったり、プロ野球のある場面で犠牲バントを行…

柔軟な確率分布を仮定して分析できる!一般化線形モデル(GLM)とは?

前回までは線形回帰の理論とそれを使った分析の実例について紹介しました。 【理論編】 randpy.hatenablog.com 【実践編】 randpy.hatenablog.com randpy.hatenablog.comしかし全てのデータを線形回帰で分析しようとすると、良い結果が得られないことがあり…

ポアソン分布:ある時間帯にかかってくる電話の数がわかる!??

今回は、ポアソン分布についてやっていきます。 こちらの確率分布も非常に重要ですので、頑張って理解していきましょう。関連する分布としては二項分布があるので、それについては以下の記事を参考にしてみてください。 randpy.hatenablog.com ポアソン分布…

二項分布とベルヌーイ分布 登校中にヤンキーに遭遇してしまう確率…?

統計学を勉強するにあたって、様々な確率分布が頭に入っていることはとても大切です。 分析対象のデータがどんな分布に従っているのか考え、それに適した統計モデルを選択しないと、一見結果が有意に現れてもそれは意味のない推定となってしまいます。前回は…

【初心者大歓迎!】線形回帰分析入門 ~ 最小二乗法から決定係数まで

今回は、統計分析の中でも基本的かつよく使われる線形回帰分析についての理論編です。 多少、数式も出てきますが、なるべく図や例を多く使って、直感的に分かりやすく伝えられればと思います。 回帰分析とは 回帰分析とは、ある変数が与えられたとき、それと…

確率分布の基本 正規分布について5分で理解できる記事

統計学をやるうえで、確率分布を考えることは非常に大切です。 線形回帰でよく用いられるOLS(最小二乗法)という手法がありますが、これはデータが正規分布に従うことを仮定しています。正規分布に従わないデータを持ってきて、正規分布を仮定した手法を用…