Np-Urのデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

『Pythonと実データで遊んで学ぶ データ分析講座』という書籍を執筆しました

久しぶりの記事更新です…。

というのも理由がありまして。
この度、『Pythonと実データで遊んで学ぶ データ分析講座』という書籍を発売することになりました!!

Pythonと実データで遊んで学ぶ データ分析講座

Pythonと実データで遊んで学ぶ データ分析講座

  • 作者: 梅津雄一,中野貴広
  • 出版社/メーカー: シーアンドアール研究所
  • 発売日: 2019/08/10
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る

発売は、明後日です!(ギリギリの宣伝)

理論と実践、双方をバランスよく解説した一冊です。
これからデータ分析・機械学習といった分野を勉強したい方に、ピッタリの本に仕上がりました。

ぜひ、お盆で実家に帰る前に、購入してくださいませ。(実本でもKindleでも!)

ということで、今回は、書籍の紹介をさせていただきます。

本書のターゲット

本書は、主に

  • これから機械学習の勉強を始めたい人
  • 「AI」や「人工知能」というワードはよく聞くけど、 具体的に自分で動かしてみたい人
  • 突然、データ分析に関わるプロジェクトのマネージャーや営業を任せられた人

に向けて構成されています。

1章と2章で、Pythonの基本的な関数については抑え、3章から5章までで、機械学習の基礎となる、教師あり学習・教師なし学習について学びつつ、実践として解析を行います。

6章では、評価指標について。
そして7章と8章ではニューラルネットワークなど発展した内容を学びつつ、同様に実際に解析をしてみます。

本書を読むことで、データ分析についての最低限の理解と、学習から予測、評価までの一連の流れを習得することができます。

本の構成 各章紹介

本書は、8つの章とAPPENDIX から構成されています。

CHAPTER 01 Pythonの導入

1章では、そもそもPythonを使ったことが無いという方に向けて、Google Colaboratoryを用いた導入方法を解説しています。

同時に、Pythonの基本的な使い方やライブラリのインストール方法も解説しているので、Python初心者の方でも問題なく読み進められると思います。

CHAPTER 02 Pythonを使ったデータ処理

2章では、Pythonでよく用いられるデータ処理の方法を解説しています。

numpyやpandasといった前処理に非常に便利なライブラリ、matplotlibという可視化に便利なライブラリ、そして分析時によく用いられるsklearnやkerasライブラリの使用方法を解説します。

2章までで、データ分析に関わる一連フローをざっくりと理解できていることを目指します。

CHAPTER 03 教師あり~回帰~

3章では、教師あり学習の、「回帰」について解説しています。

回帰の中で、代表的な手法である線形回帰と、少し発展させたラッソ回帰・リッジ回帰について学びます。
また、理論を学んだあと、実践編として不動産価格の推定を行ってみます。 国土交通省提供の、不動産取引価格情報取得APIを用いて、データを集めます。

実際にデータを取得するところからスタートしているので、与えられた綺麗なデータではなく、少し泥臭い前処理についても学ぶことができます。

CHAPTER 04 教師あり~分類~

4章では、教師あり学習の、「分類」について解説しています。

分類の中で、ロジスティック回帰・決定木・ランダムフォレストについて学びます。
本サイトでも、紹介したことのある内容ですが、かなり手を加えて解説を充実させています。

また、理論を学んだあと、実践編としてTwitterデータの分類を行ってみます。
Twitter APIのアカウント登録が最近厳しくなっているので注意してください。

CHAPTER 05 教師なし

5章では、教師なし学習について解説しています。

代表的な、主成分分析・kmeansについて学びます。
また、実践編として、都道府県別の家計調査データを使って分析と可視化をしてみます。

都道府県ごとの面白い傾向が掴めるかどうか、挑戦していますl。

CHAPTER 06 評価指標

機械学習の分野でよく用いられる評価指標について解説しています。

回帰でよく使われる

  • RMSE
  • MAE
  • RMSLE

分類でよく使われる、

  • ROC曲線・AUC
  • 正解率

について学びます。

CHAPTER 07 ニューラルネットワーク

7章では、ニューラルネットワークについて解説しています。

基本となるニューラルネットワークと、画像を用いた分析時によく使われる畳み込みニューラルネットについて学びます。
とても直感的に理解できるように解説できたと思います。

また、実践編として、Google Custom Search APIからお寺と神社の画像を取得し、その分類を行ってみます。

CHAPTER 08 その他の手法

8章では、7章までで紹介できなかったが、紹介しておきたい、以下について解説しています。

  • word2vec
  • 協調フィルタリング

本の特徴

本書は、理論と実践どちらかにフォーカスを当てるのではなく、両方を抑えています。

まず、なるべく数式を使わずに、直感的な理解ができるように理論について解説しています。
「遊んで学ぶ」というタイトルの通り、理論の勉強も楽しめるように、具体例や図を多く使っています。しかし、だからといって不正確にならないように繊細な注意を払いながら、ギリギリまで噛み砕いて説明を行っています。

その後、よく使われるデータセットではなく、生のデータを使い、実際に分析を行います。
各入門書やWeb上の参考サイトの多くは、大体決まったデータセットを使って分析を行っています。
しかし、そのようなデータだと、工夫できる範囲が限られてしまいます。

本書は、実際にデータを取得するところからスタートすることで、「データの量を増やしたら結果はどうなるのだろう?」「このデータを可視化してみたらどうなるのだろう?」「変数を変えてみたらどうなるのだろう?」と、まるでデータを使って遊んでいるような感覚で理解が進むことを狙っています。

自信の一冊です!
是非購入のご検討をお願いします!!

最後に

昨年11月のShiny本に続く、人生2冊目の書籍執筆です。
RとShinyで作るWebアプリケーション

RとShinyで作るWebアプリケーション

  • 作者: 梅津雄一,中野貴広
  • 出版社/メーカー: シーアンドアール研究所
  • 発売日: 2018/11/07
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る

仕事がかなり立て込んだ中での執筆だっため、何度も投げ捨てそうになりましたが、なんとか発売まで持っていくことができました。

担当編集者の方、共同執筆の方、レビュアーの皆様のおかげです。
本当にありがとうございます。

書籍準備がひと段落したので、これから勉強会や本ブログでのアウトプットを再開していくつもりです。
これからも皆様よろしくお願いいたします。

Pythonと実データで遊んで学ぶ データ分析講座

Pythonと実データで遊んで学ぶ データ分析講座

  • 作者: 梅津雄一,中野貴広
  • 出版社/メーカー: シーアンドアール研究所
  • 発売日: 2019/08/10
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る