Machine Learning

Stanford Univ, Coursera


機械学習とは

電子メールをspamかspamではないかを判定する場合、タスクTはどれか?

  1. emailをspamかspamでないかクラス分けする = T ← 正解
  2. emailがspamかspamでないかの判定(label)をあなたに見せる = E (経験である)
  3. タクサンのemailをspamかspamでないかに正しくクラス分けする = P (正しく、という判定が入っているので)
  4. 上のどれでもない

Introduction

Machine Learning (機械学習) には2種類ある。

Supervised Learning

Supervised Learning は2種類に分類される。
例1
  家の大きさから売却価格を予想する --> regression
  家の大きさから売却価格が値 y よりも高いか低いかを予想する --> classification
例2
  人が写っている写真から、その人の年齢を推測する --> regression
  腫瘍の写真から、腫瘍が良性か悪性かを予想する --> classification

[問題]次の2つの問題に関してどのような学習アルゴリズムを適用すればよいか?

[答]

Problem 1 は regression, Problem 2は classification.

Unsupervised Learning

ラベルづけされていないデータが与えられる(全てが同じラベル、or そもそもラベルがない)。 データに対して何をすべきかの指定がなく、それぞれのデータポイントが何かも明示されていない。 これらのデータの中に構造を見つけること、それがUnsupervised Learningである。

Unsupervised Learning では予測結果に対してフィードバックはない。

例
Clustering (クラスタリング):
 寿命、場所、役割などの異なる変数に関連して、100万個の遺伝子を自動的にグループ分けする。

Non-clustering (クラスタリングではない):
2名が発言している場に複数のマイクを設置して、録音された音声から、それぞれの声を分離する。
音楽と話言葉が録音された音声から、それぞれの音を分離する。


[問題]教師なし学習アルゴリズムが適切であるものに印をつけなさい。

     電子メールがspamであるかどうか判定する
  〆 ニュース記事をクラスタ分けする
  〆 顧客データから、自動的にマーケットセグメントを発見して、顧客を別のセグメントにグループ分けする。
     患者の診断データから糖尿病かどうかを判定する

Yoshihisa Nitta

http://nw.tsuda.ac.jp/