Machine Learning
Stanford Univ, Coursera
機械学習とは
- Arthur Samuel の定義 (1959) ... 明示的にプログラミングすることなくコンピュータが能力を獲得する分野
- Tom Mitchell の定義 (1998) ... タスクをT、その性能評価をPとして、経験Eによって「学習する(learn)」とは、「Tに対するPがE によって改善する」ことである。
電子メールをspamかspamではないかを判定する場合、タスクTはどれか?
- emailをspamかspamでないかクラス分けする = T ← 正解
- emailがspamかspamでないかの判定(label)をあなたに見せる = E (経験である)
- タクサンのemailをspamかspamでないかに正しくクラス分けする = P (正しく、という判定が入っているので)
- 上のどれでもない
Introduction
Machine Learning (機械学習) には2種類ある。
- "Supervised Learning" (教師付き学習)
正答が与えられる。"right answers" given.
- "Unsupervised Learning" (教師無し学習)
正答が与えられない。"right answers" given.
Supervised Learning
Supervised Learning は2種類に分類される。
- Regression (回帰)
離散的な(とびとびの)入力データが得られた場合に、連続した領域でのoutput値を予測する。
- Classification (クラス分け)
入力データから、outputが離散的な値のどれになるかを予測する。
例1
家の大きさから売却価格を予想する --> regression
家の大きさから売却価格が値 y よりも高いか低いかを予想する --> classification
例2
人が写っている写真から、その人の年齢を推測する --> regression
腫瘍の写真から、腫瘍が良性か悪性かを予想する --> classification
[問題]次の2つの問題に関してどのような学習アルゴリズムを適用すればよいか?
- Problem 1: 識別可能な沢山の商品がある。これらの商品の今後3ヶ月の販売数予測
- Problem 2: 個々の顧客のアカウントを検証するソフトウェアが、アカウントがhackされているかどうかを判断する。
[答]
Problem 1 は regression, Problem 2は classification.
Unsupervised Learning
ラベルづけされていないデータが与えられる(全てが同じラベル、or そもそもラベルがない)。
データに対して何をすべきかの指定がなく、それぞれのデータポイントが何かも明示されていない。
これらのデータの中に構造を見つけること、それがUnsupervised Learningである。
Unsupervised Learning では予測結果に対してフィードバックはない。
例
Clustering (クラスタリング):
寿命、場所、役割などの異なる変数に関連して、100万個の遺伝子を自動的にグループ分けする。
Non-clustering (クラスタリングではない):
2名が発言している場に複数のマイクを設置して、録音された音声から、それぞれの声を分離する。
音楽と話言葉が録音された音声から、それぞれの音を分離する。
[問題]教師なし学習アルゴリズムが適切であるものに印をつけなさい。
電子メールがspamであるかどうか判定する
〆 ニュース記事をクラスタ分けする
〆 顧客データから、自動的にマーケットセグメントを発見して、顧客を別のセグメントにグループ分けする。
患者の診断データから糖尿病かどうかを判定する
Yoshihisa Nitta
http://nw.tsuda.ac.jp/