現在、MLPの「オンライン機械学習」を読みながら、独学でJubatus classifierによる多値分類を勉強しております。
多値分類のscore値に関していくつか質問があります。ご教示いただけると幸いです。
1. 分類結果の解釈
* 4種類のラベルを分類する場合、classifyメソッドにより4つのscore値が出力されます。この中で最も高いscore値をclassifierによる分類結果として捉えて良いのでしょうか?
2. 1対他法について
* 1. のような分類方法を「1対他法(OVR)」と呼ぶのでしょうか?
3. jubadumpにより出力されたweightについて
* jubadumpによって生成されたjsonファイルの、storage -> storage -> weight の、v1、v2、v3はそれぞれ何を表しているのでしょうか?私の理解ですと、v1が重みを、v2、v3が学習時のアルゴリズムに応じて保存される変数を表している、と理解しているのですが正しいでしょうか?
4. 3. のv2、v3について
* PA、AROW、NHERDなどの、学習アルゴリズムにおける、v2、v3に保存される値には具体的に何が保存され、どのように使われているのでしょうか?おそらく、正則化項に関するものだと考えております。
5. 関数、f(x)について
* 線形分類器による2値分類は、f(x) = wTx + b で表されると思いますが、多値分類においても同様でしょうか?
* 同様なのでしたら、切片である、b はjsonファイルのどこに保存されているのでしょうか?
* classifyで算出されるscore値は、f(x)と同じ意味でしょうか?
* perl、Rを使ってf(x)を手計算したのですが、classifyのscore値と異なる結果になりました。なぜでしょうか?また、同様の結果を得るにはどうすればよいでしょうか?
6. 過学習について
* classifierのAROWを使った線形分類による多値分類において、過学習というのは問題になるのでしょうか?
過学習によるoverfittingは、非線形分類やDeep Learningにおいては、大きな問題となりますが、線形分離可能な問題を解く際の、線形分類においてはそこまで問題にならないのでは?と考えているのですが、やはりclassifierにおいても同様に問題になるのでしょうか?
初歩的な質問ばかりをたくさんしてしまいました。お手数ではございますが、どなたかご教示いただけるとありがたいです。
直接的な回答でなくとも、「この本を読め」「ここのページを見よ」「いついつの講習会に参加せよ」などのアドバイスもいただけると大変ありがたいです。
よろしくお願い致します。