こんにちは。
交差検証と最適学習モデルについて質問があります。
現在、多値分類(jubaclassifier)と線形予測(jubaregression)を行っております。
アルゴリズムにはAROWを使っており、regularization_weightとsensitivityを固定して、グリッドサーチによる学習エポック数の最適化を行っております。
学習モデルの汎化性能は、最適化したハイパーパラメータを元に、k分割交差検証法によって検証しております。
例えば、総サンプル数が100個、k分割における分割数を5に設定し、k分割交差検証を行った場合、(80サンプルが学習データ、20サンプルが未学習データ)x 5 データセットそれぞれに対する学習モデルが構築されると思います。
そこで質問なのですが、最適な学習モデルを納品する場合には、次のどの学習モデルを提出するのが良いのでしょうか。
1. サンプルすべて(100個)を使用して、一から構築した学習モデルを納品する
2. k分割交差検証において構築された5つの学習モデルの中から、最も良いモデルを一つ選択して納品する
3. k分割交差検証において構築された5つの学習モデルをmix操作によって統合し、これを納品する
また、1のようにすべてのデータを学習に使ってしまうと、学習モデルを評価することができないように思えます。
このような場合、k分割交差検証によって算出された各学習モデルにおける汎化性能の平均値を、新たに構築した学習モデルの汎化性能とみなすことは可能なのでしょうか。
大変稚拙な質問で申し訳ございません。どなたかご教示いただけると幸いです。
よろしくお願い申し上げます。