評価用データセットが学習に使われる?

285 views
Skip to first unread message

geo

unread,
Jan 23, 2018, 4:00:23 AM1/23/18
to Neural Network Console Users (JP)
連続値推定の回帰問題を行っているのですが、
評価用データセットの正解ラベルyの値を変化させて学習を行うと
推定値y'の値が変わってしまいます。

評価用データセットは学習には一切用いられないとのことなので、
正解ラベルに誤った値を入力しても(例えば、yの値をすべて0や1にする)、学習後の推定値は
yに正しい値を設定した場合と、全ての値を0や1にした場合とでは同じになるはずですが
微妙に値が異なっています。
具体的には、yに正しい値を設定した場合、出力(推定値)はyに限りなく近く
yを全て0にした場合、出力が少しばらついてしまいます。

以上のことから、連続値推定結果が正解ラベルの値によって影響を受けているのではないかと考えているんですが
私のやり方が間違っているのかアドバイスを頂きたいです。

なお、評価用CSVファイルの画像や並びは同一のものでyを変化させたのみです。
学習用データセットも同じものを使用しています。

小林由幸

unread,
Jan 24, 2018, 5:07:37 AM1/24/18
to Neural Network Console Users (JP)
評価用データセットは学習には用いられていませんので、推論精度に影響は及ぼしません。
考えられる可能性をいくつか列挙させていただきます。

* CONFIGタブのOptimizer設定において、Datasetに評価用データセットが指定されている
 (評価用データセットを用いて学習を行う設定になっている)
* 学習試行毎のばらつきによる影響
 (乱数を使用する学習である関係上、学習の試行毎に結果は微妙に異なる)
* 学習データセットと評価データセットで異なるデータセットファイルが使われていない
* 学習データセット、評価データセットのキャッシュファイルに古いものが残っている
 (データセットcsvファイルと同じフォルダに作成される.cacheフォルダ)

geo

unread,
Jan 25, 2018, 3:26:07 AM1/25/18
to Neural Network Console Users (JP)
小林様

返信ありがとうございます。

>* 学習試行毎のばらつきによる影響
> (乱数を使用する学習である関係上、学習の試行毎に結果は微妙に異なる)

連続値の推論結果がこちらで予め設定しておいた許容範囲の中に収まっているかどうかを
検証し、収まっているデータの数を数えたいと考えているのですが、
乱数を使用しており毎回結果が異なるとのことで、このような用途には適していないということでしょうか。

例えば、複数回学習を行ってその結果を平均することは有効な方法といえるでしょうか。

2018年1月24日水曜日 19時07分37秒 UTC+9 小林由幸:

小林由幸

unread,
Jan 30, 2018, 3:24:21 AM1/30/18
to Neural Network Console Users (JP)
ニューラルネットワークは係数を乱数で初期化する性質上毎回微妙に結果が異なりますが、
ほぼ同程度の精度に収束することが実験的に知られています。

複数回学習を行い、その平均とばらつきからどの程度の予測精度が得られるかを
検証する方法は有効です。

geo

unread,
Feb 1, 2018, 5:20:40 AM2/1/18
to Neural Network Console Users (JP)
回答ありがとうございました。

2018年1月30日火曜日 17時24分21秒 UTC+9 小林由幸:
Reply all
Reply to author
Forward
0 new messages