Training が進まず止まる

516 views
Skip to first unread message

Tetsuo Tsuru

unread,
Jul 22, 2018, 8:50:18 AM7/22/18
to Neural Network Console Users (JP)
画像分類問題でTraining が進まず止まる件ですが
-----------------------------------------------------
2018-07-22 21:08:50,772 [nnabla]: Training epoch 1 of 20 begin
2018-07-22 21:09:41,006 [nnabla]: epoch 1 of 20 cost=1.364759  {train_error=1.340134, valid_error=1.335720}

上記まで進むのですが、その直後にエラーメッセージが出ないで、
Training が進まず止まり、「Trainingボタン」が押せる状態になっています。

何が原因なのかが解らず行き詰っています。
よろしくお願いいたします。
Trainingエラーのネットワーク.png
Trainingエラー180722.png

小林由幸

unread,
Jul 25, 2018, 6:11:41 AM7/25/18
to Neural Network Console Users (JP)
残念ながらこのような現象はこれまでに確認できていないという状況です。

原因特定のためにいくつか確認させてください。
・データセットのキャッシュ(データセットCSVファイルと同じフォルダに作成される.cacheで始まるフォルダ)の削除をお試しいただけますか?
・それでも動作しない場合、1層のニューラルネットワーク(Input、Affine(4)、Softmax、CategoricaCrossEntropy)では正しく学習できるかどうかご確認いただけますでしょうか?
・出力4ニューロン+Softmax+CrossEntorpyということで、出力yは0~3の整数ということで合っていますでしょうか?

Message has been deleted

Tetsuo Tsuru

unread,
Jul 29, 2018, 1:51:36 PM7/29/18
to Neural Network Console Users (JP)
過去に遡っての確認となり返信が遅くなりました.


・データセットのキャッシュの削除では,同じ現象で止まりました,
・1層のニューラル・ネットワークでは動きました
・出力ニューロンの件は,出力yは0〜3の整数です.

1層のニューラル・ネットワークで動いたので
ネットワークを少し変えて動かしてみたのですが同じ様な現象で止まりました.
さらに現在出力y0〜1の整数で動いているネットワークで試したのですが
やはり同じ現象でとまりました.

参考までに画面を添付していきますが,
現在y0〜1の整数で動いているネットワークで研究を先に進めていますので
この問題はひとまずここまでで置いておきます.

また同じ現象が発生するようなことがありましたら報告します.

最小で動く1層の確認のネットワークを教えていただいたので
とても参考になりました.

ありがとうございました.
--



2018年7月25日水曜日 19時11分41秒 UTC+9 小林由幸:

小林由幸

unread,
Aug 6, 2018, 7:30:25 AM8/6/18
to Neural Network Console Users (JP)
新たに添付していただいたネットワークを見ると、NaNが発生しており、これが途中で学習が止まった原因かと思われます。
一旦NaNが発生してしまうとこれ以上最適化を進めても結果が改善することはないため、学習が自動停止するようになっています。

NaNが発生する原因は、SigmoidレイヤーとBinaryCrossEntropyの間に挿入されたAffineレイヤーです。
Affineレイヤーは負の値を出力しますが、BinaryCrossEntropyレイヤーは負の値を扱うことができません。
最後のAffine_3レイヤーを除き、Affine_2のOutShapeを1にすると正しく学習できる可能性があります。

Reply all
Reply to author
Forward
0 new messages