大野です
学習できないというのは訓練データでの損失が下がらない(underfitしている)のと、
訓練データでは損失が下がるけれどテストデータでは下がらない(過学習をしている)のと、
どちらかによって対策は変わってくると思います。
一般に中間層を大きくするなど、学習モデルのパラメータを増やすと、過学習をしやすくなります。
今回の問題が過学習ならば、それが起こるのは不思議ではないと思います。
逆にunderfitする可能性もあります。層を深くすると、最適化すべき関数が複雑になり、
既存の最適化手法(SGDなど)では十分に最適化しきれず、訓練データでも損失を減らせていないのかもしれません。
過学習に関しては、dropout, BatchNormalizationなど強い正則化をかける、data augmentationをして訓練データを増やす、
学習モデルのパラメータを減らすなどの対策が考えられます。underfitに関しては、最適化アルゴリズムのパラメータを
チューニングするなどの方法が考えられます。
2016年1月13日水曜日 14時35分34秒 UTC+9 daiki fukunaga: