ネットワークを作る際の目安について、質問させてください。
添付(3.jpg)の通り、約6000日のtrainingデータ、約400日のvalidationデータを学習させています。
作りたいものは40指標×5日分のデータを使い、翌日の売り上げが上がる・そのまま・下がるを予想する3分類です。
NNC動画は一通り拝見して
・過学習を防ぐにはbatch normalizationが有効
・dropoutも有効
・reluよりswishが優秀
・逆三角形になるようにニューロン数を減らしていくべし
という指標から、見よう見真似で添付のネットワークを作っています。
cost, trainging errorは減っていくのですが、
validation errorが減っていかず、いわゆる過学習と呼ばれる状態になっているのかと考えています。
ネットワーク作りに正解はないのは重々承知しているのですが、
データの規模から大体のニューロン数や段数の設定目安などは、ございませんでしょうか?
また利用してるブロックが正しいかどうかについても、ご指摘頂けますと大変助かります。