分類と予測は同時に学習することで精度が高くなるケースもありますが、そうでないケースもあります。
また、十分な精度が出ないとするとその原因はさまざまです。
いくつか思い当たる可能性を挙げさせていただきます。
* モデルの複雑さに対して学習データ数は十分でしょうか?800次元のLSTMですので、ざっくり数万オーダーのデータが必要そうに思えます。
* 同様に、LSTMの後に分類用のLSTM(左下)が設置されており、モデルの複雑性が高くなっています。データ数が十分でない場合むしろ左下のLSTMは外し、LSTMのサイズはより小さくした方が評価データでの精度は高くなる可能性があります。
* 分類、予測共、入力の全時刻の出力がそのまま予測に使われています。分類側はともかく、予測側は各時刻毎の情報を使った予測を行ったほうが良いかと思います。具体的にはAffine_2の代わりに
Reshape(OutShape=(1,19,800))
Transpose(Axes=(2,0,1))
Convolution(OutMaps=75, KernelShape(1,1))
Transpose(Axes=(0,1,2,0))
Reshape(OutShape=(19,75))
とします。