CNNで文書のポジネが分類を行おうとしているのですが,Chainerを使用するマシンによって速度が大幅に遅くなってしまいます.
速度が遅くなってしまう方はGPU,CPU共にスペックが上なので,スペックの問題ではないと思います.
スペックですが,速度について問題ない方のマシンスペックが,
CentOS7.1 GeForce GTX TITAN X
問題ある方のマシンスペックが,
CentOS7.2 Tesla M40
となっております.どちらもpyenv環境のPython3.4.3,Chainerのバージョンは1.19.0です.
Chainerで使用したモデルは下のURLと同じで,pretrainのベクトルに300次元のword2vecで学習したベクトルを用いています.
速度が遅い方について,コメントアウトしながら各記述部分の速度を確認したところ,trainingのloss.backward()で異常に時間がかかっているようでした.
両環境ともChainerのexampleのmnistやptbのコードは問題なく動き,かつ,速度も問題ない(極端に速度が遅くなったりしない)ので原因が特定できず困り果てております.
使用しているコードと両環境のnvprofも添付します.