ウェイトに続いてアクティベーションの精度も8bit整数に落としてみました。普通は推論時の演算精度を8bitに落とすことは学習時には考えないのかもしれませんが、ここでは、バイナリニューラルネットと同じように、学習時も順伝搬では8bit精度を扱います。なんでか分かりませんが、ウェイトだけ8bitにした時よりも認識精度が高いようです。
学習時に8bit化の準備をしておくと、推論プログラムに移植した時にバグなのか単なる精度低下なのか悩まなくて済みます。でも、固定少数をどこに置くか?学習率はいくつにするか?など、学習時の悩み事は増えます。
もっと速いPCがあると良いのになぁ。