Во-первых, тот же размер экспоненты, что у традиционного float32. То есть одним махом избавляемся от проблемы quantization. Тренируем сетку как обычно на fp32, а потом просто укорачиваем мантиссы.
Во-вторых, тот же размер мантиссы, что у int8. То есть в хардвере можно использовать те же умножители, что и для классического целочисленного inference.
no subject
Во-первых, тот же размер экспоненты, что у традиционного float32. То есть одним махом избавляемся от проблемы quantization. Тренируем сетку как обычно на fp32, а потом просто укорачиваем мантиссы.
Во-вторых, тот же размер мантиссы, что у int8. То есть в хардвере можно использовать те же умножители, что и для классического целочисленного inference.