Entry tags:
bfloat16
Полезная шпаргалка от Интела: bf16-hardware-numerics-definition-white-paper.pdf
Описывает подробности реализации чисел с плавающей точкой в формате BFloat16, или для краткости BF16.
BF16 отличается от стандартного FP32 (известного в Си как float) несколькими моментами.
Описывает подробности реализации чисел с плавающей точкой в формате BFloat16, или для краткости BF16.
BF16 отличается от стандартного FP32 (известного в Си как float) несколькими моментами.
- Размер мантиссы уменьшен с 23 бит до 7 бит.
- Размер экспоненты остаётся тот же, 8 бит.
- Денормализованное число на входе операции считается нулём.
- Денормализованный результат сбрасывается в ноль.
- Результат округляется до ближайшего чётного.
- Inf и NaN поддерживаются как обычно.
- Никаких исключений или прерываний. В частности, SNaN не вызывает исключения.
no subject
(no subject)
(no subject)
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
(no subject)
(no subject)
(no subject)
(no subject)