![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Полезная шпаргалка от Интела: bf16-hardware-numerics-definition-white-paper.pdf
Описывает подробности реализации чисел с плавающей точкой в формате BFloat16, или для краткости BF16.
BF16 отличается от стандартного FP32 (известного в Си как float) несколькими моментами.
Описывает подробности реализации чисел с плавающей точкой в формате BFloat16, или для краткости BF16.
BF16 отличается от стандартного FP32 (известного в Си как float) несколькими моментами.
- Размер мантиссы уменьшен с 23 бит до 7 бит.
- Размер экспоненты остаётся тот же, 8 бит.
- Денормализованное число на входе операции считается нулём.
- Денормализованный результат сбрасывается в ноль.
- Результат округляется до ближайшего чётного.
- Inf и NaN поддерживаются как обычно.
- Никаких исключений или прерываний. В частности, SNaN не вызывает исключения.
no subject
Date: 2022-07-27 16:52 (UTC)