vak | bfloat16

Skip to Main Content

Entry tags:

bfloat16

Полезная шпаргалка от Интела: bf16-hardware-numerics-definition-white-paper.pdf

Описывает подробности реализации чисел с плавающей точкой в формате BFloat16, или для краткости BF16.

BF16 отличается от стандартного FP32 (известного в Си как float) несколькими моментами.

Размер мантиссы уменьшен с 23 бит до 7 бит.
Размер экспоненты остаётся тот же, 8 бит.
Денормализованное число на входе операции считается нулём.
Денормализованный результат сбрасывается в ноль.
Результат округляется до ближайшего чётного.
Inf и NaN поддерживаются как обычно.
Никаких исключений или прерываний. В частности, SNaN не вызывает исключения.

Threaded | Flat

Смешно, что я узнал о существовании bf16 буквально несколько часов назад на рабочем совещании.

Исключения и прерывания убрали для того, чтобы ничто не мешало гнать лажу?

Уже bf8 на подходе.

Threaded | Flat