vak: (Default)
[personal profile] vak
Полезная шпаргалка от Интела: bf16-hardware-numerics-definition-white-paper.pdf

Описывает подробности реализации чисел с плавающей точкой в формате BFloat16, или для краткости BF16.

BF16 отличается от стандартного FP32 (известного в Си как float) несколькими моментами.
  • Размер мантиссы уменьшен с 23 бит до 7 бит.
  • Размер экспоненты остаётся тот же, 8 бит.
  • Денормализованное число на входе операции считается нулём.
  • Денормализованный результат сбрасывается в ноль.
  • Результат округляется до ближайшего чётного.
  • Inf и NaN поддерживаются как обычно.
  • Никаких исключений или прерываний. В частности, SNaN не вызывает исключения.

Date: 2022-07-27 16:33 (UTC)
spamsink: (Default)
From: [personal profile] spamsink
Лишь бы на разных континентах не было разных вариантов, как с A-law и μ-law.

Date: 2022-07-27 16:52 (UTC)
From: [personal profile] ivanrubilo
Да уже некоторые наклепали - у кого-то -0 - это NaN, у кого-то что-то другое...