vak | Про форматы чисел с плавающей точкой, познавательное

Про форматы чисел с плавающей точкой, познавательное

"FP64, FP32, FP16, BFloat16, TF32, and other members of the Zoo"

Библиотека Си++, реализующая плавающие числа с произвольным размером экспоненты и мантиссы: https://github.com/oprecomp/FloatX

К примеру, BFloat16 реализуется как тип float<8,7>. Размер экспоненты равен 8, размер мантиссы - 7.

Flat | Top-Level Comments Only

Для всякого машинного лернинга годится или bfloat16, или вообще сразу брать логарифмы и не мучаться. (Я когда-то сразу в логарифмы перегонял, все равно на больших данных будут большие числа.)

Не всё так просто. Сейчас для тренинга все используют FP32. Положительных результатов удавалось добиться с BF16, но его преимущества не очевидны.

Для inference массово используется традиционный int8. На плавающей точке страшно неэффективно выходит. С переходом на int8 вылазит проблема quantization и потери точности. Чтобы не париться с квантованием, народ пробует BF16, но опять же преимущества пока непонятны.

Если логарифм не округлять до целого или 1/2, 1/4..., встаёт та же проблема: как его представлять?

Edited 2022-11-03 23:48 (UTC)

или bfloat16, или float16 - зависит от того, хватит ли пяти бит для порядка (вряд ли)

Прелесть bfloat16 двойная.

Во-первых, тот же размер экспоненты, что у традиционного float32. То есть одним махом избавляемся от проблемы quantization. Тренируем сетку как обычно на fp32, а потом просто укорачиваем мантиссы.

Во-вторых, тот же размер мантиссы, что у int8. То есть в хардвере можно использовать те же умножители, что и для классического целочисленного inference.

bfloat16 удобен с точки зрения преобразования <-> float32, но для разных вычислений могут пригодиться и числа с 6 или 7 битами порядка. 3⏨38 кажется многовато, а 6.5⏨4 - маловато.

Поигравшись с разными размерами полей float, народ выяснил, что в принципе достаточно 6 бит экспоненты. На рисунке - потеря точности нейронной сетки от размера экспоненты и мантиссы.

Вот статья: https://pdfs.semanticscholar.org/da1f/299a7149b98c50b508a1c9886ff3d01b0233.pdf

Но суть не в экономии битов, а в проблеме quantization, которую приходится решать, если мы уменьшаем экспоненту. А решать её трудно и дорого, часто ценой retraining.

Немонотонность на w=5 очень удивительна.

Flat | Top-Level Comments Only

Про форматы чисел с плавающей точкой, познавательное

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject