![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
"FP64, FP32, FP16, BFloat16, TF32, and other members of the Zoo"

Библиотека Си++, реализующая плавающие числа с произвольным размером экспоненты и мантиссы: https://github.com/oprecomp/FloatX
К примеру, BFloat16 реализуется как тип float<8,7>. Размер экспоненты равен 8, размер мантиссы - 7.
Библиотека Си++, реализующая плавающие числа с произвольным размером экспоненты и мантиссы: https://github.com/oprecomp/FloatX
К примеру, BFloat16 реализуется как тип float<8,7>. Размер экспоненты равен 8, размер мантиссы - 7.
no subject
Date: 2022-11-04 03:28 (UTC)no subject
Date: 2022-11-04 19:51 (UTC)Вот статья: https://pdfs.semanticscholar.org/da1f/299a7149b98c50b508a1c9886ff3d01b0233.pdf
Но суть не в экономии битов, а в проблеме quantization, которую приходится решать, если мы уменьшаем экспоненту. А решать её трудно и дорого, часто ценой retraining.
no subject
Date: 2022-11-04 22:32 (UTC)