Я тут, кстати, поэкспериментировал с таким, и выходит, что использовать короткие числа для тренинга невозможно - мелкие градиенты теряются. Это только модифицировать уже тренированную модель. Но и там проблемы, поскольку коэффициенты норовят вылазить из дмапазона [-1, 1].
no subject
Date: 2022-04-12 17:02 (UTC)no subject
Date: 2022-04-12 17:37 (UTC)no subject
Date: 2022-04-13 00:02 (UTC)