Я тут, кстати, поэкспериментировал с таким, и выходит, что использовать короткие числа для тренинга невозможно - мелкие градиенты теряются. Это только модифицировать уже тренированную модель. Но и там проблемы, поскольку коэффициенты норовят вылазить из дмапазона [-1, 1].
no subject
no subject
no subject