Покажу красивые рисуночки, а подробности в статье:
"The boundary of neural network trainability is fractal" (PDF)
Абстракт: "Некоторые фракталы — например, те, что связаны с множествами Мандельброта и квадратичными множествами Жюлиа — вычисляются путем итерации функции и определения границы между гиперпараметрами, для которых результирующий ряд расходится или остается ограниченным. Обучение нейронной сети аналогичным образом включает итерацию функции обновления (например, повторные шаги градиентного спуска), что может привести к сходящемуся или расходящемуся поведению и может быть чрезвычайно чувствительно к небольшим изменениям гиперпараметров. Мотивированные этими сходствами, мы экспериментально изучаем границу между гиперпараметрами нейронной сети, которые приводят к стабильному или расходящемуся обучению. Мы обнаружили, что эта граница является фрактальной более чем на десять порядков масштаба во всех протестированных конфигурациях."
Deep linear full batch (fractal dim 1.17)

ReLU full batch (fractal dim 1.20)

tanh dataset set size 1 (fractal dim 1.41)

tanh minibatch (fractal dim 1.55)

tanh full batch (fractal dim 1.66)

"The boundary of neural network trainability is fractal" (PDF)
Абстракт: "Некоторые фракталы — например, те, что связаны с множествами Мандельброта и квадратичными множествами Жюлиа — вычисляются путем итерации функции и определения границы между гиперпараметрами, для которых результирующий ряд расходится или остается ограниченным. Обучение нейронной сети аналогичным образом включает итерацию функции обновления (например, повторные шаги градиентного спуска), что может привести к сходящемуся или расходящемуся поведению и может быть чрезвычайно чувствительно к небольшим изменениям гиперпараметров. Мотивированные этими сходствами, мы экспериментально изучаем границу между гиперпараметрами нейронной сети, которые приводят к стабильному или расходящемуся обучению. Мы обнаружили, что эта граница является фрактальной более чем на десять порядков масштаба во всех протестированных конфигурациях."
Deep linear full batch (fractal dim 1.17)

ReLU full batch (fractal dim 1.20)

tanh dataset set size 1 (fractal dim 1.41)

tanh minibatch (fractal dim 1.55)

tanh full batch (fractal dim 1.66)


no subject
Date: 2025-01-06 23:31 (UTC)no subject
Date: 2025-01-06 23:45 (UTC)И проецируя обратно на обучение естественного интеллекта (биологических человеков), тоже интересно выходит. Всех учат, но не всех удаётся обучить. Потому что у сапиенсов в соображалке замешивается аналогичный фрактал.
no subject
Date: 2025-01-07 00:24 (UTC)no subject
Date: 2025-01-07 07:10 (UTC)no subject
Date: 2025-01-07 07:56 (UTC)"Человечество" называется. 😀
no subject
Date: 2025-01-07 08:21 (UTC)no subject
Date: 2025-01-07 00:21 (UTC)Интересный момент заключатся в том, что если постепенно увеличивать размер шага, то позывы к расхождению делаются видны даже на размере шага, где расхождения еще нет. Они видны на графике ошибки. Если шаг достаточно маленький, график ошибки сидержит мелкие зигзаги, но ошибка плавно уменьшается по мере шагов. Когда шаг растет, амплитуда зигзагов ошибки увеличивается, и это - прямой сигнал, что мы близки к расхождению. Зигзаги означают маленькие расхождения, которым не удается вырасти до полного расхождения