Чешем репу
2025-09-20 22:05У современных математиков, перефразируя Канта, две вещи наполняют душу всё новым и всё более глубоким восхищением и благоговением, чем чаще и дольше о них размышляют. Эти две вещи: benign overfitting и grokking.
унутренняя неонка математика искусственного интеллекта, на отлично доступном уровне примерно старшеклассника. Со множеством исторических деталей и историй. Рекомендую желающим понять, как из умножения миллионов и миллиардов матриц возникает синекдоха отвечания понимания.
"Повторение - мать перемать обучения", говаривал про гроккинг наш институтский военрук майор Ходырев.

- Benign overfitting - доброкачественное избыточное обучение. Означает, что модель способна идеально запомнить обучающие данные (включая шум), но при этом почему-то не ухудшается на незнакомых данных. Это происходит, когда модель слишком "толстая" (имеет сильно больше параметров чем нужно). Теоретически качество работы модели должно портиться при оверфиттинге. Но этого не происходит, и даже наоборот. Почему так? Математики ломают голову.
- Grokking - фазовый переход при избыточном обучении, когда после множества итераций с ничтожным или нулевым улучшением, модель резко обретает способность к обобщению. Становится пугающе похоже на "сильный" интеллект. Механизм никто не понимает.
"Повторение - мать перемать обучения", говаривал про гроккинг наш институтский военрук майор Ходырев.

