Чешем репу
2025-09-20 22:05У современных математиков, перефразируя Канта, две вещи наполняют душу всё новым и всё более глубоким восхищением и благоговением, чем чаще и дольше о них размышляют. Эти две вещи: benign overfitting и grokking.
унутренняя неонка математика искусственного интеллекта, на отлично доступном уровне примерно старшеклассника. Со множеством исторических деталей и историй. Рекомендую желающим понять, как из умножения миллионов и миллиардов матриц возникает синекдоха отвечания понимания.
"Повторение - мать перемать обучения", говаривал про гроккинг наш институтский военрук майор Ходырев.

- Benign overfitting - доброкачественное избыточное обучение. Означает, что модель способна идеально запомнить обучающие данные (включая шум), но при этом почему-то не ухудшается на незнакомых данных. Это происходит, когда модель слишком "толстая" (имеет сильно больше параметров чем нужно). Теоретически качество работы модели должно портиться при оверфиттинге. Но этого не происходит, и даже наоборот. Почему так? Математики ломают голову.
- Grokking - фазовый переход при избыточном обучении, когда после множества итераций с ничтожным или нулевым улучшением, модель резко обретает способность к обобщению. Становится пугающе похоже на "сильный" интеллект. Механизм никто не понимает.
"Повторение - мать перемать обучения", говаривал про гроккинг наш институтский военрук майор Ходырев.


no subject
Date: 2025-09-21 07:32 (UTC)Каждому слову (или фрагменту слова) ставятъ въ соотвѣтствiе нѣкiй векторъ въ многомѣрномъ пространствѣ. Это соотвѣтствiе вычисляется приблизительно и псевдослучайно изъ статистики сосѣднихъ словъ въ текстѣ. Никто не знаетъ, что означаютъ эти векторы, какiя именно связи между словами они геометрически представляютъ. Широко извѣстны лишь простые примѣры - что 4 вектора для словъ "король", "королева", "мужчина", "женщина" приблизительно образуютъ параллелепипедъ. Также параллелепипеды образуютъ такiя четверки словъ, какъ "Парижъ", "Берлинъ", "Францiя", "Германiя" и многiя другiя.
Обычно говорятъ, что word embedding представляетъ различныя смысловыя связи между словами какъ геометрическiя связи между векторами. Но, во-первыхъ, мы не знаемъ, что такое "смысловыя связи", ихъ по-видимому очень много и у насъ нѣтъ какого-то ихъ систематическаго каталога. Да намъ и невозможно геометрически представить себѣ какiя-либо сложныя геометрическiя закономѣрности въ 300-мѣрномъ или 1200-мѣрномъ пространствѣ. Во-вторыхъ, алгоритмы word embedding не были спецiально разсчитаны такъ, чтобы получить такой параллелепипедъ - это было открыто постфактумъ. Мы не знаемъ, почему это получилось.
no subject
Date: 2025-09-21 08:01 (UTC)Еслишо, связность фактов из ОР меня напрягает куда сильнее, чем звезное небо и категорический императив.
no subject
Date: 2025-09-21 08:36 (UTC)Безъ этого тексты получаются явно безсмысленные и безсвязные.
Дальше, оказалось необходимымъ тренировать модели на overfitting, такъ что оказались невѣрными ранѣе незыблемые постулаты "data science" - что нельзя допускать overfitting или что послѣ выхода на validation plateau уже не нужно тренировать модель на гораздо большемъ объемѣ данных.
Какъ вы и сказали, эти постулаты не были опровергнуты теоретически - мы не знаемъ, почему они для LLM больше не работаютъ.
no subject
Date: 2025-09-21 08:58 (UTC)no subject
Date: 2025-09-21 14:58 (UTC)Для меня является загадкой, почему benign overfitting является загадкой. По-моему там нет никакого противоречия.
Например, k-nearest neighbor запоминает все обучающие данные, включая шум, и ничего, никто не удивляется, почему он работает.
no subject
Date: 2025-09-21 19:17 (UTC)Типичная причина такого перескакивания - какой-то параметр доталкивается до ситуации, где он меняет знак. Это на самом деле сложный момент, поскольку в нейросети нелинейные выражения, и чем ближе параметр к нулю, тем труднее его толкать дальше в сторону другого знака. Чтоб произошел перескок, надо или чтоб за один раз прошло сильное изменение, или использовать накопление момента. Сразу после смены знака оказывается, что все, что зависит от этого параметра, считается неправильно - это кратковременная потеря качества. Но потом и этот и соседние параметры быстро подгоняются в новый оптимум.