vak: (Аристипп)
[personal profile] vak
У современных математиков, перефразируя Канта, две вещи наполняют душу всё новым и всё более глубоким восхищением и благоговением, чем чаще и дольше о них размышляют. Эти две вещи: benign overfitting и grokking.
  • Benign overfitting - доброкачественное избыточное обучение. Означает, что модель способна идеально запомнить обучающие данные (включая шум), но при этом почему-то не ухудшается на незнакомых данных. Это происходит, когда модель слишком "толстая" (имеет сильно больше параметров чем нужно). Теоретически качество работы модели должно портиться при оверфиттинге. Но этого не происходит, и даже наоборот. Почему так? Математики ломают голову.
  • Grokking - фазовый переход при избыточном обучении, когда после множества итераций с ничтожным или нулевым улучшением, модель резко обретает способность к обобщению. Становится пугающе похоже на "сильный" интеллект. Механизм никто не понимает.
Это я прочитал книжку "Почему машины учатся". Разъясняется унутренняя неонка математика искусственного интеллекта, на отлично доступном уровне примерно старшеклассника. Со множеством исторических деталей и историй. Рекомендую желающим понять, как из умножения миллионов и миллиардов матриц возникает синекдоха отвечания понимания.

"Повторение - мать перемать обучения", говаривал про гроккинг наш институтский военрук майор Ходырев.

Date: 2025-09-21 07:32 (UTC)
chaource: (Default)
From: [personal profile] chaource
Тайна сегодняшняго ИИ начинается, на мой взглядъ, еще съ word embedding. https://en.wikipedia.org/wiki/Word_embedding

Каждому слову (или фрагменту слова) ставятъ въ соотвѣтствiе нѣкiй векторъ въ многомѣрномъ пространствѣ. Это соотвѣтствiе вычисляется приблизительно и псевдослучайно изъ статистики сосѣднихъ словъ въ текстѣ. Никто не знаетъ, что означаютъ эти векторы, какiя именно связи между словами они геометрически представляютъ. Широко извѣстны лишь простые примѣры - что 4 вектора для словъ "король", "королева", "мужчина", "женщина" приблизительно образуютъ параллелепипедъ. Также параллелепипеды образуютъ такiя четверки словъ, какъ "Парижъ", "Берлинъ", "Францiя", "Германiя" и многiя другiя.

Обычно говорятъ, что word embedding представляетъ различныя смысловыя связи между словами какъ геометрическiя связи между векторами. Но, во-первыхъ, мы не знаемъ, что такое "смысловыя связи", ихъ по-видимому очень много и у насъ нѣтъ какого-то ихъ систематическаго каталога. Да намъ и невозможно геометрически представить себѣ какiя-либо сложныя геометрическiя закономѣрности въ 300-мѣрномъ или 1200-мѣрномъ пространствѣ. Во-вторыхъ, алгоритмы word embedding не были спецiально разсчитаны такъ, чтобы получить такой параллелепипедъ - это было открыто постфактумъ. Мы не знаемъ, почему это получилось.

Date: 2025-09-21 08:01 (UTC)
kondybas: (Default)
From: [personal profile] kondybas
Полагаю, что ємбеддинг, как и оверфиттинг, есть следствие того, что труЪ-факті из обьективной реальности всегда связані между собой, прямо или косвенно. Что делает возможнім логику, например. И формализацию-математизацию знания. И индуктивніе суждения. Ложніе же суждения потому и ложні, что связность их с ОР нарушена, и єту ложность даже иногда можно доказать. Отображению же множества суждений на язік приходится повторять єто свойство связности/несвязности, иначе получится рібий язік, непригодній для коммуникации.

Еслишо, связность фактов из ОР меня напрягает куда сильнее, чем звезное небо и категорический императив.

Date: 2025-09-21 08:36 (UTC)
chaource: (Default)
From: [personal profile] chaource
Слѣдующая тайна послѣ word embedding - это attention mechanism in the transformer architecture. Никто не понимаетъ, почему это такъ работаетъ, необходимая структура была найдена ощупью и до сихъ поръ "механизмъ вниманiя" немного мѣняютъ и подстраиваютъ (опять-таки вслѣпую).

Безъ этого тексты получаются явно безсмысленные и безсвязные.

Дальше, оказалось необходимымъ тренировать модели на overfitting, такъ что оказались невѣрными ранѣе незыблемые постулаты "data science" - что нельзя допускать overfitting или что послѣ выхода на validation plateau уже не нужно тренировать модель на гораздо большемъ объемѣ данных.

Какъ вы и сказали, эти постулаты не были опровергнуты теоретически - мы не знаемъ, почему они для LLM больше не работаютъ.

Date: 2025-09-21 08:58 (UTC)
From: [personal profile] litwr
О сколько нам открытий чудных...

Date: 2025-09-21 14:58 (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9

Для меня является загадкой, почему benign overfitting является загадкой. По-моему там нет никакого противоречия.

Например, k-nearest neighbor запоминает все обучающие данные, включая шум, и ничего, никто не удивляется, почему он работает.

Date: 2025-09-21 19:17 (UTC)
sab123: (Default)
From: [personal profile] sab123
Если сидеть и смотреть на процесс тренировки как он происходит по шагам, то наглядно видно, что этот grokking происходит постоянно. Модель крутится вокруг локального минимума, потом опа, перескакивает через барьер, сначала качество падает, но потом она быстро скачет к более глобальному минимуму. Потом все повторяется.

Типичная причина такого перескакивания - какой-то параметр доталкивается до ситуации, где он меняет знак. Это на самом деле сложный момент, поскольку в нейросети нелинейные выражения, и чем ближе параметр к нулю, тем труднее его толкать дальше в сторону другого знака. Чтоб произошел перескок, надо или чтоб за один раз прошло сильное изменение, или использовать накопление момента. Сразу после смены знака оказывается, что все, что зависит от этого параметра, считается неправильно - это кратковременная потеря качества. Но потом и этот и соседние параметры быстро подгоняются в новый оптимум.
Edited Date: 2025-09-21 19:21 (UTC)