vak: (Знайка)
[personal profile] vak
Они придумали как ускорить тренировку трансформеров на порядок. То есть значительно удешевить. Вот статья, где это дело объясняется.

"Deepdive into Deepseek"

Date: 2025-01-31 04:38 (UTC)
lev: (Default)
From: [personal profile] lev
интересно, если ошибиться с "экспертом" в процессе - получится "Гуртовщики мыши"?

Date: 2025-01-31 07:34 (UTC)
kondybas: (Default)
From: [personal profile] kondybas
А разве не то, что ректифицированая модель может работать на неміслимо слабом железе? Давеча у Гирлинга смотрел, как он deepseek на raspberry pi5 гоняет.

В любом случае, ректифицированіе ллм означают переход от централизованіх единичніх єкземпляров к массовому зоопарку конкурирующих особей, что неминуемо приведет к дивергенции и техноєволюции.

Date: 2025-01-31 09:19 (UTC)
kondybas: (Default)
From: [personal profile] kondybas
Между "не работает" и "тормозит" - качественній переход.

Date: 2025-01-31 18:04 (UTC)
From: [personal profile] slider2
Я запускал DeepSeek на МакБукеПро (M4, 48gb), работает очень неплохо. Главное ограничение - память, модели размером до 32b включительно работают хорошо, 70b модель полностью не влезает в RAM и начинается свап, скорость при этом падает радикально. Думаю что на 96gb машине 70b модель тоже бы работала ОК.

Кстати, на АРМ маке модели работают лучше чем на типовых десктопных машинах благодаря unified memory - вся RAM доступна для GPU, а маки доступны с памятью намного большей чем у бытовых NVIDIA видеокарт.

Date: 2025-01-31 18:09 (UTC)
From: [personal profile] slider2
Спасибо, интересно.

Необходимость оптимизаций LLM давно назрела, пока что и OpenAI, и другие работают в основном над улучшением моделей и фичами, сейчас наверное начнется раунд оптимизаций. Стандартный цикл софтверного девелопмента :-)

Мне с DeepSeek еще другое интересно - действительно ли их модель выдает результаты на уровне OpenAI, и если да - как они этого добились?
OpenAI утверждает что по логам они определили что команда DeepSeek занималась дисциляцией OpenAI моделей, если это так - то хорошие результаты обьяснимы, но это совсем другое чем тренировать модель с нуля.

Date: 2025-01-31 18:46 (UTC)
From: [personal profile] slider2
Вопрос в том - как дотренировали - путем дистилляции (используя OpenAI сервис в качестве "instruct" модели) для файн-тюнинга или все сами с нуля?