vak | В чём вклад DeepSeek?

You're viewing

vak's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

Они придумали как ускорить тренировку трансформеров на порядок. То есть значительно удешевить. Вот статья, где это дело объясняется.

"Deepdive into Deepseek"

Flat | Top-Level Comments Only

From:

lev

интересно, если ошибиться с "экспертом" в процессе - получится "Гуртовщики мыши"?

From:

kondybas

А разве не то, что ректифицированая модель может работать на неміслимо слабом железе? Давеча у Гирлинга смотрел, как он deepseek на raspberry pi5 гоняет.

В любом случае, ректифицированіе ллм означают переход от централизованіх единичніх єкземпляров к массовому зоопарку конкурирующих особей, что неминуемо приведет к дивергенции и техноєволюции.

From:

vak

Хуан Ганди запускал на маке, говорит, тормозит нещадно.

https://vak.dreamwidth.org/1337833.html?thread=9925353#cmt9925353

Edited Date: 2025-01-31 09:00 (UTC)

From:

kondybas

Между "не работает" и "тормозит" - качественній переход.

From:

vak

Другие сетки такого размера ровно так же тормозят. Там нет принципиальной разницы.

From:

slider2

Я запускал DeepSeek на МакБукеПро (M4, 48gb), работает очень неплохо. Главное ограничение - память, модели размером до 32b включительно работают хорошо, 70b модель полностью не влезает в RAM и начинается свап, скорость при этом падает радикально. Думаю что на 96gb машине 70b модель тоже бы работала ОК.

Кстати, на АРМ маке модели работают лучше чем на типовых десктопных машинах благодаря unified memory - вся RAM доступна для GPU, а маки доступны с памятью намного большей чем у бытовых NVIDIA видеокарт.

From:

slider2

Спасибо, интересно.

Необходимость оптимизаций LLM давно назрела, пока что и OpenAI, и другие работают в основном над улучшением моделей и фичами, сейчас наверное начнется раунд оптимизаций. Стандартный цикл софтверного девелопмента :-)

Мне с DeepSeek еще другое интересно - действительно ли их модель выдает результаты на уровне OpenAI, и если да - как они этого добились?
OpenAI утверждает что по логам они определили что команда DeepSeek занималась дисциляцией OpenAI моделей, если это так - то хорошие результаты обьяснимы, но это совсем другое чем тренировать модель с нуля.