vak | Как работает LLM

You're viewing

vak's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

vak

Хотите разобраться, как устроена большая языковая модель? Вот качественная объяснялка.

bbycroft.net/llm

Flat | Top-Level Comments Only

From:

juan_gandhi

Визуализация красивая, но голову морочат. Откуда все эти матрицы взялись при обучении? Как трансформеры работают?

From:

vak

Ну как откуда матрицы. Метод градиентного спуска, вот это всё.

https://www.geeksforgeeks.org/gradient-descent-algorithm-and-its-variants/

Трансформеры отдельная прикольная штука.

https://www.datacamp.com/tutorial/how-transformers-work
https://towardsdatascience.com/transformers-141e32e69591

Я сам в этой математике не особо мастак, чисто по диагонали разумею.

From:

juan_gandhi

Бля, похоже скорее на гадание. Математики там чуток.

Мой-то вопрос был - откуда берутся те матрицы, с которыми происходит свёртка в самом начале.
Ну понятно, что от обучения, но как? И откуда конкретно мы знаем заранее размерность?

From:

vak

Всякая нетривиальная технология похожа на магию. 😀

Все матрицы наполняются содержимым при обучении. Выбор размерности - произвол чувака, проектирующего граф сетки. Знание, какие размеры лучше работают в каких случаях, нарабатывается опытом. Даже новая специальность возникла, называется feature engineering.

https://en.wikipedia.org/wiki/Feature_engineering

Какие именно вычислительные процессы происходят при "обучении", то есть при наполнении всех матриц нужными цифрами, описывается в куче книг и статей. По сути классический градиентный спуск.

https://en.wikipedia.org/wiki/Gradient_descent