vak | 2024-02-03

2024-02-03

Посмотрели вчера нашумевший фильм "Мастер и Маргарита" от Локшина. Пиратская копия, скачанная из интернета. Для меня это значимое произведение русской литературы, поэтому отношусь внимательно. Но в данном случае особо трепетать не стоит. Очевидно, режиссёр читал когда-то роман, но повыветрилось. Поэтому половине эпизодов дописал сам, насколько фантазии хватило. Актёры выручают, конечно. Те сцены, что сняты ровно по роману, могут служить отличной видео иллюстрацией к авторскому тексту. Но суть произведения потеряна. Может нынешняя российская публика и неспособна осилить глубину, поэтому ей дают упрощённый лубок.

Вот официальный трейлер.

Watch on YouTube

«До развала империи воевать нам еще лет десять. Пару лет война будет на нашей территории, пока мы их не сдвинем, а дальше война перекинется на территорию России. Гореть будет все. Так же, как они довели нас до такого состояния. На данный момент без внешней поддержки мы как государство не существуем. И до такого же состояния, до полной разрухи, до полного экономического разрушения будет доведена Россия.»

(oboz.ua)

Покажу вам одну картинку с работы. Тут есть над чем поразмыслить. Измеряется скорость работы симулятора нашего хитрого вычислителя для нейронных сетей машинного обучения. Испытываются три компьютера: ноукбук Macbook Pro, сервер Intel Xeon и десктоп iMac с процессором Intel i9. Пробуем два компилятора: Clang и GCC.

Для бенчмарка я взял одну из самых толстых нейронных сеток из нашей внутренней коллекции. Не буду уточнять, какую именно, скажу только, что после компиляции сетки в систему команд вычислителя объём бинарной программы получается 225 мегабайт. И ещё данных несколько сот мегабайт.

Чип, который мы сейчас выпускаем и предлагаем юзерам - это первая версия архитектуры. К ней имеем симулятор "А". Он однопоточный, то есть нагружает только одно ядро компьютера.

Вторую версию архитектуры мы закончили в прошлом году, и к ней сделали симулятор "B". Он уже многопоточный: по умолчанию задействует все имеющиеся ядра процессора. Но для целей сравнения мы будем его запускать также и в однопоточном режиме. Как сделана многопоточность - я уже рассказывал в одном из постов.

А дальше глядите на картинку и делайте выводы. Тут несколько аспектов.

Можно сравнивать между собой архитектуры ARM (Apple M2) и Intel (Xeon, i9).
Можно оценивать эффективность компиляторов Clang супротив GCC. Режим оптимизации здесь -O3 -ftree-vectorize. Версия компилятора тоже влияет.
Можно смотреть на рост производительности при включении многопоточности. Платформы заметно отличаются. На Apple M2 имеется 12 ядер, на Xeon 16 ядер, на i9 тоже как бы 16, но только восемь физические.
Можно задаться вопросом про влияние SIMD-сопроцессора: Neon на архитектуре ARM и SSE на Интеле.

Пятнадцать байтов на стек от конца

2024-02-03

2024-02-03

Недомастер

Роман Свитан

Многопоточность помогает

Профиль

Метки

Посетители