vak | MIPS I6500

Новая разработка нашей конторы, ядро MIPS I6500, будет применяться в самодвижущихся тележках, в частности Тесла.

Мультикластерная организация позволяет разместить на одном кристалле до 64-х кластеров по 6 ядер, каждое из которых имеет по 4 потока. В сумме на таком чипе можно будет запустить 64*6*4 = 1536 линуксов. :)

Из прочих существенных ништяков там есть аппаратная виртуализация и SIMD.

За последние три года мне тоже довелось приложить руку к этому проекту - в области технологии верификации и разработки образцовой референтной функциональной модели процессора. А Юра

panchul, так даже успел вписать туда пару сотен строчек RTL кода.

Flat | Top-Level Comments Only

From:

vit-r.livejournal.com

На чём это можно программировать так чтобы работало как система, а не как полторы тысячи линуксов?

From:

vak

На Си. :)
Для архитектуры MIPS наработана куча всевозможных RTOS.
Память когерентная, в чём собственно и фишка.

В этом ядре каждая нитка архитектурно выглядит как изолированный процессор MIPS с автономным MMU. Внешние прерывания можно настраивать и маршрутизировать через отдельный блок GIC. В том числе и для виртуальных машин. MMU тоже виртуализируется.

From:

rdia.livejournal.com

Т.е. это такая супервидеокарта получается?

From:

vak

В самом процессорном ядре I6500 особой ориентации на видео нет. Это уже определяется внешними блоками. Mobileye будет добавлять кластеры из своих специализированных многоядерных процессоров. Вот там, вероятно, видео идёт на полную катушку.

From:

pappadeux.livejournal.com

нет, вопрос, кяп, был в том, похоже ли это на современные видекарты со, скажем, 2048 threads, типа Nvidia 980

From:

rdia.livejournal.com

> В этом ядре каждая нитка архитектурно выглядит как изолированный процессор MIPS с автономным MMU. Внешние прерывания можно настраивать и маршрутизировать через отдельный блок GIC. В том числе и для виртуальных машин. MMU тоже виртуализируется.

Для такой машины Linux неадекватен, а просится что-то вроде VM/370.

Кстати, вот вы там всякие Эрланги на этой штуке пускать не думали?

From:

vak

//Для такой машины Linux неадекватен, а просится что-то вроде VM/370.//

Нынче это называется модным словом "гипервизор".
https://globenewswire.com/news-release/2016/06/09/847411/0/en/Small-footprint-open-source-hypervisor-makes-highly-efficient-use-of-hardware-virtualization-technology-in-Imagination-s-MIPS-CPUs.html

Про Эрланг конкретно на этом процессоре я пока не слышал. Знаю, что на простом PIC32 эго запускали.
https://imgtec.com/blog/erlang-now-on-mips-pic32-mcus-microchip/

From:

rdia.livejournal.com

> Нынче это называется модным словом "гипервизор".

Над ним всё равно тяжёлый линукс бегает, а не легкое CMS.

From:

vak

Гипервизор предоставляет виртуальную MIPS-машину, а что над ним запустить - дело юзера. Хоть Линукс, хоть BSD, хоть RTOS.

From:

b0p0h0k.livejournal.com

Это "нынче модное" слово мы на Эльбрусе-Б использовали 25 лет назад (ДВС).

From:

vak

Обычное дело: как показывает история, от зарождения идеи до её массового применения проходит порядка 25 лет. :)

From:

vit-r.livejournal.com

Это полторы тысячи линуксов. Интересно, есть ли системы, работающие как параллельные на высоком уровне.

From:

vak

Ну, можно запустить один Линукс с полутора тысячами процессоров. Впрочем не знаю, масштабируется ли ядро Линукса до такого количества.

From:

pappadeux.livejournal.com

Cray Linux Environment

сотни тысяч процессоров

From:

vit-r.livejournal.com

По-моему, это извращение.

From:

pappadeux.livejournal.com

в смысле?

а что им (Cray, ...) делать?

проблема не только (и не столько) в ОС, но нужен же и весь userspace

From:

ufm.livejournal.com

А межпроцессорное взаимодействие какое? Что-то типа send/receive msg есть, или как обычно, вручную?

From:

vak

(1) Общая когерентная физическая память, включая DMA от внешних устройств
(2) Межпроцессорная синхронизация через инструкции LL/SC (https://www.quora.com/In-MIPS-what-are-load-linked-and-store-conditional-instructions)
(3) Межпроцессорные прерывания
(4) Средства для сброса кэшей и TLB на удалённых процессорах

From:

vak

Да, будет еще inter-thread gating storage (ITC).

From:

rbs-vader.livejournal.com

Это очень хорошая, годная разработка.

From:

pappadeux.livejournal.com

> на одном кристалле

и каков будет размер этого кристалла?

From:

vak

Это от вас зависит, наших заказчиков. :)
Сделает кто-нибудь - узнаем.

From:

pappadeux.livejournal.com

в смысле, у вас прикидок/разводки под, скажем, 14нм процесс нет?

From:

vak

Прикидка имеет смысл только при определённой зафиксированной конфигурации. Слишком много переменных.

From:

tacit murky (from livejournal.com)

Эхем. Итак, мы имеем возможность запихать на кристалл 384 хомячка. А сами они что могут? Я верно полагаю, что векторы 128-битные? И что основные ФУ тоже? И что вещественных ФУ 2 — сумматор и умножитель? (Потому что про аппаратный FMADD на штатных МИПСах я не слышал, хотя команда такая у вас есть.) Насколько они конвейерны при вычислении векторов с HP, SP и DP? В этом главный цимес — сколько флопов за такт в пике может дать ядро на разных точностях. Вообще, было бы неплохо увидеть все времянки (темпы и задержки — TP & latencies) хотя бы для вычислительных команд.

From:

vak

Векторы 128 битные, состоят из 2-х double, 4-х float, восьми short int или 16-ти байтовых целых.

FPU 64-битный, выполняет две инструкции за такт: одну "длинную" и одну "короткую". Длинная это умножение или сложение, коротная - логическая, целочисленное деление (для SIMD) или запись в память.

Целочисленные и FP инструкции multiply-add имеются давно, начиная с архитектуры MIPS R2 (2002 год). Это команды типа MADD, MADD.D, MADD.S и т.п. Даже в микроконтроллере PIC32 есть целочисленный MADD. Инструукции типа FMADD это _fused_ multiply-add, имеется только в расширении SIMD.

Все инструкции конвейеризованы и могут выполняться в установившемся режиме за 1 такт. Зависит от смеси инструкций, естественно. Все времянки, темпы и задержки можно спросить в нашем маркетинге.

From:

tacit murky (from livejournal.com)

•1) Т.е. половинная (16-битная) точность для плавучки (HP) не реализована? А где же обещанная поддержка IEEE-754 для них?
•2) Я нисколько не сомневался в наличии команд слитого умножения-сложения. Сомнения были в том, как они исполняются — на двух раздельных ФУ (умножитель и сумматор) без экономии тактов (по сравнению с двумя отдельными командами) или на спец-ФУ. Под FMADD я имел ввиду Float MADD.
•3) Выходит, что ядро может исполнять только одну вещественную команду за такт. Но если это FMADD, то она даст 2 операции/такт при работе с DP (64 бита) и 4 для SP (32 бита). Верно? Однако весьма странно иметь полноконвейерное умножение для DP у столь простого ядра. Я пока не видел ни одного другого ядра (из мелких-экономных) с матрицей умножителя хотя бы в 53*53 бита (не считая ядер для Intel MIC, которые меньше чем на 100 Вт не выпускаются).
•4) Как достучаться до вашего маркетинга? Я уже написал Юрию, но он пока молчит. Он мне года 1,5 назад показывал документацию для Warrior P5600 до её выхода — я сходу нашёл там несколько ошибок.

Flat | Top-Level Comments Only

Профиль

Посетители

Пятнадцать байтов на стек от конца

MIPS I6500

MIPS I6500

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Архитектурное…

Re: Архитектурное…

Re: Архитектурное…

Профиль

Метки

Посетители