С оптимизацией по размеру количество команд в цикле увеличивается до 10. Из них два перехода. Интеловские инженеры, конечно, гении, не буду спорить. Во внутреннем представлении последний jmp можно вообще убрать, если для каждой команды хранить адрес следующей.
Легенда про четыре команды на такт возникла из того, что в Pentium 4 АЛУ работает по обоим фронтам синхросигнала. И таких АЛУ аж два. Реально померять что-то не представляется возможным, слишком всё замешано в кучу с трансляцией, VLIW, кэшами и т.п. Можно рассуждать только статистически. Из каких-то бенчмарков я слышал цифру про ~1 такт на команду, но отстаивать не берусь.
no subject
Легенда про четыре команды на такт возникла из того, что в Pentium 4 АЛУ работает по обоим фронтам синхросигнала. И таких АЛУ аж два. Реально померять что-то не представляется возможным, слишком всё замешано в кучу с трансляцией, VLIW, кэшами и т.п. Можно рассуждать только статистически. Из каких-то бенчмарков я слышал цифру про ~1 такт на команду, но отстаивать не берусь.