169 похожих чатов

Добрый вечер коллеги, пришла в голову идея заняться оптимизацией своих

старых проектов, и столкнулся с очень странным парадоксом. Мой любимый compiler explorer убеждает меня, что использование SIMD (см. пример 1) в 6 раз ускоряет процесс и вообще все быстро и скоро, однако запуская все это дело в профайлере оказывается, что в реале оно медленнее аж в 2 раза.

Версия с SIMD (страничка с compiler explorer https://godbolt.org/z/93v49MWWx)
section .data
mask: db 00h, 05h, 0Ah, 0Fh, 04h, 09h, 0Eh, 03h, 08h, 0Dh, 02h, 07h, 0Ch, 01h, 06h, 0Bh

section .text
;rcx -> address of block
_ShiftRows:
movdqu xmm1, [rcx]
mov rax, mask
movdqu xmm2, rax
pshufb xmm1, xmm2
movdqu [rcx], xmm1
ret

Версия без SIMD (https://godbolt.org/z/q1bKPbxWK)
_ShiftRows:
mov dl, [rcx + 1]
mov al, [rcx + 5]
mov [rcx + 1], al
mov al, [rcx + 9]
mov [rcx + 5], al
mov al, [rcx + 13]
mov [rcx + 9], al
mov [rcx + 13], dl

mov dl, [rcx + 2]
mov al, [rcx + 10]
mov [rcx + 10], dl
mov [rcx + 2], al

mov dl, [rcx + 6]
mov al, [rcx + 14]
mov [rcx + 6], al
mov [rcx + 14], dl

mov dl, [rcx + 3]
mov al, [rcx + 15]
mov [rcx + 3], al
mov al, [rcx + 11]
mov [rcx + 15], al
mov al, [rcx + 7]
mov [rcx + 11], al
mov [rcx + 7], dl
ret
Вопрос собственно, почему так происходит, несмотря на миллион обращений к стаку, второй пример всеравно быстрее оказывается?

10 ответов

5 просмотров

Чего... Второе никак не может исполниться быстрее.

А как ты мерял время?

Dog_with_a_Tail- Автор вопроса

К тому же, у тебя такты расписаны на каждую инструкцию в [2], и в первом варианте - 79, во втором всего 15. Не знаю, куда ты смотришь.

попробуй выровнять данные. 16 байт там вроде, точнее надо гуглить

Dog_with_a_Tail- Автор вопроса
Aiwan \ (•◡•) / _bot
попробуй выровнять данные. 16 байт там вроде, точн...

Да не поможет, там же всё по тактам расписано, и пропускную способность добавили в [3]. SIMD по тактам намного быстрее исполнится, чем тот код без SIMD. И даже если пропускную способность учитывать - не поможет. К тому же, там работа с 16-ти битными регистрами, что на некоторых процессорах даёт большую задержку (читал у Агнера Фога давно). Тут без вариантов.

Dog_with_a_Tail
Не очень понял, что имеешь в виду

многие инструкции sse требуют выровненые данные по параграфу (16 байт). инструкции которые не требуеют этого выравнивания работают со штрафом по времени или не работают вообще (надо уточнять). примерно так я это понимаю

Dog_with_a_Tail- Автор вопроса
Aiwan \ (•◡•) / _bot
многие инструкции sse требуют выровненые данные по...

Я так понял нужно movdqa вместо movdqu, но это ничего не меняет

Dog_with_a_Tail
Я так понял нужно movdqa вместо movdqu, но это нич...

movdqa быстрее чем movdqu на сотые доли секунд за миллионы операций, т.е. быстрее на где то 0,000002~0,000005%. В movdqu словно на архитектурном уровне встроили обработчик исключений невыровненности данных, с минимальным пенальти для случая выравненных данных, т.е. там где movdqa сгенерирует исключение невыровненных данных, там в случае movdqu микрокод процессора сам обработает подобное исключение. Т.е. movdqu дольше чем movdqa ровно на регистрацию обработчика исключений в микрокоде, и очистку регистрации - это пара инструкций микрокода против сотен инструкций микрокода зашитых в симд инструкциях.

Похожие вопросы

Обсуждают сегодня

Мужики и девушки, привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных...
Kraszx
14
Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
Я вот подумал. SSE выполняет операции максимум с 64-битной точностью. А FPU - всегда с 80-битной. Разве не должно быть FPU точнее тогда?
The Bird of Hermes
13
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
как быть с принтером? такой подход прокатит?
zamtmn
12
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Я не понимаю, это троллинг или что? Швабрика поддерживают, который буквально пишет на ассемблере взаимодействия с винапи. Я это ещё написал загрузчик и хоть что-то изучаю в о...
Shadow Akira
6
А вот это что за конструкция? Вернее, она тут нафига?
Serjone
10
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
Карта сайта