dup(0x1)
movups xword[buf+eax], xmm0
add eax, 16
cmp eax, sizeof.buf
jb @b
= 28525, 30768, 30269
Вариант с xor byte[buf+ecx], 0x1
= 1300, 930, 831
Странно... Может у меня у одного так?
Всё. Понял)) Сунули туда SIMD фиг пойми вообще зачем... Всё верно - это одна работа с памятью, вот и потери в тактах. "Единственное, где может пригодится AVX инструкции - маппинг bad block'ов"
так он с памятью быстрее работает
но код очень грубый, легко выходит за границу массива
Нет, медленнее. Или там промах в кэше был, или этот SIMD не годится на такое (С кэшем всё в порядке)
Всё, я разобрался. 1. Потеря в тактах не на 30 000, я не сбросил конвейер (использовал старый алгоритм, и сам забыл), а на 100-200 нс. 2. Код можно было оптимизировать так: movups xmm1, xword[xmm01] (Дальше цикл) pxor xmm0, xmm1 И при таком условии уже идёт обгон на 150 нс., в отличии от алгоритма с xor byte[buf+ecx] Так что MSVC был близок к победе, но не доковылял.
Недавно обсуждали уже это с sse
Если ты от gcc хочешь получить sse юзай -O3
Это на O3 вчера было
Ты что-то делал не так
Конечно, я виноват!!
Тут должен быть sse, хотя если у тебя -m32
С m32 SSE тоже выдавало, и нет там не должно быть SSE, и да этот код медленный, потому что GCC любит работать со стэком, когда не надо, и любит возвращать значение в любых условиях обратно в память, даже когда его не просят. Впрочем, как и другие компиляторы
Где-то что-то явно не так
Да пожалуйста! Могу тебе скинуть всё, сам скомпилируешь
Ты в курсе что код подредактирую для получения лучших результатов?
Но вообще мне лень этим заниматься, но хочешь скинь, только не в личку
Обсуждают сегодня