169 похожих чатов

Xor eax, eax @@: movups xmm0, xword[buf+eax] pxor xmm0, xword[xmm01] ; db 16

dup(0x1)
movups xword[buf+eax], xmm0
add eax, 16
cmp eax, sizeof.buf
jb @b

= 28525, 30768, 30269

Вариант с xor byte[buf+ecx], 0x1
= 1300, 930, 831

Странно... Может у меня у одного так?

18 ответов

17 просмотров
Entusiast- Автор вопроса

Всё. Понял)) Сунули туда SIMD фиг пойми вообще зачем... Всё верно - это одна работа с памятью, вот и потери в тактах. "Единственное, где может пригодится AVX инструкции - маппинг bad block'ов"

но код очень грубый, легко выходит за границу массива

Entusiast- Автор вопроса
disba1ancer
так он с памятью быстрее работает

Нет, медленнее. Или там промах в кэше был, или этот SIMD не годится на такое (С кэшем всё в порядке)

Entusiast- Автор вопроса
disba1ancer
так он с памятью быстрее работает

Всё, я разобрался. 1. Потеря в тактах не на 30 000, я не сбросил конвейер (использовал старый алгоритм, и сам забыл), а на 100-200 нс. 2. Код можно было оптимизировать так: movups xmm1, xword[xmm01] (Дальше цикл) pxor xmm0, xmm1 И при таком условии уже идёт обгон на 150 нс., в отличии от алгоритма с xor byte[buf+ecx] Так что MSVC был близок к победе, но не доковылял.

Entusiast
Всё, я разобрался. 1. Потеря в тактах не на 30 000...

Если ты от gcc хочешь получить sse юзай -O3

Entusiast- Автор вопроса
Entusiast
screenshot Спасибо, заюзал

Это на O3 вчера было

Entusiast
Это на O3 вчера было

Ты что-то делал не так

Entusiast- Автор вопроса
disba1ancer
Ты что-то делал не так

Конечно, я виноват!!

Entusiast
screenshot Спасибо, заюзал

Тут должен быть sse, хотя если у тебя -m32

Entusiast- Автор вопроса
disba1ancer
Тут должен быть sse, хотя если у тебя -m32

С m32 SSE тоже выдавало, и нет там не должно быть SSE, и да этот код медленный, потому что GCC любит работать со стэком, когда не надо, и любит возвращать значение в любых условиях обратно в память, даже когда его не просят. Впрочем, как и другие компиляторы

Entusiast- Автор вопроса
disba1ancer
Где-то что-то явно не так

Да пожалуйста! Могу тебе скинуть всё, сам скомпилируешь

Entusiast
Да пожалуйста! Могу тебе скинуть всё, сам скомпили...

Ты в курсе что код подредактирую для получения лучших результатов?

Entusiast
Давай

Но вообще мне лень этим заниматься, но хочешь скинь, только не в личку

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта