В общем. Справился с теми проблемами теперь вычисление dot product

выглядит как то так
sse2:
inline __m128 _dot_product_sse2(const __m128& _lhs, const __m128& _rhs)
{
__m128 mul, shuffle, sum;
mul = _mm_mul_ps(_lhs, _rhs);

shuffle = _mm_shuffle_ps(mul, mul, _MM_SHUFFLE(2, 3, 0, 1));
sum = _mm_add_ps(mul, shuffle);
shuffle = _mm_shuffle_ps(sum, sum, _MM_SHUFFLE(0, 1, 2, 3));
return _mm_add_ss(sum, shuffle);
}
sse3:
inline __m128 _dot_product_sse3(const __m128& _lhs, const __m128& _rhs)
{
__m128 mul, shuffle, sum;
mul = _mm_mul_ps(_lhs, _rhs);

shuffle = _mm_movehdup_ps(mul);
sum = _mm_add_ps(mul, shuffle);
shuffle = _mm_movehl_ps(shuffle, sum);

return _mm_add_ss(sum, shuffle);
}
sse4.1:
inline __m128 _dot_product_sse4(const __m128& _lhs, const __m128& _rhs)
{
constexpr int mask = _Size == 2ull ? 0x31 : (_Size == 3ull ? 0x71 : 0xF1);
return _mm_dp_ps(_lhs, _rhs, mask);
}

Получилось, что sse3 медленнее чем sse2 в среднем на 0.15ns, а sse4.1 медленнее чем sse2 в 2.5 раза
Замеры на этот раз делал с google benchmark

25 ответов

87 просмотров

нативный dot на моей памяти никогда быстрым не был, как и horizontal add

4.1 допустим бранчи имеет.

adamfull- Автор вопроса
adamfull
Бранчи?

Тернарный оператор.

adamfull- Автор вопроса
adamfull
Тип из за маски?

Да. Весь пайплайн к чертям.

И какой результат бенча? А компилятор сам не векторизует если добавить -О3 —ffast-math

adamfull- Автор вопроса
Павел Munrocket
И какой результат бенча? А компилятор сам не векто...

Я собираю на msvc 2019 со стандартными настройками. Оптимизация -O2

adamfull
Я собираю на msvc 2019 со стандартными настройками...

В итоге то удалось лучше написать чем a1*b1+a2*b2+a3*b3?

У тебя неверные замеры. И фундаментально и даже на уровне базовых метрик(типа использование наносекунд), да и гугл-бенчмарк днище как и практически все подобные пускалки. _mm_movehdup_ps и _mm_movehl_ps - это не инструкции, а интел-баланда зависящая от реализации. Особенно если ты используешь какой-нибудь msvc в котором реализация чего угодно позорище. Разница в каких-то 0.15ns - это явно мусор. Это более любой существующей частоты. Даже если ты замерял трупут, то там не может быть такого шага.

Roman R.
У тебя неверные замеры. И фундаментально и даже на...

по поводу dpps - по спекам там всё нормально и сливать оно не должно. Проблема в реализации и методиках измерения. Хотя подобная проблема есть практически везде. Чем дальше задержки на иструкциях от единицы - тем больше нужно умения/понимания для их использования

haddps (SSE3) пробовал ли? Просто интересно посмотреть по перфе

adamfull- Автор вопроса
Roman R.
У тебя неверные замеры. И фундаментально и даже на...

0.15ns это разница с частичной constexpr реализацией если что

koren
Не инструкции? movshdup movhlps Первый SSE)

Значит инструкции. Смотрел на реализацию. А судя по тому что я их в глаза не видел и тому, что реализация в них не форвардит - они никому ненужны. Хотя да, судя по ттх это очередной мусор уровня микрода от интела.

adamfull
0.15ns это разница с частичной constexpr реализаци...

Не в этом дело. Слишком сомнительно выглядит разница. Летенси не может быть не кратна тактам, если ты её замеряешь. Если ты замеряешь трупут - он где-то в районе кратности ширины фронта.

adamfull
0.15ns это разница с частичной constexpr реализаци...

по поводу того почему у тебя сливает dpps. У этой инструкции очень большие задержки, а значит тебе нужен высокий уровень параллелизма в твоём коде. Которого у тебя нет, очевидно. Да и мало у кого есть. Это одна из причин почему никогда ненужно использовать любые sse. Там мало регистров и убогие двуоперандные инструкции, которые делают ещё меньше регистров.

adamfull- Автор вопроса

Ну по пикселям я итерируюсь с помощью std::for_each(std::execution::par... может быть это тоже влияет

adamfull
Ну по пикселям я итерируюсь с помощью std::for_eac...

Я думаю, Роман всё-таки про instruction level parallelism

adamfull
Ну по пикселям я итерируюсь с помощью std::for_eac...

Всё влияет. Если ты обмазываешься подобным лучше последуй совету людей и используй готовую либу. Тебе никак не поможет это разобраться в теме. Ты будешь ловить сайд-эффекты и считать их за свойства реальности и только запутаешь себе голову

Roman R.
Всё влияет. Если ты обмазываешься подобным лучше п...

Не согласен с озвученным советом. Я б предложил обложиться vtune'ом и научиться измерять нормально все озвученные спецэффекты. Инструментарий есть.

Kirill Dmitrenko
Не согласен с озвученным советом. Я б предложил об...

Не, обкладывание втюном не поможет. Да и эти эффекты просто так не измеряются и сама фантазия о том, что что-то можно измерить фатальна. Интел просто кормиться с этого колхоза, впаривая маздайщикам гуйню. Как результат нормальный код могут писать в интеле, а вот все герои с втюном сидят на блобах от интела

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта