В общем. Справился с теми проблемами теперь вычисление dot product

выглядит как то так
sse2:
inline __m128 _dot_product_sse2(const __m128& _lhs, const __m128& _rhs)
{
__m128 mul, shuffle, sum;
mul = _mm_mul_ps(_lhs, _rhs);

shuffle = _mm_shuffle_ps(mul, mul, _MM_SHUFFLE(2, 3, 0, 1));
sum = _mm_add_ps(mul, shuffle);
shuffle = _mm_shuffle_ps(sum, sum, _MM_SHUFFLE(0, 1, 2, 3));
return _mm_add_ss(sum, shuffle);
}
sse3:
inline __m128 _dot_product_sse3(const __m128& _lhs, const __m128& _rhs)
{
__m128 mul, shuffle, sum;
mul = _mm_mul_ps(_lhs, _rhs);

shuffle = _mm_movehdup_ps(mul);
sum = _mm_add_ps(mul, shuffle);
shuffle = _mm_movehl_ps(shuffle, sum);

return _mm_add_ss(sum, shuffle);
}
sse4.1:
inline __m128 _dot_product_sse4(const __m128& _lhs, const __m128& _rhs)
{
constexpr int mask = _Size == 2ull ? 0x31 : (_Size == 3ull ? 0x71 : 0xF1);
return _mm_dp_ps(_lhs, _rhs, mask);
}

Получилось, что sse3 медленнее чем sse2 в среднем на 0.15ns, а sse4.1 медленнее чем sse2 в 2.5 раза
Замеры на этот раз делал с google benchmark

25 ответов

21 просмотр

нативный dot на моей памяти никогда быстрым не был, как и horizontal add

4.1 допустим бранчи имеет.

adamfull- Автор вопроса
adamfull
Бранчи?

Тернарный оператор.

adamfull- Автор вопроса
adamfull
Тип из за маски?

Да. Весь пайплайн к чертям.

И какой результат бенча? А компилятор сам не векторизует если добавить -О3 —ffast-math

adamfull- Автор вопроса
Pavel Munrocket
И какой результат бенча? А компилятор сам не векто...

Я собираю на msvc 2019 со стандартными настройками. Оптимизация -O2

adamfull
Я собираю на msvc 2019 со стандартными настройками...

В итоге то удалось лучше написать чем a1*b1+a2*b2+a3*b3?

У тебя неверные замеры. И фундаментально и даже на уровне базовых метрик(типа использование наносекунд), да и гугл-бенчмарк днище как и практически все подобные пускалки. _mm_movehdup_ps и _mm_movehl_ps - это не инструкции, а интел-баланда зависящая от реализации. Особенно если ты используешь какой-нибудь msvc в котором реализация чего угодно позорище. Разница в каких-то 0.15ns - это явно мусор. Это более любой существующей частоты. Даже если ты замерял трупут, то там не может быть такого шага.

Roman R.
У тебя неверные замеры. И фундаментально и даже на...

по поводу dpps - по спекам там всё нормально и сливать оно не должно. Проблема в реализации и методиках измерения. Хотя подобная проблема есть практически везде. Чем дальше задержки на иструкциях от единицы - тем больше нужно умения/понимания для их использования

haddps (SSE3) пробовал ли? Просто интересно посмотреть по перфе

adamfull- Автор вопроса
Roman R.
У тебя неверные замеры. И фундаментально и даже на...

0.15ns это разница с частичной constexpr реализацией если что

koren
Не инструкции? movshdup movhlps Первый SSE)

Значит инструкции. Смотрел на реализацию. А судя по тому что я их в глаза не видел и тому, что реализация в них не форвардит - они никому ненужны. Хотя да, судя по ттх это очередной мусор уровня микрода от интела.

adamfull
0.15ns это разница с частичной constexpr реализаци...

Не в этом дело. Слишком сомнительно выглядит разница. Летенси не может быть не кратна тактам, если ты её замеряешь. Если ты замеряешь трупут - он где-то в районе кратности ширины фронта.

adamfull
0.15ns это разница с частичной constexpr реализаци...

по поводу того почему у тебя сливает dpps. У этой инструкции очень большие задержки, а значит тебе нужен высокий уровень параллелизма в твоём коде. Которого у тебя нет, очевидно. Да и мало у кого есть. Это одна из причин почему никогда ненужно использовать любые sse. Там мало регистров и убогие двуоперандные инструкции, которые делают ещё меньше регистров.

adamfull- Автор вопроса

Ну по пикселям я итерируюсь с помощью std::for_each(std::execution::par... может быть это тоже влияет

adamfull
Ну по пикселям я итерируюсь с помощью std::for_eac...

Я думаю, Роман всё-таки про instruction level parallelism

adamfull
Ну по пикселям я итерируюсь с помощью std::for_eac...

Всё влияет. Если ты обмазываешься подобным лучше последуй совету людей и используй готовую либу. Тебе никак не поможет это разобраться в теме. Ты будешь ловить сайд-эффекты и считать их за свойства реальности и только запутаешь себе голову

Roman R.
Всё влияет. Если ты обмазываешься подобным лучше п...

Не согласен с озвученным советом. Я б предложил обложиться vtune'ом и научиться измерять нормально все озвученные спецэффекты. Инструментарий есть.

Kirill Dmitrenko
Не согласен с озвученным советом. Я б предложил об...

Не, обкладывание втюном не поможет. Да и эти эффекты просто так не измеряются и сама фантазия о том, что что-то можно измерить фатальна. Интел просто кормиться с этого колхоза, впаривая маздайщикам гуйню. Как результат нормальный код могут писать в интеле, а вот все герои с втюном сидят на блобах от интела

Похожие вопросы

Обсуждают сегодня

у меня такой вопрос про память в x86 возник, может кто пояснить?.. у процессора есть (как минимум) 3 типа адресов (названия "п1", "п2", "п3" --- мои, чтобы проще было дальше)...
Toideng
6
Какого хера? /Sources/App/Modules/User/Models/UserLinkApple.swift:21:20: warning: stored property '_id' of 'Sendable'-conforming class 'UserLinkApple' is mutable @ID(...
Alexander Sherbakov
14
Портфолио: Зовут меня Александр, мне 36 лет. Город Пушкино. Общий рабочий стаж: ~14 лет Уровень квалификации: Senior Full-stack developer Где прочесть мой код? https://github....
Magic
10
здравствуйте, братья, кто-нибудь знает, как работать с Swift.com или Swift.net?
Ozzy
6
Портфолио: Зовут меня Александр, мне 41 год. Город Киров. Общий рабочий стаж: ~14 лет Уровень квалификации: Senior Full-stack developer Где прочесть мой код? https://github.co...
Magic
11
Приветствую всех, возникла проблема, до этого писал бота в простом формате где при выполнении условий приходило через send_message информация, сейчас решил добавить хендлер на...
Andrew
4
У тебя в конфиге нигде нет deny all; или вообще любого deny?
Alexander Sherbakov
10
Всем привет после апдейта swift packages не билдится проект на heroku. Компайл тайм ерор: ServiceGroup.swift:513:38: error: extraneous argument label 'for:' in call походу за...
Egor Chernenko
1
Я вот тут задался риторическим вопросом. Уже как пару дней я пытаюсь присовокупить к Vapor jemalloc, мало того что топиков, как это вставлять в Vapor нет, так еще и хер поймеш...
Евгений Данилов
39
Ребят, привет. У кого-то есть опыт заказа мерча в сторе? Есть успешные кейсы? Чёт у меня турецкую карту не принимает
Vladimir F.
7
Карта сайта