могу нагуглить. Надо по 4 штуки 32-битных интов перемножить и получить 4 штуки 64-битных интов. Она видимо так не делает.
https://www.felixcloutier.com/x86/PMULDQ.html
Не понимаю по сколько она берет и происходит ли выравнивание до ширины в 64 бита для целых
Они еще выровнены должны быть
https://gcc.gnu.org/onlinedocs/gcc/x86-Options.html
Кстати, руками делать не обязательно. Компилятор должен сам векторизовать твой цикл, если ты указал архитектуру с поддержкой нужного ISA
Обсуждают сегодня