регистра? Или только по 1 регистру за раз? И это как нибудь можно дополнительно распараллелить/ускорить?
Проц сам распараллелит операции над независимыми регистрами, если у него хватит портов исполнения
для этого есть гпу (хотя я бы даже на гпу так делать не стал)
с таким уровнем знаний вам IMHO не стоит лезть в AVX-512
Если память не изменяет то 512 бита. Что ты туда загрузишь - это твоей дело. т.е. тебе сначала нужно туда запихать данные, сделать операции, выгрузить, обратить внимание на выравнивание (это может быть важно).
GPU это сильно другое. Это массовый параллелизм, т.е. выполнение одного кода (желательно без условий) на 1000 ядер (или сколько там у тебя их будет) параллельно.
ну обычно такие задачи для массового параллелизма и есть :)
Где у него массовый? AVX, SSE и т.п. - это маленькая векторизация на вектора в 2-4-8-(небольшое количество) элементов. Т.е. теоретически то, что у тебя считалось T времени в иделальном варианте ты можешь ускорить в 2-4-8- раз.
ну а у него далеко не небольшое количество предполагается походу :) но тут сама задача вызывает вопросы
Тогда напомню, что гпу не всегда в наличии, а еще не забыть, что загрузка в гпу и выгрузка медленные. Для сравнения в большинстве счетных задач 1080 и 6 ядерный проц сравнимы. Различия значимые только на очень специфических задачах.
ТС даже не объяснил что ему нужно
Это как это ? Как может быть, что ГПУ не всегда в наличии ?
sweet summer child...
Запросто. Не у всех всякие 3090.
У Вас наблюдаются отклонения в логическом мышлении
Еще раз повторю вопрос: Как может быть, что ГПУ не всегда в наличии ? Прочитайте Внимательно.
Запросто. Море компьютеров без гпу. В телефонах оное лучше не юзать - разрядишь за 30 мин.
ну всякие там офисные решения
Назови из этого моря - хотя бы парочку.
это сильно зависит от того, нужны ли double
И портов этих не так чтобы очень много :)
по количеству конвееров?
Обсуждают сегодня