типа : обсчет хэшей, перемножение матриц, сложение массивов данных. И работает это все медленно. Какими средствами я могу отгрузить эти вычисления на гпу при этом не переписывая много логики в приложении?
Это не логика, с логикой у гпу плохо
Тебе может достаточно просто на процессоре через потоки распараллелить?
Для начала стоит не только попрофилировать, но и проверить О-сложность. Например, a = ABx и b = ABy может быть выгоднее два раза посчитать справа налево за O(n^2)
Тссс, дай человеку понаступать на грабли cuda с пересылкой данных, если он не станет переписывать всю вычислительную часть :)
CUDA Самый простой и действенный вариант
Да никакими.
Обсуждают сегодня