массива в многопотоке, при этом массив достаточно большой (40мб), потоков я взял 4.
Вначале я обрабатывал каждый 4 элемент для каждого потока, потом я изменил обработку так, что первые 10мб обрабатывает первый поток, следующие 10 второй и тд. От сей манипуляции я ожидал некого прироста производительности (по причине меньшего объёма кешируемых данных), которого не обнаружил, вопрос, как так вышло? Неужели параллельная загрузка данных в кеши настолько хороша? И каким образом осуществляется синхронизация страниц кеша между ядрами? Т.е. если я меняю в одном потоке 1 байт данных для одной строки, а в другом потоке следующий байт данных, разве не должен быть выставлен атрибут "модифицировано" и не должна произойти выгрузка строки в память?
P.S. потоки вин32, камень r9 5900hx
Кэш третьего уровня у всех ядер общий, поэтому первый вариант тоже работает быстро. Первое обращение заполняет cache line, а следующие ядра уже из кэша читают
Обсуждают сегодня