"одновременно" работающих потоков для каждой конкретной машины?
std::thread::hardware_concurrency
по количеству логических ядер. Больше не дает прироста по факту. Есть такая концепция как worker threads. Суть в том чтобы некоторые задачи, время выполнения которых велико, отдаются в работу фоновым потокам. Такая модель работы потоков называется concurrency. Главный поток приложения при этом ест очень мало и в расчетах не участвует. Второй вариант - parallelism - остановить главный поток, запустить кучку рабочих, скормить им данные и по завершению их всех возобновить работу главного потока. Если нужно сделать быстрые расчеты и результатом пользоваться дальше - нужен параллелизм. Иначе лучше подойдет канкарренси. Почему количество ограничего логическими потоками процессора: потому что все что больше будет требовать лишнее время на смену контекстов и возрастет количество локов всякоразных мутексов, что тоже время.
Нет, вопрос неглупый (в отличие от большинства прозвучавших ответов)) Параллелят не машину, а задачу. "Машина" (вычислительный узел, кластер, grid, и тд) - это средство для её решения. Потоки - это абстракция уровня ОС. Сами по себе они никакого "выигрыша" или "проигрыша" не дают. Это тоже всего лишь средство для организации параллельных вычислений. То, насколько высоким будет ускорение счёта для КОНКРЕТНОГО алгоритма на системе с N вычислительными устройствами (пусть ядрами) по сравнению с последовательным выполнением алгоритма, завист от 1) самого алгоритма, 2) количества устройств. И совершенно правильно вам дали здесь ссылку на закон Амдала. Оценить потенциал для распараллеливания алгоритма можно, например, изобразив его в ярусно-параллельной форме. Но даже если вы очень молодец и написали одноярусный алгоритм (все ветви независимы), то быстрее, чем в N раз, он работать не может по определению. Потоки здесь совршенно не при чём
Какой-нибудь университетский учебник по параллельным вычислениям полистайте. Самые первые главы. Можно дедушку Таненбаума
Обсуждают сегодня