операции относятся к памяти а не к IO
условно куда там передавать cx.waker тогда?
Для этого для начала понадобится процессор, который предоставляет асинхронные инструкции доступа к памяти.
А тут никакие префетчи не проканают? ЕМНИП эльбрусовский array prefetch buffer как раз асинхронно работает.
Недостаточно чтобы процессор сам по себе асинхронно работал -- нужны асинхронные инструкции, доступные программе.
Ну конкретно у APB есть вообще асинхронная программа, которую формирует компилятор... Так что вероятно под указанные критерии подходит.
А нельзя это реализовать через VM? Да, VM будет работать синхронно, но операции как бы будут асинхронными. правда я слабо себе это представляю
А ты на транзакционную память смотрел?
Понятно, что можно, просто смысла в этом нет. 🤷♀
"А это ИДЕЯ"
Я припоминаю (но это не точно) что процессор уже при чтении из памяти ведёт себя асинхронно, в том плане что - запустив команду чтения, не ждёт её окончания а выполняет что можно дальше до тех пор пока не понадобятся результат от команды чтения
Да, это и называется "суперскалярная архитектура". Вопрос в том, что программа этой асинхронности наблюдать, а значит, и использовать, не может.
Ну почему не может? Конечно может. Пусть у вас на C++ есть очень очень большой vector<int> m (не влезает в кэш) и некое большое n. Вам надо посчитать две суммы: a и b вот так: for (int i = 0; i < n; i++) a += m[f(i)]; for (int i = 0; i < n; i++) b += m[g(i)]; Где f и g это быстрые "псевдослучайные" функции, которые говорят какой элемент вектора m надо брать. Померьте скорость этого кода, а потом его сравните со скоростью вот такого кода, который считает тоже самое: for (int i = 0; i < n; i++) { int ia = f(i); int ib = g(i); a += m[ia]; b += m[ib]; } (Здесь вы "вручную" переписали код так, чтобы оба цикла выполнялись "параллельно")
после loop fusion код не всегда будет работать быстрее и не на всех платформах. Все будет зависеть от ширины кеш линий, размера элементов в массивах, заинлайнятся ли f() и g() и сколько кода они добавят, в общем много факторов
А почему кстати циклы не зафьюзились? Или сейчас llvm/gcc не умеют в loop fusion?
Обсуждают сегодня