менее вычислительно эффективный относительно SGD?
Нет. Батчевый во всём более эффективный.
А почему батчевый вычисляется быстрее?
Например, потому что его можно посчитать, используя векторизацию.
Это разложение матрицы на вектор столбец и вектор строку?
Нет. Это когда однотипные операции с числами вычисляются одновременно, используя SIMD инструкции или вовсе графику
Параллелизация получается.
Ну, параллелизация это в оптимальном случае, но даже в менее оптимальном всё равно может выйти эффективнее.
Обсуждают сегодня