https://stats.stackexchange.com/questions/347254/deriving-binary-cross-entropy-loss-function
Для данной формулы. Это идёт от kl divergence и в частности минимизации перекрёстной энтропии, что для бинарной классификации будет как раз формула на картинке. Ну и если в общем почему лог то как Yevhen написал + переход к сложению вместо умножения.
Обсуждают сегодня