регрессия. Почему в качестве функции активации используется именно сигмоида? Почему вероятность целевой переменной находится именно в такой зависимости от параметров?
Я понимаю, что сигмоида - обратная функция от logit-преобразования. Но почему в logit мы берём именно логарифм от отношения вероятностей? Или это вообще не принципиально, и можно взять любую другуюю функцию, которая отмасштабирует вероятности иначе и тогда вместо сигмоиды будем брать обратную функцию от этой?
Можно рассматривать логистическую регрессию как регрессию скрытого параметра z который если >0 то y=1 а иначе 0. Тогда выбор функции y=f(z) это выбор распределения z вроде как
Вот да, об этом и спрашивал. Спасибо!
Как выше написали, ваша догадка верна: вместо логистической функции вполне можно использовать какую-нибудь другую функцию для активации, и будем получать классификаторы, обладающие разными свойствами. И все они в каком-то смысле будут валидны. Например, SVM использует кусочно-линейную функцию. Тем не менее, у логистической активационной функции есть ряд привлекательных особенностей: 1. Устойчивость к дисбалансу классов. Интуитивно, нам хотелось бы, чтобы при изменении отношения вероятностей на один и тот же процент, к предсказанию прибавлялась или вычиталась одна и та же величина, вне зависимости от того, какое именно отношение вероятностей. Логарифм отношения вероятностей даёт нам ровно это свойство. Почему это круто? Например, потому что если мы изменим баланс классов в обучающей выборки, то в модели изменится только intercept, а все коэффициенты при признаках останутся прежними. Поэтому о дисбалансе классов с логистической регрессией можно не слишком париться. 2. Если признаки в обоих классах распределены нормально с одинаковой дисперсией, то линейный дискриминатор Фишера (популярный алгоритм классификации лет 100 назад), является частным случаем логистической регрессии. А если дисперсия разная, то это будет тоже логрег, но с квадратичными признаками. Поэтому логистическую регрессию научное сообщество в своё время с удовольствием приняло как обобщение дискриминантного анализа. 3. Даже если мы не знаем совместного распределения признаков, то логистическую регрессию можно вывести из принципа максимума энтропии, популярного в байесовских кругах. Есть небольшая статья, где этот вывод расписан.
Огромное спасибо за развёрнутый ответ! Теперь вообще никаких вопросов) Ну, точнее, по этой теме. А прикреплённые материалы ещё изучу, спасибо за ссылки
Обсуждают сегодня