я в основном с Computer Vision работал, решил немного рпсширить зону комфорта
Понятно. Тогда объясняю. В табличке - предсказанные моделью вероятности классов. Каждая строка - один объект, каждый столбец - один класс, сумма по строке всегда равна 1, т.к. это вероятность, что объект принадлежит хоть какому-нибудь классу. Когда ты делаешь max(axis=1), ты получешь для каждого объекта вероятность самого вероятного для него класса, но какой именно это класс - из результата не видно. Когда же ты делаешь idxmax(axis=1), ты получаешь для каждого объекта номер столбца, в котором для этого объекта значение максимально, т.е. номер самого вероятного класса.
А вообще, если хочется тренировать модельки типа логистической регрессии, я рекомендую не statsmodels, а sklearn (если только тебе не надо статистический инференс над этими модельками делать) - там и интерфейс попроще, и документация очевиднее, и примеров в интернетах больше.
знаю, пробовал, мне просто понравился R-style. Формулу и датафрейм скормил и всё.
а так вообще с keras и tf играюсь
Если уж начистоту, то это не вероятности.
Ну это оценки, которыми логистическая регрессия пытается приблизить условную вероятность класса при условии наблюдаемых фич. Обычно они получаются хорошо откалиброванные, и их норм использовать как вероятности. Разве нет?
Ну ладно)
Обсуждают сегодня