я создать базу данных, в которой будет находиться средняя цена для такой модели такого года. Я обучу свою модель, включая в нее, в том числе, и такой фактор средней цены. Когда мне будут поступать реальные автомобили из реальной жизни, то я буду обращаться к своей базе данных, чтоб узнать среднюю цену, а остальные факторы будет указывать пользователь (пробег, объём, цвет и тд). Можно ли так делать? Или я заранее включаю в свою модель почти готовый, но чуть искаженный ответ (средняя цена) и это плохо?
Как мне кажется, такой средней ценой я просто заменяю кодирование модели автомобиля. Вместо того, чтоб использовать категориальный признак "Модель", в котором тысячи уникальных значений, я как бы даю алгоритмы различать модели по средней цене на неё. Что думаете?
Тебе в начале нужно проверить с какими признаками кореллирует цена. Вполне может получиться так, что на цену влияет год и состояние машины. А цвет - не влияет
Обсуждают сегодня