в одной набор сто процентов мошеннических транзакций, во второй сто процентно не мошеннеческих. Как собрать из этого нормальный дата сет, чтобы обучить модель?
Если просто объединить и пометить каждую транзакцию моешенник и не мошенник, то ладно, не страшно, но как их правильно перемешать, чтобы модель не тупо запомнила все мошеннические транзакции
Это стандартная проблема переобучения. Чтобы избежать этого делается сплит выборки на обучающую и тестовую, а дальше корректируются параметры.
А у вас на реальных данных тоже 50/50 мошеннических?
Рандомом Потом сделать - кросс-валидацию. Или можно ручками: сделать несколько рандомных сетов и прогнать их по одинаковой процедуре трейн/тест деления данных обучения - посмотреть разброс точностей предсказания.
Обсуждают сегодня