использовать для обучения и почему?
1) датасет с 10к примерами, где классы распределены в точности 50% на 50%
2) датасет с 20к примерами, где классы распределены по 25% и 75% соответственно
Логичное замечание! Суть такова, что в неделю компания парсит 100к статей. Из них отбирается в лучшем случае 300 лучших. То есть в исходных данных изначально много мусорных статей не по теме. То есть, как я понимаю, нужно стараться в датасете соотношение приблизительно равное тому, какое есть в генеральной выборке/продакшине?
Вопрос из похожей серии, только у меня у одного класса 60 примеров, а у самого большого 13 тысяч. Выручит ли простое дублирование данных или лучше использовать другой подход?
Да как первый подход - вполне норм, у меня вообще по некоторым классам по 5-6 примеров было, я их все дублировал до 50 и до 500. Единственное стоит убедиться, что в тренировочной выборке распределение классов остается более или менее похожим на исходный датасет. Но это через стратифай легко достигается
Спасибо, буду пробовать )
Обсуждают сегодня