постам в социальной сети автоматически на основе комментариев. Т.е. есть к примеру 2 поста, на две разные темы. Есть модель, которой уже можно давать текст комментария, и она определит хорошо пользователь относиться или плохо. Вопрос собственно в том, как правильно давать данные для прогнозирования? Например у одного поста 1000 комментариев, а у другого поста 500 комментариев, чтобы понять какой из этих постов все таки более привлекательный нужно сократить у поста с 1000 комментов до 500 комментов, или же все же оставить как есть, и просто смотреть процентное соотношение между положительными и отрицательными?
Скорее всего «правильного» подхода нет. Может быть считать статистики от ответов классификатора? Например среднее и дисперсию.
гугли по запросу "несбалансированная выборка"
Обсуждают сегодня