750 слов, текстов мало (750 сэмплов). Бинарная, соотношение целевого класса к прочему 1:2 (примерно треть "единичек").
- погонял логрег + тфидф, победили 2, 3 - граммы без чистки и нормализации текста, но F1 всего 0.72 (плохая точность при сносной полноте);
- попробовал USE и простые модели, метрика сильно просела.
Подскажите, какие бы вы дальнейшие эксперименты поставили?
Уйти в фичё инжиниринг? Попробовать другие эмбеддинги для текста? Очень хочется подтянуть F1.
Если очень хочется именно F1, то есть его гладкая аппроксимация, которую можно явно максимизировать в процессе обучения
Обсуждают сегодня