(12к предложений, ≈2,5к - первый класс, ≈9,5 - второй), и андерсэмплил, и оверсемплил, но всего 60% точности, f1≈45%
данные очень разные, сокращения одних и тех же слов могут сильно разниться
подскажите пожалуйста, что лучше использовать для получения своих эмбедингов? (есть еще 4 миллиона неразмеченных предложений)
А если попробовать топ частых сокращений разворачивать в полные слова? Вроде должно стать лучше с контекстом
попробую тоже, а как лучше сопоставлять сокращениям их полную форму?
Обсуждают сегодня