два: тренировочные train-neg.txt train-neg.txt test-pos.txt и test-neg.txt (ну и два еще тестовых test-pos.txt и test-neg.txt). Из них просто потом в код текст загружается.
Теперь, что если я хочу на 3 категории классифицировать?
Для справки скажу, что сейчас итоговая модель не может классифицировать текст, котором я вставлю и позитивное и негативное слово в текст, она ошибется, то есть определит только либо пос либо нег. То есть ошибка будет 50% по сути.
Вот вопрос как делается адекватное смешивание классов?
Ну тогда у такого текста должны быть оба лейбла
Обсуждают сегодня