что у меня в передаваемом датасете будут поля с типом "период" (дата | время | дата и время), т.е. я хочу получить ответ от модели - у меня там "период" или нет, всё.
Что я подготовил: генератор, который создал мне 84к строк с "периодом", я использую 28 паттернов генерации (%d.%m.%Y ; %d.%b.%Y ; unix-time ; %H:%M:%S и так далее) и использую 2 языка для именования месяцев, итого на 1 "период" у меня 56 представлений
Далее я добавил 84к строк, в которых у меня не "период"
Разделяю эти данные я только 1 параметром - type = 1 или 0
Пример данных на фото, скрипт там же.
Вопрос: Мб я не в ту сторону копаю? У меня модель даёт оценку в ~0.65 всего :( Пошлите меня куда ни будь ...
попробовать подать фичи как текстовые? это часто работает даже на неожиданных данных
Фичи - это параметры? Я пробовал добавить 6 параметров (6-ой это длина строки), через regexp паттерны (фото) - результат такой же, ~65%
у катбуста есть возможность принимать текст как текст. Вот вы указываете cat_features, точно так же там есть text_features(не уверен в названии), поэкспериментируйте с ними. Просто строку всю туда подайте, к примеру
Ок, попробую, спасибо
Если вы знаете о каких датах может идти речь на тесте/проде модели, то можно нагенерировать все форматы по этим данным. Например, взять все дни 2022 г и по ним с генерировать возможные комбинации дат. Это конечно лик, но в вашем случае может помочь.
Я поэтому и создал 28 паттернов представления дат, пробовал создать за 3 года подряд, результат был тот же с cat_features
Обсуждают сегодня