Приветствую! Цель: создать модель, которая будет в большей степени вероятности показывать,

что у меня в передаваемом датасете будут поля с типом "период" (дата | время | дата и время), т.е. я хочу получить ответ от модели - у меня там "период" или нет, всё.
Что я подготовил: генератор, который создал мне 84к строк с "периодом", я использую 28 паттернов генерации (%d.%m.%Y ; %d.%b.%Y ; unix-time ; %H:%M:%S и так далее) и использую 2 языка для именования месяцев, итого на 1 "период" у меня 56 представлений
Далее я добавил 84к строк, в которых у меня не "период"

Разделяю эти данные я только 1 параметром - type = 1 или 0
Пример данных на фото, скрипт там же.

Вопрос: Мб я не в ту сторону копаю? У меня модель даёт оценку в ~0.65 всего :( Пошлите меня куда ни будь ...

6 ответов

14 просмотров

попробовать подать фичи как текстовые? это часто работает даже на неожиданных данных

Stanislav-Chernov Автор вопроса
Vsevolod Kompantsev
попробовать подать фичи как текстовые? это часто р...

Фичи - это параметры? Я пробовал добавить 6 параметров (6-ой это длина строки), через regexp паттерны (фото) - результат такой же, ~65%

Stanislav Chernov
screenshot Фичи - это параметры? Я пробовал добавить 6 параме...

у катбуста есть возможность принимать текст как текст. Вот вы указываете cat_features, точно так же там есть text_features(не уверен в названии), поэкспериментируйте с ними. Просто строку всю туда подайте, к примеру

Если вы знаете о каких датах может идти речь на тесте/проде модели, то можно нагенерировать все форматы по этим данным. Например, взять все дни 2022 г и по ним с генерировать возможные комбинации дат. Это конечно лик, но в вашем случае может помочь.

Stanislav-Chernov Автор вопроса
Valentina Chuvakhina
Если вы знаете о каких датах может идти речь на те...

Я поэтому и создал 28 паттернов представления дат, пробовал создать за 3 года подряд, результат был тот же с cat_features

Похожие вопросы

Обсуждают сегодня

1. https://www.kaggle.com/code/ahmadrezagholami2001/housing-estimation-linear-regression 2. https://www.kaggle.com/code/ahmadrezagholami2001/uncovering-quality-in-wines-logis...
Ahmadreza
1
Hi! Could you please upvote my new notebook? thanks a lot. https://www.kaggle.com/code/melissamonfared/anime-character-generation-dsgan-gan
məru
4
upvote plz https://www.kaggle.com/code/bassetkerouche/swapping-face?scriptVersionId=207300096
benkerrouche Statoinary
1
-- Привет всем. -- Есть csv, проблема в том что он содержит очень много повторов по столбцам и по строкам. -- Решил перекинуть это в базу данных, чтобы было проще. Но я не ша...
Oleg Ivanov
1
Как считаете - вопрос на собесе: «Как быстрее всего запустить ec2 машину в aws (в чистом аккаунте) и показать вывод от любой команды с нее» не очень ли сложный для условного м...
Sergey
50
Господа, у меня вопрос. Что вообще такое этот ваш data science и data scientists? А то гуглю, а мне какую-то расплывчатую фигню говорят.
Inkosta
44
Hi could you please help me with my two new projects? https://www.kaggle.com/code/hesankazemnia/rice-image-classification-cnn-pytorch https://www.kaggle.com/code/hesankazemnia...
Hesan
6
Исходя из ваших комментариев, получается, что чтобы получить марты в CH из данных в PG, неправильно тянуть сырые данные в CH и там их обрабатывать, лепить справочники и джойни...
unhingedlunatic
42
hi, Can you upvote? https://www.kaggle.com/code/durjoychandrapaul/rag-q-a-system-by-langchain-huggingface-for-pdf?scriptVersionId=204704280
A
1
Could you upvote and comment please? https://www.kaggle.com/code/tatianapetrushkevich/beginner-images https://www.kaggle.com/code/tatianapetrushkevich/python-for-beginners1 ...
Tazziyana
7
Карта сайта