Всем привет! Задача: делаю ранжирование на катбусте. Промежуточно хочу сохранять pool-ы для

тренировочных/тестовых данных и затем их вызывать в момент тренировки модели.

Пытаюсь делать следующее:

1. Задаю pool и сохраняю его функцией save_quantization_borders:

dataset = Pool(
data=data[features["num_features"] + features["cat_features"]],
label=data[features["target"]],
group_id=queries,
cat_features=features["cat_features"]
)
dataset.quantize()
dataset.save_quantization_borders("train_dataset")

2. Потом вызываю датасет через Pool:

Pool("train_dataset")

3. При попытке обучения CatBoostRanker() с лоссом YetiRank он не видит заданные ранее группы:

Groupwise loss/metrics require nontrivial groups

Что в таком случае делать, как правильно сохранить pool и затем инициализировать его в момент обучения модели?

5 ответов

138 просмотров

пробовал через save? https://catboost.ai/en/docs/concepts/python-reference_pool_save

Yana-Zhezher Автор вопроса

Да, но потом я не могу из этого же файла pool загрузить обратно :( Если подскажешь как это делать, буду благодарна.

Yana Zhezher
Да, но потом я не могу из этого же файла pool загр...

pool = Pool(…) pool.save(“my_pool.bin”) pool = Pool(“pool.bin”)

Попробуй pool = Pool(“quantized://pool.bin”)

Yana-Zhezher Автор вопроса
Ivan Lyzhin
Попробуй pool = Pool(“quantized://pool.bin”)

Вроде сработало, спасибо!

Похожие вопросы

Обсуждают сегодня

1. https://www.kaggle.com/code/ahmadrezagholami2001/housing-estimation-linear-regression 2. https://www.kaggle.com/code/ahmadrezagholami2001/uncovering-quality-in-wines-logis...
Ahmadreza
1
Hi! Could you please upvote my new notebook? thanks a lot. https://www.kaggle.com/code/melissamonfared/anime-character-generation-dsgan-gan
məru
4
upvote plz https://www.kaggle.com/code/bassetkerouche/swapping-face?scriptVersionId=207300096
benkerrouche Statoinary
1
-- Привет всем. -- Есть csv, проблема в том что он содержит очень много повторов по столбцам и по строкам. -- Решил перекинуть это в базу данных, чтобы было проще. Но я не ша...
Oleg Ivanov
1
Как считаете - вопрос на собесе: «Как быстрее всего запустить ec2 машину в aws (в чистом аккаунте) и показать вывод от любой команды с нее» не очень ли сложный для условного м...
Sergey
50
Господа, у меня вопрос. Что вообще такое этот ваш data science и data scientists? А то гуглю, а мне какую-то расплывчатую фигню говорят.
Inkosta
44
Исходя из ваших комментариев, получается, что чтобы получить марты в CH из данных в PG, неправильно тянуть сырые данные в CH и там их обрабатывать, лепить справочники и джойни...
unhingedlunatic
42
Hi could you please help me with my two new projects? https://www.kaggle.com/code/hesankazemnia/rice-image-classification-cnn-pytorch https://www.kaggle.com/code/hesankazemnia...
Hesan
6
hi, Can you upvote? https://www.kaggle.com/code/durjoychandrapaul/rag-q-a-system-by-langchain-huggingface-for-pdf?scriptVersionId=204704280
A
1
Could you upvote and comment please? https://www.kaggle.com/code/tatianapetrushkevich/beginner-images https://www.kaggle.com/code/tatianapetrushkevich/python-for-beginners1 ...
Tazziyana
7
Карта сайта