Всем привет, наткнулся на странное поведение: Делаю обычное обучение: from catboost import

CatBoostClassifier

model = CatBoostClassifier(
task_type='GPU',
iterations=3000,
tokenizers=[...],
dictionaries = [...],
feature_calcers = [
...
],
metric_period=10,
eval_metric='Accuracy',
)
model.fit(train_pool, eval_set=[test_pool])

Размер обучающей выборки примерно 5 миллионов, единственная колонка - текстовая размером около 500 символов
Воспроизводимо падает - памяти (вроде) достаточно.
Падает после того как вывел learning_rate и видимо сразу после преобразования текста в фичи (этот шаг занимает пару десятков минут потому что работает в один поток).

Если обрезаю примерно в два раза, падать перестает.
Куда копать?

EDIT:
Я еще раз посмотрел - видимо все-таки память, просто в процесс обработки пиково примерно в 3 раза больше занимает чем во время обучения. Отсюда было ложное понимание, что памяти достаточно.

EDIT2:

Все-таки не память - удвоил память, но все равно ломается. Где-то 5,5 миллионов все падает, 4 миллиона строк - работает даже на вдвое меньшей памяти
Может кто-то с таким разбирался уже?
Ориентировочно на 64Гб пиковых падает. Там не зашиты случайно лимиты какие-то?

Гугл говорит, что нужно попробовать ulimits -v unlimited, напишу про результаты

EDIT3:
На другой машине проблемы не появилось, видимо дело именно в настройках системы

4 ответов

119 просмотров
dmitry- Автор вопроса

Продолжаю свое исследование: 1. Проверил проблема в ограничении памяти процесса или нет. Сделал массив из "1" длиной 200ГБ - все хорошо. 2. В том же окружении воспроизвелась проблема с тем, что модель падает примерно так как упала бы от памяти - просто умирает ядро. При этом умирает вроде в районе 64Гб в пике. Подскажите, как я могу локализовать/решить проблему? Может был подобный опыт. Сейчас еще прогоню в дебаг выводе и добавлю лог. Как-то я не подумал об этом раньше

dmitry
Продолжаю свое исследование: 1. Проверил проблема ...

Может быть плохо становится на этапе подготовки фичей из текста?

dmitry- Автор вопроса
Serg Gini
Может быть плохо становится на этапе подготовки фи...

Пока только знаю, что падает после довольно долгой работы и вывода learning_rate

dmitry- Автор вопроса
Serg Gini
Может быть плохо становится на этапе подготовки фи...

В моем представлении это означает, что текстовые фичи уже подготовлены и идет следующий этап предобработки, но еще не обучение

Похожие вопросы

Обсуждают сегодня

Hi! Could you please upvote my new notebook? thanks a lot. https://www.kaggle.com/code/melissamonfared/anime-character-generation-dsgan-gan
məru
4
upvote plz https://www.kaggle.com/code/bassetkerouche/swapping-face?scriptVersionId=207300096
benkerrouche Statoinary
1
-- Привет всем. -- Есть csv, проблема в том что он содержит очень много повторов по столбцам и по строкам. -- Решил перекинуть это в базу данных, чтобы было проще. Но я не ша...
Oleg Ivanov
1
Как считаете - вопрос на собесе: «Как быстрее всего запустить ec2 машину в aws (в чистом аккаунте) и показать вывод от любой команды с нее» не очень ли сложный для условного м...
Sergey
50
Господа, у меня вопрос. Что вообще такое этот ваш data science и data scientists? А то гуглю, а мне какую-то расплывчатую фигню говорят.
Inkosta
44
Hi could you please help me with my two new projects? https://www.kaggle.com/code/hesankazemnia/rice-image-classification-cnn-pytorch https://www.kaggle.com/code/hesankazemnia...
Hesan
6
Исходя из ваших комментариев, получается, что чтобы получить марты в CH из данных в PG, неправильно тянуть сырые данные в CH и там их обрабатывать, лепить справочники и джойни...
unhingedlunatic
42
hi, Can you upvote? https://www.kaggle.com/code/durjoychandrapaul/rag-q-a-system-by-langchain-huggingface-for-pdf?scriptVersionId=204704280
A
1
Could you upvote and comment please? https://www.kaggle.com/code/tatianapetrushkevich/beginner-images https://www.kaggle.com/code/tatianapetrushkevich/python-for-beginners1 ...
Tazziyana
7
Коллеги, приветствую! Появилась не совсем тривиальная задача реализовать в nginx редирект HTTPS —> HTTP. Да, именно так, а не наоборот. Мы разрабатываем embedded устройство,...
Никита
24
Карта сайта