Уточнение - как будто препроцессинг текстовых фичей в процессе запуска

model.fit(pool) идет в один поток на CPU. У меня сейчас это занимает время сравнимое с общим обучением на GPU.

Это by design или у меня что-то не так настроено?

5 ответов

23 просмотра

а что top (task manager) говорит?

dmitry- Автор вопроса
Евгений Петров
а что top (task manager) говорит?

top - 07:58:30 up 14 days, 27 min, 0 users, load average: 1.17, 1.10, 1.09 Tasks: 10 total, 2 running, 8 sleeping, 0 stopped, 0 zombie %Cpu(s): 2.1 us, 0.1 sy, 0.0 ni, 97.8 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st MiB Mem : 64142.3 total, 16988.8 free, 35227.1 used, 11926.4 buff/cache MiB Swap: 32768.0 total, 32764.5 free, 3.5 used. 29997.9 avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 378 root 20 0 68.1g 32.9g 277288 R 100.0 52.6 128:33.01 python 1 root 20 0 3984 2988 2760 S 0.0 0.0 0:00.01 bash 19 root 20 0 3984 3116 2820 S 0.0 0.0 0:00.00 bash 341 root 20 0 12192 2368 2108 S 0.0 0.0 0:00.00 sshd 347 root 20 0 9084 6232 5520 S 0.0 0.0 0:00.09 ssh 356 root 20 0 549440 106500 18644 S 0.0 0.2 0:15.26 jupyter-noteboo 1206 root 20 0 4476 3796 3204 S 0.0 0.0 0:00.14 bash 1219 root 20 0 4476 3860 3268 S 0.0 0.0 0:00.14 bash 1231 root 20 0 6360 3452 2916 R 0.0 0.0 0:01.57 top 1239 root 20 0 3724 3164 2328 S 0.0 0.0 0:03.38 watch Работа в один поток

dmitry- Автор вопроса
Евгений Петров
да, там код так написан :-\

Спасибо! А я правильно понимаю, что если я сделаю токенизацию (и, возможно, другую предобработку из стандартных компонент catboost) отдельным предварительным шагом (чтобы организовать кэширование), то ее нельзя будет добавить в модель cbm и мне придется в inference коде ее воспроизводить?

Похожие вопросы

Обсуждают сегодня

1. https://www.kaggle.com/code/ahmadrezagholami2001/housing-estimation-linear-regression 2. https://www.kaggle.com/code/ahmadrezagholami2001/uncovering-quality-in-wines-logis...
Ahmadreza
1
Hi! Could you please upvote my new notebook? thanks a lot. https://www.kaggle.com/code/melissamonfared/anime-character-generation-dsgan-gan
məru
4
upvote plz https://www.kaggle.com/code/bassetkerouche/swapping-face?scriptVersionId=207300096
benkerrouche Statoinary
1
-- Привет всем. -- Есть csv, проблема в том что он содержит очень много повторов по столбцам и по строкам. -- Решил перекинуть это в базу данных, чтобы было проще. Но я не ша...
Oleg Ivanov
1
Как считаете - вопрос на собесе: «Как быстрее всего запустить ec2 машину в aws (в чистом аккаунте) и показать вывод от любой команды с нее» не очень ли сложный для условного м...
Sergey
50
Господа, у меня вопрос. Что вообще такое этот ваш data science и data scientists? А то гуглю, а мне какую-то расплывчатую фигню говорят.
Inkosta
44
Исходя из ваших комментариев, получается, что чтобы получить марты в CH из данных в PG, неправильно тянуть сырые данные в CH и там их обрабатывать, лепить справочники и джойни...
unhingedlunatic
42
Hi could you please help me with my two new projects? https://www.kaggle.com/code/hesankazemnia/rice-image-classification-cnn-pytorch https://www.kaggle.com/code/hesankazemnia...
Hesan
6
hi, Can you upvote? https://www.kaggle.com/code/durjoychandrapaul/rag-q-a-system-by-langchain-huggingface-for-pdf?scriptVersionId=204704280
A
1
Could you upvote and comment please? https://www.kaggle.com/code/tatianapetrushkevich/beginner-images https://www.kaggle.com/code/tatianapetrushkevich/python-for-beginners1 ...
Tazziyana
7
Карта сайта