такова. Есть колонка с строкой. Мне нужна функция, которая будет искать ключевые слова из словаря в строке и заполнять новую колонку датафрейма ключами этого словаря. Причём нужна реализация, которая будет бережно относиться к памяти и загруженности процессора. Строк пару сотентысяч.
Делать лучше через regex или есть лучшие варианты по производительности?
пару сотен тысяч строк - без разницы.
Pandas работает в 1 поток, если не влезает в память - dask или vaex, ну или чанками грузи , для многопоточности pandarallel
words = бла бла бла путь до файла или влоб в сторону датафрейма words_list = Counter(words).most_common(common_score) df = pd.DataFrame(words_list, columns=['Words','Score'] переписываешь words_list в сторону своей задачи, в оригинале считает количество повторений слов.
Обсуждают сегодня