надо искать вхождение нескольких значений в столбце (поиск подстроки в строке)?
Есть файл csv, где ищем:
name, value
набор для вышивания, 1000
набор для моделирования, 2000
конструктор лего, 5999
лего дупло, 2699
вышивание крестиком спицы,400
Ищу вхождение фраз: ['лего', 'вышивание', 'плетение', 'рукоделие'...]
Всего фраз около 100 000
Пробовал читать в пандасе по чанкам и искать через
df['name'].str.contains('|'.join(phrases))]
и через
df['name'].apply(lambda x: any([k in x for k in phrases]))
но чет все еще довольно медленно считает, может че то упускаю?
pandas работает поблочно, а для больших данных нужны потоковые библиотеки: dask.dataframe, или pandas_streaming
спасибо, чекну даск)
Обсуждают сегодня