задача: дан датасет (2 столбца, поисковый запрос + его дата). среди этих запросов нужно найти записи, которые относятся, например, к футболу.
я создала массив со словами типо "футбол, месси, чм, цска", разбиваю каждый запрос на леммы с помощью SnowballStemmer и смотрю, есть ли там слово из массива. есть ли еще какие варианты как это сделать?
а зачем разбивать? почему нельзя просто for i in key_words: search_query.find(i)
Tfidf vectorizer
айте словарь. В словаре оставте слова относящиеся к футболу. Потом ищите эти слова в запросах.
Обсуждают сегодня