выделять максимально совпадающие. Совпадать могут несколько, перестановка слов местами должна учитываться, преимущественно - кириллица. Чем к этому лучше подступиться?
Ключевые слова: bag-of-words, tf-idf matrix, cosine distance
Я бы ещё глянул в сторону fuzzy matching, если речь идёт про сравнение небольших строк (например, поисковых запросов). Есть уже готовые либины на Python
В среднем, до 250 знаков - поисковые запросы \ названия товаров
Не, поиск пускай Я и Г делают) Сопоставление товаров
Обсуждают сегодня