что ищущий заранее знает, что ищет, но не помнит точного названия
и например, в базе есть "эээто бы ты....", и ты в поисковом запросе пишешь, как помнишь -- "это был ты" -- но вылазит вдруг "это тильт"
потому что
> Levenshtein.distance "это был ты", "это тильт"
=> 4
> Levenshtein.distance "это был ты", "эээто был ты...."
=> 6
есть какая-нибудь другая прикольная метрика вместо левенштейна? или мне костыли городить с удалением повторяющихся символов?
Spacy выдаёт схожесть "это был ты" и "эээто был ты...." как 95% и схожесть "это был ты" и "это тильт" как 32%.
круто ток у меня не питон
Хм. Тогда тебе прочитать документы на инструмент, которым пользуешься, и найти что-то похожее на указанное в документах Spacy.
Расстояние Дамераю-Хемминга или редакционное расстояние
вариация на тему https://en.wikipedia.org/wiki/Assignment_problem сработала сразу же как и требовалось https://github.com/Nakilon/nakiircbot/commit/e1f2a59394e7b28a94d5e4614e0f5a1e4fa9e1d5#diff-9cd594d01c6162ac95e06364ef7bdd368079ee77584bdf517b665042dbd62f66R4-R9
Обсуждают сегодня