хотелось бы решить - пользователи вводят длинные строки в поискую строку и мне надо выдать им релевантные документы.
по-умолчанию поиск настроен так, что в документе должны присутствовать все слова из поисковой строки и поэтому на длинный запрос типа «черный чай с бергамотом 20 гр. туба»
не выдается никаких документов, хотя в индексе есть «черный чай с бергамотом 20гр.»
я могу настроить поиск так, чтобы для разного количества слов в поисковом запросе менялся параметр minimum should match - например, для поискового запрос в 1-3 слова этот параметр был равен 100% (все слова должны находится)
для 4-6: 75% (75% слов должно быть в документе)
для 6-10: 60% и т.д.
вопрос в методологии подбора данных параметров. кто-то занимался подобным? понимаю, что данные параметры можно только эмпирически подобрать, но может быть у кого-то есть позитивный опыт в подборе данных параметров, что могло бы быть отправной точкой для меня? спасибо
Привет! Я бы на твоём месте попытался оптимизировать один параметр. Например, token_sort_ratio, как он реализован вот здесь: https://github.com/seatgeek/fuzzywuzzy
Обсуждают сегодня