с текстом, в тексте содержатся ФИО, у меня есть справочник 280к, мне нужно найти все слова из справочника (с учетом падежей) которые есть в моём документе, как мне такое лучше реализовать?
Глазами пробежаться и cntrl-с, cntrl-v
регулярка и страдать
Открыв файл в hex виде
1. создать анализатор, который учитывает падежи или взять стандартный от эластика и добавить фильтр для русских падежей, если надо 2. примени анализатор к полю справочника, чтобы сохранить слова в индексе с учетом падежей 3. используй terms для поиска слов из справочника с учетом падежей пример запроса: { "query": { "terms": { "content": { "index": "reference_index", "id": "X", "path": "word", "analyzer": "your_custom_analyzer" } } } } если хочешь что-то более конкретное - скидывай индекс рефы эластика и построения
Обсуждают сегодня