172 похожих чатов

Создать отдельный "язык" для каждого столбца (предметной области)? расскажите исходную задачу

лучше

8 ответов

2 просмотра

Есть здоровая база (солидный кусок русскоязычного телеграмма, 700млн постов) Хочу сделать поиск по ней, пока работает медленно. Возникла идея сделать тематические словари, типа "кулинария" "айти",

alex-che Автор вопроса
Eshu Marabo
Есть здоровая база (солидный кусок русскоязычного ...

1. Может лучше какой-нибудь специализированный поисковый движок? Если то, что есть в ПГ не идеально, и приходится дорабатывать напильником... 2. Я не очень понял ваш план про отдельный индекс для каждой тематики. При поиске по темам всё равно ищут "обычные" слова, эти обычные слова займут больше половины объёма. Несколько индексов — суммарный объём больше, чем если всё в один индекс

alex che
1. Может лучше какой-нибудь специализированный пои...

1. Спасибо, надо покурить мануалы) 2. Хз точно, что я хочу, пока думаю))

Eshu Marabo
1. Спасибо, надо покурить мануалы) 2. Хз точно, чт...

1. Если вам максимальную скорость - то SphinxSearch или ManticoreSearch и сразу смотреть ondisk_attrs, чтобы он не тащил всю базу в оперативку. Даже в этой ситуации об будет на пару порядков быстрее постгреса.

Евгений Смирнов
1. Если вам максимальную скорость - то SphinxSearc...

А они норм? У нас на работе был сфинкс, теперь- Мантикора, что-то качество поиска так себе, но мб они криво настроены были

Eshu Marabo
А они норм? У нас на работе был сфинкс, теперь- Ма...

С lemmatizer_ru_all - нормально, а со stem_ru или stem_ru_en такая же лажа, как в комплекте с постгресом.

Евгений Смирнов
С lemmatizer_ru_all - нормально, а со stem_ru или ...

А, ну у меня в постгресе словарь rusmorph, он норм+-

Eshu Marabo
А, ну у меня в постгресе словарь rusmorph, он норм...

Rusmorph так и не попробовал пока, но по описанию он делает примерно то же, что сфинксовый lemmatizer_ru или lemmatizer_ru_all. Так-то хотел бы сфинкса выкинуть, но вот чтобы морфология + скорость + быстрое ранжирование + гибкое ранжирование (на уровне запроса сказать, чтобы повышал ранг за точное совпадение, например, ищу «холодный» и чтобы «холодный» был выше, чем «холодная») пока никого не вижу.

Похожие вопросы

Обсуждают сегодня

я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
Всем привет! Массив вводится с клавиатуры, кол-во элементов неизвестно, поэтому я указал arr db 100 dup(?) С нахождением максимума проблем нет, а вот минимум почему-то всегд...
En Vind Av Sorg
11
в сях есть множество как в питоне? для удаление дубликатов
Linus
25
читать файл максимально быстро? странный вопрос))
zamtmn
53
Я хочу запустить свой проект в тг. Что-то между пирамидой и майнилкой. Еще подобного ничего не было. Уникальная идея. Нужен именно не бот, а приложение. С ввод, выводом тон...
Павел А.
6
а как бы вылезти из ИО, что то типа IO -> Ether или в какую сторону смотреть ? что то туплю
Fedor
14
тоесть, указав return eax, сгенерируется никому ненужная инструкция mov eax,eax ?
Aiwan \ (•◡•) / _bot
24
а зачем этот вопрос для удаления из чата?
Mёdkinson Medvezhkin
63
Реально в одиночку написать игровой движок на Си?
ㅤ (SVO)
11
Всем привет, товарищи! Можете меня поздравить, получил "отлично" за дисциплину "языки программирования низкого уровня". Честно говоря, не очень хочу, чтобы основы асма, которы...
Ыиу
1
Карта сайта