Товарищи, кто-нибудь работал с полнотекстовым поиском в постгрес?

Question

pgsql – PostgreSQL

Eshu Marabo

Товарищи, кто-нибудь работал с полнотекстовым поиском в постгрес?

#backend #devops #pgsql #programming #russian

0

03.06.2021

26 ответов

44 просмотра

Eshu Marabo Автор вопроса

Ilya Anfimov
Нет, там по приколу товарищи написали десятки тыся...

В документации к постгресу?

0

03.06.2021

Petr

Eshu Marabo
В документации к постгресу?

FTS вполне сносно документирован (в т.ч. на русском языке — https://postgrespro.ru/docs/postgresql/13/textsearch). А что вас интересует то? Задавайте сразу конкретный вопрос/озвучивайте проблему. Тут и разработчики FTS в чате есть, и те кто просто работает с искомым.

0

03.06.2021

Che

+

0

03.06.2021

Moytra Agayvs

+

0

04.06.2021

Eshu Marabo Автор вопроса

Petr
FTS вполне сносно документирован (в т.ч. на русско...

Про полнотекстовой поиск, вопросы: 1. Адекватно ли он работает для русского языка, а если нет, то как тюнить? 2. Для векторизации текстов используется единый словарь для всей базы или для каждой ячейки text векторизация строится отдельно? 3. Пригодны ли результаты векторизации для дальнейшего использования в машинном обучении?

0

10.06.2021

Yaroslav Schekin

Eshu Marabo
Про полнотекстовой поиск, вопросы: 1. Адекватно ли...

> 1. Адекватно ли он работает для русского языка, а если нет, то как тюнить? Как мне кажется, не очень. "Тюнить" можно созданием адекватного словаря русского языка, например (и, прежде чем Вы спросите, нормальных словарей вообще нет в свободном доступе, насколько мне известно). Кроме того, это зависит от того, какой именно поиск / какая обработка Вам нужны (т.к. есть возможность создавать свои "конвейеры" для векторизации текстов). > 2. Для векторизации текстов используется единый словарь для всей базы Есть конфигурация для всей базы по умолчанию. А дальше всё зависит только от Вашей фантазии (и упорства в реализации) — можете векторизовать хоть куски полей в конкретных записях конкретных таблиц. ;) Но обычно используют единую конфигурацию для всей базы плюс, возможно, отдельные для некоторых полей некоторых таблиц. > или для каждой ячейки text векторизация строится отдельно? Вы реляционную СУБД с Excel не путаете, случайно? ;) > 3. Пригодны ли результаты векторизации Всё что угодно пригодно "для дальнейшего использования в машинном обучении", IMNSHO. Качество результата — как всегда. ;)

0

10.06.2021

Eshu Marabo Автор вопроса

Yaroslav Schekin
> 1. Адекватно ли он работает для русского языка, ...

Спасибо за развернутый ответ!

0

10.06.2021

Евгений Смирнов

Yaroslav Schekin
> 1. Адекватно ли он работает для русского языка, ...

@EshuMarabo 1. постгресПро гитхабе выкладывали адаптированные словари из OpenOffice. Они выделяют корни слов, а не отрезают "что-то похоже на окончание". 2. "Для каждой ячейки" можно, но сложно: нужно как-то понимать, по каким правилам строите поисковый запрос и вектор. Самый лобовой вариант - хранить в столбце рядом. create table test ( config text, message text ) select *, to_tsvector(config::regconfig, message), to_tsquery(config::regconfig, 'Елки & зелёные') from test config message to_tsvector to_tsquery english The Fat Rats 'fat':2 'rat':3 'ёлки' & 'зелёные' russian The Fat Rats 'fat':2 'rat':3 'ёлки' & 'зелён' english Ёлки зелёные 'зелёные':2 'ёлки':1 'ёлки' & 'зелёные' russian Ёлки зелёные 'зелён':2 'ёлки':1 'ёлки' & 'зелён' И индекс по такому запросу едва ли будет использоваться, так что либо делаем универсальный словарь на все нужные нам языки, либо делаем по запросу на каждый язык.

0

10.06.2021

Eshu Marabo Автор вопроса

Евгений Смирнов
@EshuMarabo 1. постгресПро гитхабе выкладывали ада...

Спасибо!!

0

10.06.2021

Yaroslav Schekin

Евгений Смирнов
@EshuMarabo 1. постгресПро гитхабе выкладывали ада...

> адаптированные словари из OpenOffice. И словари эти (а это те, которые AOT) — дрянь, Вы меня извините. Вы сами-то с ними разбирались? > а не отрезают "что-то похоже на окончание". А тут о чём речь, кстати? Т.е. чем Вы сравниваете? > 2. "Для каждой ячейки" можно, но сложно Ну да, но тоже я имел в виду самый простой вариант, как Вы и написали: > Самый лобовой вариант - хранить в столбце рядом.

0

10.06.2021

Евгений Смирнов

Yaroslav Schekin
> адаптированные словари из OpenOffice. И словар...

> А тут о чём речь, кстати? Т.е. чем Вы сравниваете? Со стандартными Snowball. Едва ли что-то может быть хуже них.

0

10.06.2021

Yaroslav Schekin

Евгений Смирнов
> А тут о чём речь, кстати? Т.е. чем Вы сравнивает...

Ну так это просто стеммер, который пытается работать вообще без словаря (см. https://snowballstem.org/algorithms/russian/stemmer.html ), чего от него вообще можно хотеть? ;) <sarcasm>И, тем не менее, на некоторых словах даже он работает лучше, чем это "чудо" из OpenOffice.</sarcasm>

0

10.06.2021

Евгений Смирнов

Yaroslav Schekin
Ну так это просто стеммер, который пытается работа...

0_о а вы эти слова ещё помните? Хочется глянуть, насколько адекватно они обрабатываются лемматизатором сфинкса.

0

10.06.2021

Yaroslav Schekin

Евгений Смирнов
0_о а вы эти слова ещё помните? Хочется глянуть, н...

А зачем что-то помнить? Вот скачайте и посмотрите postgrespro/hunspell_dicts/master/hunspell_ru_ru_aot/ru_ru_aot.dict Вот "случайный" пример оттуда: агрегатор агрегатора агрегаторам агрегаторами агрегаторах агрегаторе агрегаторов агрегатором агрегатору агрегаторы Stemming my eye. ;(

0

10.06.2021

Ilya Anfimov

Yaroslav Schekin
А зачем что-то помнить? Вот скачайте и посмотрите ...

А что в этом примере не так?

0

10.06.2021

Yaroslav Schekin

Ilya Anfimov
А что в этом примере не так?

То, что основа слова агрегаторами — это агрегаторами, а вот агрегаторах — это совсем другое слово (по мнению составителей словаря).

0

10.06.2021

Ilya Anfimov

Yaroslav Schekin
То, что основа слова агрегаторами — это агрегатора...

А, понял, спасибо.

0

10.06.2021

Eshu Marabo Автор вопроса

Yaroslav Schekin
> 1. Адекватно ли он работает для русского языка, ...

А мб кто в курсе, полнотекстовой поиск на русском в postgres pro работает лучше?

0

10.06.2021

Eshu Marabo Автор вопроса

Евгений Смирнов
@EshuMarabo 1. постгресПро гитхабе выкладывали ада...

А вы не в курсе, можно ли создать словарь, пропускающий только определенные слова?

0

09.07.2021

Евгений Смирнов

Eshu Marabo
А вы не в курсе, можно ли создать словарь, пропуск...

По идее - да.

0

09.07.2021

Eshu Marabo Автор вопроса

Евгений Смирнов
По идее - да.

Я просто даже хз с какой стороны поступаться (

0

09.07.2021

Евгений Смирнов

Eshu Marabo
Я просто даже хз с какой стороны поступаться (

Судя по доке - создать цепочку из двух простых словарей: первый с accept = false и всеми словами в списке стоп-слов, CREATE TEXT SEARCH DICTIONARY public.simple_dict ( TEMPLATE = pg_catalog.simple, STOPWORDS = mydict ); ALTER TEXT SEARCH DICTIONARY public.simple_dict ( Accept = false ); А за ним ещё один который всё пропускает.

0

09.07.2021

Eshu Marabo Автор вопроса

Евгений Смирнов
Судя по доке - создать цепочку из двух простых сло...

А можно для дебилов ссылку на документацию?(

0

09.07.2021

Евгений Смирнов

Eshu Marabo
А можно для дебилов ссылку на документацию?(

https://postgrespro.ru/docs/postgresql/10/textsearch-dictionaries#TEXTSEARCH-SIMPLE-DICTIONARY

0

09.07.2021