170 похожих чатов

Подскажите, пожалуйста, какие бибиотеки сейчас используются для быстрой группировки

похожих строк? Хочется находить распространённые опечатки (типа "software developer"/"sofware devepoler"). Датасет большой и понятное дело сравнивать все пары будет очень долго.

7 ответов

11 просмотров

такое? https://github.com/seatgeek/thefuzz

Майя- Автор вопроса
Andrey
такое? https://github.com/seatgeek/thefuzz

Ну тут сравнивается 1 с 1 либо 1 со многими. А мне бы хотелось, чтобы сгруппиповало. Может разве что count vectorizer какой-то на биграммы-триграммы.

Майя
Ну тут сравнивается 1 с 1 либо 1 со многими. А мне...

Может кластеризовать и уже внутри перебор? Типа faiss

Майя- Автор вопроса
Alexander
Может кластеризовать и уже внутри перебор? Типа fa...

Наверное, да, но все равно будет долго все это в цикле перебирать. Поэтому я и думаю, может уже есть готовая бибиотека. Или кластеризировать faiss, а потом взять count vectorizer на буквенных биграммах и снова кластеризировать. А уже потом перебирать.

Alexander
Может кластеризовать и уже внутри перебор? Типа fa...

...а вектрризовать каким-нибудь бертом без энкодинга. были какие-то character-bert или google canine. сам их не юзал правда, хбз

Мне кажется, можно создать обратный индекс на символьных n-граммах (т.е. словарик типа {"dev": ["software developer", "software development", custdev", ...], ...}), и доставать кандидатов из него, а потом заново скорить их по edit distance. Думаю, это будет быстрее, чем vectorizer+кластеризация. Правда, это не сработает на разных краевых случаях типа developer vs d e v e l o p e r, но на них и vectorizer вовсе не факт что корректно отработает.

David Dalé
Мне кажется, можно создать обратный индекс на симв...

а вот кстати да, совсем забыл. elasticsearch вроде отлично умеет в fuzzy

Похожие вопросы

Обсуждают сегодня

Ещё такой вопрос. Мне необходимо хранить пароль пользователя локально. Для этого планирую использовать ini файл. Это для автозаполнения полей логин и пароль при авторизации. Е...
Евгений
19
Всем привет, написал код ниже, но он выдает сегфолт, в чем причина? #include <stdio.h> #include <stdlib.h> #include <string.h> struct product { char *name; float price; };...
buzz базз
75
Hi guys, I'm looking for a good LLM course. Is there any course to learn LLMs in advanced? I'm aiming to use them in my apps, so a perfect course in my openion, is not only a ...
Taha
14
А как лучше конвертировать физический адрес в виртуальный при маппинге? В случае ядра у меня, например, direct mapping, первые 768МБ я как есть мапплю в higher half, а остальн...
Evg Resh
26
База данных не поможет. Шифрование не поможет. Какие там ещё варианты? Накидывайте.
КТ315
20
А табстоп это сообщение от окна или от элемента управления?
The Bird of Hermes
18
Всем привет. Подскажите, пожалуйста, как вы реализовываете следующий функционал. Допустим есть форма, в которой имеется выпадающий список со значениями. Значения хранятся в БД...
Евгений
7
Хех, данные на форме всегда будут "из прошлого", т.к. перезаполнять поля формы в процессе редактирования пользователем - так себе идея. Пользователь может открыть форму редакт...
Alexander Somov
7
$params = [ 'formid' => 'feedbackForm', 'formTpl' => '@CODE: <form class="form-validate" data-id="ajax_form"> <fieldset class="margin-bottom-md"> ...
Pathologic
1
Хотел бы спросить у знающих, правильную ли я выбрал книгу для начала изучения ассемблера Юрова В.И ? Или есть более лучшие книги для начала обучения?
Botsman
31
Карта сайта