169 похожих чатов

Друзья, такой вопрос. Хочу смэтчить две базы по ФИО и как

часто это бывает какие-то ФИО могут быть записаны криво. Не "Иванов Петр Иванович", а "Иванов п.и." или "Петр Иванов Иванович", ну и тп.
Что гуглить и в какую сторону смотреть? Как подступиться?

7 ответов

30 просмотров

в первую очередь надо запастись полотенцем для утирания слез к сожалению, это не очень хорошо решаемая задача. можно пытаться искать пересечения строковые, например, выделять фамилию и по ней искать множество строк с такой фамилией. но это коллизия, все равно. притом, простыми средствами не разделить фамилию от имени, поэтому при перепутанном порядке фио вообще тоска получается. я бы, наверное, попробовал все привести к виду "иванов п и" - то есть, нижний регистр, по первой букве от имени и отчества, почистить пробелы и пунктуацию

M- Автор вопроса
Philipp Upravitelev
в первую очередь надо запастись полотенцем для ут...

😅 ахахах видимо остановлюсь на просто мэтчинге в тупую с очищенным от пробелов, пунктуации и капса написанием. Большая часть смэтчилась и видимо такие пляски с бубном не стоят дополнительных пары процентов данных.

M- Автор вопроса
Philipp Upravitelev
в первую очередь надо запастись полотенцем для ут...

а всякие text distances и fuzzy joins тоже не стоят свеч в этом случае? https://predictivehacks.com/how-to-apply-text-distances-and-fuzzy-joins/

M
а всякие text distances и fuzzy joins тоже не стоя...

Если у вас после обычного мэтчинга остаётся процент неопределённых данных, то проще руками, поверьте. Эти штуки ещё и затратные по вычислениям, можно долго просидеть в ожидании чуда на большом датасете, а чуда так и не случится)

M
а всякие text distances и fuzzy joins тоже не стоя...

если процент небольшой, то я не уверен, что оно стоит того. плюс расстояния и нечеткий матчинг, боюсь, плозхо будут работать с ситуации Иван Петрович и Иван П - расстояние/разница тут, например, в семь добавленных букв

В своё время решали подобную задачу ручками, применяя всякие эвристики, типа: — если оканчивается на «-вич»\«-вна» это скорее всего отчество, — то что стоит перед «оглы» это отчество, — перед отчеством как правило пишут имя и т.п.

присоединяюсь к вышесказанному, особенно про полотенце… если иванов п.и. - это печально если просто в разном порядке элементы фио, то можно сплитануть строку, отсортировать, соединить и по ней мерджить

Похожие вопросы

Обсуждают сегодня

Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
я так понимаю, я так подозреваю, что создание такого плагина для человека, кто умеет писать плагины для делфи потребует минут 5-10 времени. но это мое подозрение. хотелось бы ...
Kraszx
7
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
Привет, такой вопросик появился кажется ли вам что Rust слишком сложный/строгий для высокоуровневого программирования и слишком "безопасный"/строгий для низкоуровневого?
Крокант
10
Скажи а ты когда этот канал создавал ты уже дельфи не любил, или это со временем пришло?
Роман Лях (rgreat)
18
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Всем привет! Использую кастомное модальное диалоговое окошко, все по классике - mrOK, mrCancel как ModalResult. Однако есть нюанс - в главной форме есть универсальный обработч...
Олег Гранишевский
20
Коллеги, добрый вечер. Создаю коллекцию от TFPGMap, ключ - перечисление, значение - целое. Нужно отсортировать коллекцию по значению. Как это можно сделать?
Kirill Filippenok
11
такое тоже не подойдёт? {$message 'Я тут эт самое, закомментил эт самое, чтобы эт самое того, ну надо было короче эт самое, делфи сакс эт самое, лазарус рулез!'}
notme
8
Карта сайта