170 похожих чатов

Всем привет! Подскажите, пожалуйста, как лучше действовать. У меня

есть модели NER, которые вытягивают три типа гипотетических сущностей (в реальности у меня другие сущности): авто, самокаты и велосипеды. Я прошелся этими моделями по текстам и назначил каждому тексту класс в зависимости от того, какой тип сущности наиболее упоминаем, e.g. есть тексты, где больше всего говорят о специфичных моделях велосипедов, значит этот текст имеет класс велосипед и т.п.

Теперь же я хочу научиться выделять значимые кластеры внутри классов, e.g. в классе авто найти, например, кластер текстов, где упоминаются спорткары или в классе велосипедов найти кластер про шоссейники. Для этого я хочу сделать как это делалось тут или тут, используя Сиамские сети. Основной вопрос это как сформировать датасет, чтобы вектора текстов из encoder Сиамской сети после тренировки формировали кластеры лучше всего?

Сейчас пока что я думаю частично формировать датасет типа anchor-positive-negative как-то так: внутри каждого класса мэтчить пары текстов anchor-positive по наибольшему совпадению именнованных сущностей, которые я выделил на стадии NER разметки, то есть два текста с такими сущностями {порш, бугатти, мазерати, лада, седан} и {порш, ламборджини, мазерати} станут парой anchor-positive. А что стоит брать в negative? Текст из другого класса или текст из того-же класса но где нет оверлэпов? Также если я использовал тексты в anchor-positive их можно задействовать для создания других пар с другими текстами?

1 ответов

5 просмотров

про NER+metric learning это довольно интересная идея, которая мне тоже как-то приходила в голову и которую я потом видел уже реализованной в этой статье у Микрософта https://openreview.net/forum?id=9EAQVEINuum , но все нет времени проверить. в целом чем более разнообразные negative будут тем лучше, поэтому ответы на вопросы - и из другого класса, и с оверлэпами. и можно использовать пары anchor-positive для создания других пар, там имхо в целом логика следующая , задача чтобы семантически сущности positive попали в кластер к anchors, таким образом в жадном случае надо показать combinations(anchor+positives, 2) пар, что конечно нереально, поэтому нужно выбирать такие edge кейсы,после изучения которых сетке, много других пар показывать не надо. поэтому в целом задача по каким-то признакам сгруппировать(как в блокинге в entity resolutions, это если вы знакомы с ER) , и в этих группках найти такие кейсы, которые заведомо не матчи. поскольку тут NER, то я бы сначала запустил обычную модель, сделал бы error analysis , классифицировал типы ошибок и исходя из них, делал бы такие кейсы. например подозреваю что overlap будет в меньшей степени иметь значение, скорее всего стоит подумать про контекст (т.е. есть подозрение что сиамская сетка обученная на понимание схожести description и entity аля entity-linking , будет лучше работать - но надо проверять, эксперементировать)

Похожие вопросы

Обсуждают сегодня

Всем привет! Имеется функция: function IsValidChar(ch: UTF8Char): Boolean; var i: Integer; ValidChars: AnsiString; begin ValidChars := 'abcdefghijklmnopqrstuvwxyzABCDE...
Евгений
44
Ну вот просто даже давайте вот как. Какой нибудь конкретный кейс, можете в пример привести, где бч работает и приносит прикладную пользу, а не просто что бы было? Не крипту.
Alexander Andreev
22
объясните пожалуйста, почему функция не работает должным образом? вроде должно брать активное окно сравнивать его размер с размером экрана, и если есть совпадение = true прове...
JF
12
лучше скажите, причём тут паскаль?
Alexey Kulakov
36
> Копаем глубже > Следующий момент был, когда я спросил его, знает ли он JavaScript. Он ответил, что его учили работать с C#. Я тоже в университете писал на C#, но даже там мн...
Oleg Volkov
4
Гляньте, че бывает: Сегодня по одному проекту одной вебстудии делал проект небольшой, на их хостинге. На Modx revo. В определенный момент , работая в админке, вдруг перестал р...
Artem
5
И никого не интересует какие пакеты кто использует. ((% Заходишь на сайт симфони и видишь поддержку Украины - по законам РФ это ж экстремизм. Только никто не отказывается от с...
Am Ambrion
11
Чтобы перехватить все нажимания буков на форме, надо хук ставить? Пробовал на форме ОнКейДаун, оно ловит клаву если фокус не на компоненте с вводом текста
Serjone
15
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
8
Народ! Впервые клиенту пришло письмо от РКН, у вас, дескать, есть яндекс метрика, а нигде не написано, что вы ее юзаете. Никто не сталкивался?
Sasha Beep
14
Карта сайта