всякие инвест сделки. Нужно из каждой новости извлечь организации, которые проинвестировали. Подход в лоб - любой ner моделькой извлечь организации, потом настроить ещё одну sequence tagging модель, где нужно выделить нужные организации единичками, ненужные - ноликами. Или есть другие подходы, одной моделью?
Просто идеи: Выделять NERом только те сущности, которые потом будут выделены единичками Выход NER-модели сделать multilabel вместо multiclass В BIO-разметке просто добавить единички и нолики сущностям типа ORG (B-ORG0) Просто несколько выходов у одной модели Если двумя модельками: то еще можно NER + Relation Extraction (частично можно поймать из коробки с помощью модели на основе https://github.com/InstituteForIndustrialEconomics/rured https://arxiv.org/abs/2108.13112 http://docs.deeppavlov.ai/en/master/features/models/re.html). Там есть классы отношений sells_to, ownership и тд.
Продолжение темы. Вот у нас есть текст, который после выделения организаций стал примерно таким "A database platform Org1 has secured a €1,25 million investment. The apparently oversubscribed funding round, which was backed by existing investors as well as new share holders, including major Org2 and Org3, was announced late last February." Задача - выделить Org2 и Org3 как релевантные организации (инвесторы). Вижу два пути: 1) решать задачу sequence tagging для токенов ОrgX c меткой 1 или 0 2) Решать задачу бинарной классификации для каждой сущности OrgX в отдельности, подавая некий контекст вокруг этого токена Как лучше?
Я когда говорил про единички-нолики имел в виду такую разметку: "A database platform Org0 has secured a €1,25 million investment. The apparently oversubscribed funding round, which was backed by existing investors as well as new share holders, including major Org1 and Org1, was announced late last February." (т.е. разбить организации заранее по разным сущностям). Как лучше, не знаю. Зависит от наличия разметки / уже готовых моделей / является ли это конечной задачей и тд
условия такие, что совсем нет разметки и нужно сделать бейзлайн на коленке. Организации легко выделить предобученными NER моделями, потом дальше разметить 100-200 примеров, а потом начать делать какую-то модельку
Обсуждают сегодня