170 похожих чатов

Коллеги, нужен совет по ml design. Есть тексты новостей про

всякие инвест сделки. Нужно из каждой новости извлечь организации, которые проинвестировали. Подход в лоб - любой ner моделькой извлечь организации, потом настроить ещё одну sequence tagging модель, где нужно выделить нужные организации единичками, ненужные - ноликами. Или есть другие подходы, одной моделью?

4 ответов

17 просмотров

Просто идеи: Выделять NERом только те сущности, которые потом будут выделены единичками Выход NER-модели сделать multilabel вместо multiclass В BIO-разметке просто добавить единички и нолики сущностям типа ORG (B-ORG0) Просто несколько выходов у одной модели Если двумя модельками: то еще можно NER + Relation Extraction (частично можно поймать из коробки с помощью модели на основе https://github.com/InstituteForIndustrialEconomics/rured https://arxiv.org/abs/2108.13112 http://docs.deeppavlov.ai/en/master/features/models/re.html). Там есть классы отношений sells_to, ownership и тд.

Dmitriy-Salikhov Автор вопроса
Denis Gordeev
Просто идеи: Выделять NERом только те сущности, ко...

Продолжение темы. Вот у нас есть текст, который после выделения организаций стал примерно таким "A database platform Org1 has secured a €1,25 million investment. The apparently oversubscribed funding round, which was backed by existing investors as well as new share holders, including major Org2 and Org3, was announced late last February." Задача - выделить Org2 и Org3 как релевантные организации (инвесторы). Вижу два пути: 1) решать задачу sequence tagging для токенов ОrgX c меткой 1 или 0 2) Решать задачу бинарной классификации для каждой сущности OrgX в отдельности, подавая некий контекст вокруг этого токена Как лучше?

Dmitriy Salikhov
Продолжение темы. Вот у нас есть текст, который по...

Я когда говорил про единички-нолики имел в виду такую разметку: "A database platform Org0 has secured a €1,25 million investment. The apparently oversubscribed funding round, which was backed by existing investors as well as new share holders, including major Org1 and Org1, was announced late last February." (т.е. разбить организации заранее по разным сущностям). Как лучше, не знаю. Зависит от наличия разметки / уже готовых моделей / является ли это конечной задачей и тд

Dmitriy-Salikhov Автор вопроса
Denis Gordeev
Я когда говорил про единички-нолики имел в виду та...

условия такие, что совсем нет разметки и нужно сделать бейзлайн на коленке. Организации легко выделить предобученными NER моделями, потом дальше разметить 100-200 примеров, а потом начать делать какую-то модельку

Похожие вопросы

Обсуждают сегодня

30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
6
в JclConsole объявлено так: function CtrlHandler(CtrlType: DWORD): BOOL; stdcall; - где ваше объявление с stdcall? у вас на картинке нет stdcall
Karagy
8
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
~ 2m21s  nix shell github:nixos/nixpkgs#stack ~  stack ghc -- --version error: … while calling the 'derivationStrict' builtin at /builtin/derivation.nix:...
Rebuild your mind.
6
Карта сайта