-- кроме соревнований по семантике, можно искать статьи про крупные базы, вокруг которых всё строится: Google Knowledge graph , wikidata и common sense database ( конкретнее, были ConceptNet и Babel ) .
А вот скажем по NER конкретно:
Ищем "NER datasets", https://paperswithcode.com/datasets?task=named-entity-recognition-ner&page=1 , оттуда идём на benchmarks и смотрим на работы.
Или по SRL: https://paperswithcode.com/sota/semantic-role-labeling-on-ontonotes .
https://en.m.wikipedia.org/wiki/Commonsense_reasoning перечисляет некоторые проекты в этой области.
Что касается извлечения с хорошим качеством -- целый комбайн надо поднимать (предобработка, разрешение анафоры, синтаксиса и NER, потом только извлекать связи), я помню что allennlp этим занимался именно как комбайном. Neuralcoref тут библиотека, на которую всё ссылались.
И я бы не гнался за топом по F1, потому что даже у рекордсменов F1=0.7 -- это очень плохо для любого практического использования. Это значит, что система загребла с полезными отношениями кучу мусора (precision=0.7 recall=0.7 это "треть берём лишних и треть правильных не находим"). В такой ситуации могут быть полезны более правильные расширяемые концептуальные решения, например, низкие по полноте или по точности, но те, что после доводки на конкретном домене будут хорошо решать конкретную задачу, раз уж в общем виде пока задача нормально не решается.
И вот конкретно секция
https://paperswithcode.com/task/relation-extraction
Добрый день, Юрий! Интересная статья "R-BERT для извлечения отношений". Результат по ВИЕ - 0,44 (F-балл). Наверно, это самый высокий на сегодняшний день (для русского языка). Согласен, что, в целом, необходим комбайн: 1) задача NER, 2) задача RE. Вопрос реализации) Наверно, только практика поможет и перебор вариантов. Наверно, скомкано написал) Было бы интересно обсудить практику реализации Планируем заняться подобной задачей
Обсуждают сегодня