отдельно?
когда я использовал doccano , выгружали именно по отдельности и обрабатывали отдельно и считали всякие IAA метрики. не знаю может в новых версиях там что-то поменялось, послушаю. (также любопытно кстати, кто какими annotation tool пользуется, в частности интересна тулза для NER(может есть что лучше doccano?) и для treebank. для treebank что-то не нахожу хороших тулз)
Label studio подойдет для ner
я его пробовал, имхо плюс минус как doccano. пробовал также prodigy , отличный тул...если бы не баги. хочется нечто вроде prodigy , но менее бажное. там довольно удобно UI настраивать (удобнее чем в label studio) и weak annotation model кастомные подключать
Понял, интересно. А почему удобнее, чем в ls? Вы же ls community использовали?
да community. ну кейс довольно специфический, разметка для nested NER , разметка морфем и разметка на других языках была (арабский и иврит). ни одна из доступных в паблике не работала прилично на всех трех комбинациях сразу. сейчас есть разметка большого корпуса в doccano , но чистим датасет ибо много огрехов.
Тогда понимаю, кейсы действительно не самые подходящие для ls
Регулярные выражения например)
Обсуждают сегодня