Всем привет! Такой вопрос, задача NER - необходимо создать мультиязычную

Question

Всем привет! Такой вопрос, задача NER - необходимо создать мультиязычную

модель для распознавания сущностей в текстах. На английском языке данные есть, мультиязычная модель обучена, работает хорошо, также она работает на русском языке хорошо (хуже чем на англ но все же). Вроде работает, но качество на русском языке я замерить не могу, т.к. нет разметки на нем, есть просто сырые данные без разметки. Была идея разметить их с помощью chatgpt, и дообучить модель на небольшом количестве русских данных, таким образом посчитав необходимые метрики, но gpt размечает не всё и ориентироваться на эти данные в тесте, а тем более переобучать модель под них - слишком глупо, мало размеченных сущностей. Может быть объединить предсказания от мультиязычной модели и GPT и считать это за правду, и переобучить модель на этом, посчитав тест. Как считаете как лучше поступить здесь? Какой будет самый правильный способ посчитать метрики на русских данных, без разметки полученной с помощью разметчиков? Не 100% способ, но хотя бы на 60-70% который отражал бы правду

#nlp #programming #russian

0

02.06.2023

5 ответов

43 просмотра

Александр Автор вопроса

Sergey Ustyantsev
Насколько сложно разметить для себя хотя бы сотню ...

химические данные, без разметчиков никак, они есть, но задача не приоритет сейчас, поэтому вызвать их здесь и сейчас не могу

0

02.06.2023

David Dalé

Я бы, если честно, таки попробовал создать разметку непосредственно для русского языка. Вариант 1: сесть и самому разметить небольшую выборку. Вариант 2: перевести размеченные данные с английского на русский, потом для каждой сущности в английском тексте найти аналог в русском переводе, и перенести разметку на эти аналоги.

0

02.06.2023

David Dalé

David Dalé
Я бы, если честно, таки попробовал создать разметк...

Пример первой попавшейся статьи, где вариант 2 разбирают https://aclanthology.org/D19-1100/

0

02.06.2023

Sergey Ustyantsev

David Dalé
Я бы, если честно, таки попробовал создать разметк...

А потом попробовать эту разметку скормить в качестве примеров для чатгпт и посмотреть что у неё получится

0

02.06.2023