модель для распознавания сущностей в текстах. На английском языке данные есть, мультиязычная модель обучена, работает хорошо, также она работает на русском языке хорошо (хуже чем на англ но все же). Вроде работает, но качество на русском языке я замерить не могу, т.к. нет разметки на нем, есть просто сырые данные без разметки. Была идея разметить их с помощью chatgpt, и дообучить модель на небольшом количестве русских данных, таким образом посчитав необходимые метрики, но gpt размечает не всё и ориентироваться на эти данные в тесте, а тем более переобучать модель под них - слишком глупо, мало размеченных сущностей. Может быть объединить предсказания от мультиязычной модели и GPT и считать это за правду, и переобучить модель на этом, посчитав тест. Как считаете как лучше поступить здесь? Какой будет самый правильный способ посчитать метрики на русских данных, без разметки полученной с помощью разметчиков? Не 100% способ, но хотя бы на 60-70% который отражал бы правду
Насколько сложно разметить для себя хотя бы сотню тестовых примеров?
химические данные, без разметчиков никак, они есть, но задача не приоритет сейчас, поэтому вызвать их здесь и сейчас не могу
Я бы, если честно, таки попробовал создать разметку непосредственно для русского языка. Вариант 1: сесть и самому разметить небольшую выборку. Вариант 2: перевести размеченные данные с английского на русский, потом для каждой сущности в английском тексте найти аналог в русском переводе, и перенести разметку на эти аналоги.
Пример первой попавшейся статьи, где вариант 2 разбирают https://aclanthology.org/D19-1100/
А потом попробовать эту разметку скормить в качестве примеров для чатгпт и посмотреть что у неё получится
Обсуждают сегодня