170 похожих чатов

Всем привет! Такой вопрос, задача NER - необходимо создать мультиязычную

модель для распознавания сущностей в текстах. На английском языке данные есть, мультиязычная модель обучена, работает хорошо, также она работает на русском языке хорошо (хуже чем на англ но все же). Вроде работает, но качество на русском языке я замерить не могу, т.к. нет разметки на нем, есть просто сырые данные без разметки. Была идея разметить их с помощью chatgpt, и дообучить модель на небольшом количестве русских данных, таким образом посчитав необходимые метрики, но gpt размечает не всё и ориентироваться на эти данные в тесте, а тем более переобучать модель под них - слишком глупо, мало размеченных сущностей. Может быть объединить предсказания от мультиязычной модели и GPT и считать это за правду, и переобучить модель на этом, посчитав тест. Как считаете как лучше поступить здесь? Какой будет самый правильный способ посчитать метрики на русских данных, без разметки полученной с помощью разметчиков? Не 100% способ, но хотя бы на 60-70% который отражал бы правду

5 ответов

19 просмотров

Насколько сложно разметить для себя хотя бы сотню тестовых примеров?

Александр- Автор вопроса
Sergey Ustyantsev
Насколько сложно разметить для себя хотя бы сотню ...

химические данные, без разметчиков никак, они есть, но задача не приоритет сейчас, поэтому вызвать их здесь и сейчас не могу

Я бы, если честно, таки попробовал создать разметку непосредственно для русского языка. Вариант 1: сесть и самому разметить небольшую выборку. Вариант 2: перевести размеченные данные с английского на русский, потом для каждой сущности в английском тексте найти аналог в русском переводе, и перенести разметку на эти аналоги.

David Dalé
Я бы, если честно, таки попробовал создать разметк...

Пример первой попавшейся статьи, где вариант 2 разбирают https://aclanthology.org/D19-1100/

David Dalé
Я бы, если честно, таки попробовал создать разметк...

А потом попробовать эту разметку скормить в качестве примеров для чатгпт и посмотреть что у неё получится

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта