170 похожих чатов

Всем привет! Такой вопрос, задача NER - необходимо создать мультиязычную

модель для распознавания сущностей в текстах. На английском языке данные есть, мультиязычная модель обучена, работает хорошо, также она работает на русском языке хорошо (хуже чем на англ но все же). Вроде работает, но качество на русском языке я замерить не могу, т.к. нет разметки на нем, есть просто сырые данные без разметки. Была идея разметить их с помощью chatgpt, и дообучить модель на небольшом количестве русских данных, таким образом посчитав необходимые метрики, но gpt размечает не всё и ориентироваться на эти данные в тесте, а тем более переобучать модель под них - слишком глупо, мало размеченных сущностей. Может быть объединить предсказания от мультиязычной модели и GPT и считать это за правду, и переобучить модель на этом, посчитав тест. Как считаете как лучше поступить здесь? Какой будет самый правильный способ посчитать метрики на русских данных, без разметки полученной с помощью разметчиков? Не 100% способ, но хотя бы на 60-70% который отражал бы правду

5 ответов

16 просмотров

Насколько сложно разметить для себя хотя бы сотню тестовых примеров?

Александр- Автор вопроса
Sergey Ustyantsev
Насколько сложно разметить для себя хотя бы сотню ...

химические данные, без разметчиков никак, они есть, но задача не приоритет сейчас, поэтому вызвать их здесь и сейчас не могу

Я бы, если честно, таки попробовал создать разметку непосредственно для русского языка. Вариант 1: сесть и самому разметить небольшую выборку. Вариант 2: перевести размеченные данные с английского на русский, потом для каждой сущности в английском тексте найти аналог в русском переводе, и перенести разметку на эти аналоги.

David Dalé
Я бы, если честно, таки попробовал создать разметк...

Пример первой попавшейся статьи, где вариант 2 разбирают https://aclanthology.org/D19-1100/

David Dalé
Я бы, если честно, таки попробовал создать разметк...

А потом попробовать эту разметку скормить в качестве примеров для чатгпт и посмотреть что у неё получится

Похожие вопросы

Обсуждают сегодня

Мужики и девушки, привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных...
Kraszx
14
Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
А вот это что за конструкция? Вернее, она тут нафига?
Serjone
10
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
Мужики. привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных элементов...
Kraszx
2
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
я так понимаю, я так подозреваю, что создание такого плагина для человека, кто умеет писать плагины для делфи потребует минут 5-10 времени. но это мое подозрение. хотелось бы ...
Kraszx
7
Всем привет! Кто пользуется DevExpress, подскажите пожалуйста, реализован ли в TcxGrid в новых версиях поиск по датам как в Экселе (ну т.е. не просто список чекбоксов со значе...
A Z
4
Карта сайта