170 похожих чатов

Возможно, кто-то работал с token classification для японского языка? Я по

классике использовала transformers. Взяла roberta-xml, т.к. там удобная токенизация и можно нормально делать alignment по оффсетам. Но результат так себе. То есть не плохой, но по ощущениям если бы была чисто японская языковая модель, а не мультиязычная - результат был бы процентов на 10 лучше. Хочется взять какой-то BERT, заточенный чисто под японский язык. Но при этом чтобы можно было сделать alignment лэйблов, а то с wordpiece токенизацией не понятно как это можно сделать.

4 ответов

9 просмотров
Майя- Автор вопроса

Та парсинг документов, кастомные entities извлекать. Разметка на уровне оффсетов

Майя- Автор вопроса

Проблема в tokenizer, хотелось бы чтобы он возвращал оффсеты, но чисто японские модели с их токенайзерами, на huggingface оффсеты не возвращают, а мультиязычные по качеству оставляют желать лучшего

Майя
Та парсинг документов, кастомные entities извлекат...

Ну я бы танцевал от основной задачи. Потому как в японском намного проще грамматический разбор, перплексия крайне низкая. И хоть и два алфавита, но катакана используется в строго определенных случаях. Где-то у меня была моделька ner и парсер зависимостей на этот прекрасный язык. Надо поискать.

Майя
Проблема в tokenizer, хотелось бы чтобы он возвращ...

BertTokenizer в hf (и некоторые другие токенайзеры тоже) поддерживает получение строки, уже кем-то разбитого на слова (is_split_into_words=True),и соответственно запоминает word_ids для токенов. А в "чисто японских моделях" какой токенайзер используется? SentencePiece?

Похожие вопросы

Обсуждают сегодня

Ещё такой вопрос. Мне необходимо хранить пароль пользователя локально. Для этого планирую использовать ini файл. Это для автозаполнения полей логин и пароль при авторизации. Е...
Евгений
19
Всем привет, написал код ниже, но он выдает сегфолт, в чем причина? #include <stdio.h> #include <stdlib.h> #include <string.h> struct product { char *name; float price; };...
buzz базз
75
Hi guys, I'm looking for a good LLM course. Is there any course to learn LLMs in advanced? I'm aiming to use them in my apps, so a perfect course in my openion, is not only a ...
Taha
14
А как лучше конвертировать физический адрес в виртуальный при маппинге? В случае ядра у меня, например, direct mapping, первые 768МБ я как есть мапплю в higher half, а остальн...
Evg Resh
26
База данных не поможет. Шифрование не поможет. Какие там ещё варианты? Накидывайте.
КТ315
20
А табстоп это сообщение от окна или от элемента управления?
The Bird of Hermes
18
Всем привет. Подскажите, пожалуйста, как вы реализовываете следующий функционал. Допустим есть форма, в которой имеется выпадающий список со значениями. Значения хранятся в БД...
Евгений
7
Хех, данные на форме всегда будут "из прошлого", т.к. перезаполнять поля формы в процессе редактирования пользователем - так себе идея. Пользователь может открыть форму редакт...
Alexander Somov
7
$params = [ 'formid' => 'feedbackForm', 'formTpl' => '@CODE: <form class="form-validate" data-id="ajax_form"> <fieldset class="margin-bottom-md"> ...
Pathologic
1
Хотел бы спросить у знающих, правильную ли я выбрал книгу для начала изучения ассемблера Юрова В.И ? Или есть более лучшие книги для начала обучения?
Botsman
31
Карта сайта