170 похожих чатов

Всем привет. Есть два вопроса на понимание по берту. Вопросы

не простые, но надеюсь смогу донести.
Собственно задача такова: есть текст и нужно предсказать пунктуацию в нём. Смог найти готовое решение для этого https://github.com/nkrnrnk/BertPunc.
Сначала вкратце объясню логику автора. Для каждого слова присваивается один из четырёх токенов - Other (0), PERIOD (1), COMMA(2), QUESTION (3). Далее все слова переводятся в токены берта. Не знаю понятно ли объяснил, поэтому вот пример:
2045 0
2003 0
2200 0
2210 0
3983 0
2301 0
2974 0
1999 0
2068 2
Далее осуществляется хитрый padding: задаётся сегмент (пусть будет восемь слов) и для каждого слова берётся два слова перед и четыре слова после, плюс сразу же после слова пихается padding токен. Понятное дело что для самого первого слова нет слов до. Поэтому для него берутся слова с конца. Аналогично, для последнего слова нет слов после и поэтому берутся слова с начала.
В первом столбце идут токены слов, а во втором столбце знаки пунктуации. '0' соответствует other, а '2' соответствует точки.
После padding получим следующее:
[1999, 2068, 2045, 0, 2003, 2200, 2210, 3983] 0
[2068, 2045, 2003, 0, 2200, 2210, 3983, 2301] 0
[2045, 2003, 2200, 0, 2210, 3983, 2301, 2974] 0
[2003, 2200, 2210, 0, 3983, 2301, 2974, 1999] 0
[2200, 2210, 3983, 0, 2301, 2974, 1999, 2068] 0
[2210, 3983, 2301, 0, 2974, 1999, 2068, 2045] 0
[3983, 2301, 2974, 0, 1999, 2068, 2045, 2003] 0
[2301, 2974, 1999, 0, 2068, 2045, 2003, 2200] 0
[2974, 1999, 2068, 0, 2045, 2003, 2200, 2210] 2
Напомню что в брете 0 соответствует padding. Далее из этого дела делаем TensorDataset, затем DataLoader и начинаем обучать:
for inputs, labels in data_loader_train:
inputs, labels = inputs.cuda(), labels.cuda()
output = model(inputs)

Алгоритм работает хорошо, но я не понимаю следующее:
1) Почему padding был осуществлён именно таким образов? Какой смысл ставить падинг в середине? Можно ли обойтись без него?
2) Автор использует в качестве модели BertForMaskedLM. Я думал что эта модель нужна исключительно для маскинга. А у нас даже нет MASK токенов. Скажите, я бы мог использовать вместо этой модели например просто BertModel?

1 ответов

14 просмотров

1) Вероятно, мы смотрим, предскажет ли берт запятую на месте паддинга. Он как раз на такой задаче обучался 2) У нас и есть masked lm, только вместо маски паддинг. Может, там маска должна быть?

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта