не простые, но надеюсь смогу донести.
Собственно задача такова: есть текст и нужно предсказать пунктуацию в нём. Смог найти готовое решение для этого https://github.com/nkrnrnk/BertPunc.
Сначала вкратце объясню логику автора. Для каждого слова присваивается один из четырёх токенов - Other (0), PERIOD (1), COMMA(2), QUESTION (3). Далее все слова переводятся в токены берта. Не знаю понятно ли объяснил, поэтому вот пример:
2045 0
2003 0
2200 0
2210 0
3983 0
2301 0
2974 0
1999 0
2068 2
Далее осуществляется хитрый padding: задаётся сегмент (пусть будет восемь слов) и для каждого слова берётся два слова перед и четыре слова после, плюс сразу же после слова пихается padding токен. Понятное дело что для самого первого слова нет слов до. Поэтому для него берутся слова с конца. Аналогично, для последнего слова нет слов после и поэтому берутся слова с начала.
В первом столбце идут токены слов, а во втором столбце знаки пунктуации. '0' соответствует other, а '2' соответствует точки.
После padding получим следующее:
[1999, 2068, 2045, 0, 2003, 2200, 2210, 3983] 0
[2068, 2045, 2003, 0, 2200, 2210, 3983, 2301] 0
[2045, 2003, 2200, 0, 2210, 3983, 2301, 2974] 0
[2003, 2200, 2210, 0, 3983, 2301, 2974, 1999] 0
[2200, 2210, 3983, 0, 2301, 2974, 1999, 2068] 0
[2210, 3983, 2301, 0, 2974, 1999, 2068, 2045] 0
[3983, 2301, 2974, 0, 1999, 2068, 2045, 2003] 0
[2301, 2974, 1999, 0, 2068, 2045, 2003, 2200] 0
[2974, 1999, 2068, 0, 2045, 2003, 2200, 2210] 2
Напомню что в брете 0 соответствует padding. Далее из этого дела делаем TensorDataset, затем DataLoader и начинаем обучать:
for inputs, labels in data_loader_train:
inputs, labels = inputs.cuda(), labels.cuda()
output = model(inputs)
Алгоритм работает хорошо, но я не понимаю следующее:
1) Почему padding был осуществлён именно таким образов? Какой смысл ставить падинг в середине? Можно ли обойтись без него?
2) Автор использует в качестве модели BertForMaskedLM. Я думал что эта модель нужна исключительно для маскинга. А у нас даже нет MASK токенов. Скажите, я бы мог использовать вместо этой модели например просто BertModel?
1) Вероятно, мы смотрим, предскажет ли берт запятую на месте паддинга. Он как раз на такой задаче обучался 2) У нас и есть masked lm, только вместо маски паддинг. Может, там маска должна быть?
Обсуждают сегодня