с заглавной буквы использует отдельный токен перед словом? Вообще скорее просто интересно на ресерч на тему разных хаков в токенизерах посмотреть, и насколько они осмысленны (почему никто про это не парится при обучении больших моделей?). Посоветуйте каких-нибудь статей?
Вообще ресёрч на эту тему есть и идёт, но, как я понимаю, на больших масштабах всё становится просто сложнее.
парятся, почему. просто это не такая тривиальная задача как может показаться на первый взгляд. зависит от языка. и нередко требует понимания текста уже(например морфологического разбора текста). т.е. получается классическое курица-яйцо.
не про русский, а так, общий обзор word segmentation для разных языков из курса Neubig-a http://phontron.com/class/anlp2021/assets/slides/anlp-12-wordseg-morphology.pdf
Обсуждают сегодня