образом, что в каждом семпле есть хотя бы одна сущность, норм ли формировать датасет, включающий в себя семплы совсем без сущностей в том числе?
Не вижу никакой принципиальной проблемы, лишь бы это отвечало предполагаемому сценарию использования (то есть при применении модели тоже будут часто встречаться предложения без сущностей).
Обсуждают сегодня