разделить человеческий текст на слова? то есть не только на пробелы, но так же убрать знаки препинания, кавычки и вот это вот всё
скорее уж на токены тогда, гуглить text tokenization
о, точно, сразу результаты в гугле попёрли, спасибо!!
ntlk можно какой-нибудь
да, я кстати в итоге так и сделал — с помощью питона токенезировал тексты, схоронил как джейсоны и из раста уже их загружаю :)
Обсуждают сегодня