на повторяющиеся пробелы, табы итд, можно не чистить?
Проверил за тебя. BertTokenizer сначала заменяет все "пробельные символы" на пробелы, потом просто сплитит текст по пробелам, и под конец разбивает получившиеся куски по пунктуации. Поэтому повторяющиеся пробелы можно не чистить, а вот пробелы посреди слов было бы неплохо удалить.
Обсуждают сегодня