p = len(tok.tokenize(xml.getElementsByTagName('dc:description')[1].firstChild.data))
return p
Ф-ция для парсинга текста и преобразования в массив слов, но оно учитывает знаки препинания. Не знаете ф-цию, с помощью которой можно будет игнорировать знаки препинания?
Т.к. цели и задачи не ясны, то: 1. Написать свою 2. Почикать заранее знаки препинания в тексте
Убирать знаки нельзя. Над функцией сижу уже 5 часов (мозг кипит)
сделай шонить типа tokenz = tok.tokenize(xml.getElementsByTagName('dc:description')[1].firstChild.data) а потом из этого набора удали знаки препинания ну а потом считай сколько у тебя там слов осталось
Обсуждают сегодня