Def num_words(file): xml = minidom.parse(file) tok = WordPunctTokenizer()

Question

Def num_words(file): xml = minidom.parse(file) tok = WordPunctTokenizer()

p = len(tok.tokenize(xml.getElementsByTagName('dc:description')[1].firstChild.data))
return p

Ф-ция для парсинга текста и преобразования в массив слов, но оно учитывает знаки препинания. Не знаете ф-цию, с помощью которой можно будет игнорировать знаки препинания?

#programming #python #russian

0

30.05.2022

4 ответов

28 просмотров

Макс ꑭ 🇺🇦 Автор вопроса

Andrey Denisov
Т.к. цели и задачи не ясны, то: 1. Написать свою 2...

Убирать знаки нельзя. Над функцией сижу уже 5 часов (мозг кипит)

0

30.05.2022

Andrew Dakhnovsky

сделай шонить типа tokenz = tok.tokenize(xml.getElementsByTagName('dc:description')[1].firstChild.data) а потом из этого набора удали знаки препинания ну а потом считай сколько у тебя там слов осталось

0

30.05.2022

Макс ꑭ 🇺🇦 Автор вопроса

Andrew Dakhnovsky
сделай шонить типа tokenz = tok.tokenize(xml.getE...

Спасибо

0

30.05.2022

Andrey Denisov · Accepted Answer

Andrey Denisov

Т.к. цели и задачи не ясны, то: 1. Написать свою 2. Почикать заранее знаки препинания в тексте

0

30.05.2022

169 похожих чатов

Def num_words(file): xml = minidom.parse(file) tok = WordPunctTokenizer()

4 ответов

Похожие вопросы