знаков пунктуации. Я его просил сделать это регуляркой, GPT предоставил парочку решений и это было одно из них. Вполне приемлемое, так как текстов много и многие слова повторяются со знаками и без
punctuation_symbols = "!\"#$%&'()*+,-./:;<=>?@[\\]^_`{|}~1234567890"
cleaned_word = ''.join(char for char in word if char not in punctuation_symbols)
а я всегда думал что знаки пунктуации это .,!?
А как же «» и ¿
по русскому 4 было
во, вот это я пропустил, надо добавить на всякий случай, в тестах только латинские ""
Про юникод чатгпт видимо никто не рассказал
Просто выкинуть эту регулярку в помойку и написать нормальную, с юникодными категориями
в приведенном примере нет регулярки GPT предлагает такое решение, если какой-либо знак пунктуации присутствует, то игнорируй это слово. Я потому и поставил смайлик ржаки 😆
Я забыл, второй же вроде арабы применяют вместо нормального знака вопроса?
¿Donde escuchaste esto?
а еще ?
вроде в греческом используеться,если не ошибаюсь.
Обсуждают сегодня