170 похожих чатов

Ребята, какой наиболее универсальных подход к чистке контекста от

не цифр и от небуквенных символов? В стеке SpaCy, подумали о проверке через token.is_alpha но это выкинет и токены с цифрами. Грубо говоря нужно убивать '1ый!$#& переулок д!!!!2%', но не '1ый переулок д2' пусть пример вас не смущает, в нашей задаче это не NER'ы

5 ответов

14 просмотров

token.isalnum? :D

Artyom-Artyom Автор вопроса

что то не вижу такого поля или метода у токена)

https://docs.python.org/3/library/stdtypes.html?highlight=isalnum#str.isalnum

возможно, не самый элегантный способ, но если известен конечный набор того, от чего надо очистить, то: import string #print(string.punctuation) # ← здесь дефолтные фильтры, их не оч много. spec_chars = string.punctuation + '\n\xa0«»\t—…' clean_text = " ".join([ch for ch in text if ch not in spec_chars])

Artyom-Artyom Автор вопроса

Спасибо, я смотрел примерно в эту сторону, но тоже подумал что может есть что то элегантнее. @YallenGusev вот и подсказал что следовало бы в стандартную библиотеку заглядывать))

Похожие вопросы

Обсуждают сегодня

Мужики и девушки, привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных...
Kraszx
14
Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
как быть с принтером? такой подход прокатит?
zamtmn
12
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
А вот это что за конструкция? Вернее, она тут нафига?
Serjone
10
Привет. Подскажите, как правильно сматчить лист фиксированного размера, чтобы компилятор не говорил мне о неполном паттерне? Допустим что-то такое [x', y'] = sort [x, y]?
Arseny
8
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
Мужики. привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных элементов...
Kraszx
2
Карта сайта