\w+\s\w+
import re test = "Почему, собственно, нельзя это обсуждать во флудилке?" print(re.split('\w+\s\w+', test)) # ['Почему, собственно, ', ' ', ' флудилке?']
ебучие регулярки. никак понять их не могу
или даже так https://regex101.com/r/CvQ7Lw/2
And we have the winner! match = re.findall('(\S+\s+\S+|\S+\s*$)(?:\s*)', test) print(match) # ['Почему, собственно,', 'нельзя это', 'обсуждать во', 'флудилке?']
попробуй моё последнее, оно вроде как самое короткое из моих вариантов и не берёт пробелы в конце
(\S+(?:\s+\S+)?)(?:\s*)
А сейчас танцуем! А сейчас танцуем! import re from itertools import zip_longest import timeit test = "Почему, собственно, нельзя это обсуждать во флудилке?" def test1(string): return re.findall('(\S+(?:\s+\S+)?)(?:\s*)', string) def test2(string): words = string.split() return [' '.join(pair) for pair in zip_longest(words[::2], words[1::2], fillvalue='')] print(timeit.timeit(lambda: test1(test))) # 1.6342546000087168 print(timeit.timeit(lambda: test2(test))) # 1.2360357999859843
отлично, а если пробелов несколько?
кстати проверь \S+(?:\s+\S+)?
я сделал вот так test = "Почему, собственно, нельзя это обсуждать во флудилке?" * 80 и получилось 68.76408419999643 44.27660620000097 Пока отойду, мне некогда уже.
ЧТо-то оч оч грусно выполняется кож
У меня база данных в ней 22640 строк и я их обрабатываю так вот 22640 - это строка в каждой строке свое колличество слов, я их разбиваю, прохожусь по ним, записываю в бд и записываю коунтер, И все это заняло у меня 2022-04-25 17:02:17.490561 2022-04-25 18:24:38.848495 1 hours, 22 min 21 sec. [Finished in 4941.6s]
Всего 210808 слов обрабатывает мой код. и вносит в бд за 1 hours, 22 min 21 sec.
Не понял с чего так долго
Потому что 1) получаю 22640 - tuple значений 2) 22640 разбиваются на str 3) str разбивается в list 4) получаю количество значение в list 5) Через for in прохожу по пункту 4 6) получение слова вносятся и присваивается count
Может руками считал
Ммм код что ли скинь ..
Обсуждают сегодня