data = f.read().splitlines()
print(data[0:99])
for element in data[0:99]:
m = findall((r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', element))
if m:
Ты на мой вопрос так и не ответил. Как ты дальше юзаешь результаты поиска?
with open('temp.txt') as f: data = f.read().splitlines() print(data[0:99]) for element in data[0:99]: m = findall((r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', element) if m: from unalix import unshort_url url = element element = ('-'.join(unshort_url(url).split('?')[:-1]))
То есть, ты нашел ссылки и не юзаешь?
import re with open('temp.txt') as f: data = f.read() urls = re.findall(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', data) for url in urls: print(f'Finded url: {url}') За регулярку хз, у тебя копировал
Обсуждают сегодня