подстроку в выдаче не показывать?
Пример: делаю парсинг страницы википедии, нужны ссылки типа '/wiki/%D0%A1%D0%B0%D0%B4', но при этом '/wiki/' выводить не нужно.
Делаю через BeautifulSoup:
from bs4 import BeautifulSoup as BS
soup = BS(html_page, 'html.parser')
links = [a.get('href') for a in soup.find_all(href=re.compile('(?<=^\/wiki\/).*'))]
но в итоге всё равно выводятся ссылки '/wiki/%D0%A1%D0%B0%D0%B4', хотя выражение (?<=^\/wiki\/) должно исключить эту часть ссылки. Что делаю не так?
re.search('/wiki/(.*)')
Зачем так сложно? a.get('href’)[6:]
Обсуждают сегодня