меня должен быть <class 'bs4.BeautifulSoup'> .
Когда я добавляю .encode() и .decode() , этот тип у меня преобразуется в строку.
Как после вышеуказанных манипуляций произвести обратное преобразование (но так чтобы кодировка была "utf-8")?
Не трогай encode и decode
А как мне быть, если я изначально имею дело с кодировкой windows-1251 , а мне нужна кодировка utf-8 ?
Как преобразовать тогда правильно?
Зачем тебе utf-8 и почему ты решил что она нужна?
Потому что с utf-8 у меня данные все нормально отображаются. И вообще по мнению многих кодеров указанная кодировка считается best of the best
Так, появилось какой-то о отражение
Давай-ка разделять входные данные (тут важна входная кодировка), данные с которыми ты работаешь (тут никаких кодировок нет) и вывод куда-то (в зависимости от способа вывода кодировка имеет смысл или нет)
Ну подскажи тогда другой способ перевода имеющейся кодировки в другую, который по твоему мнению лучше...
Давай ты для начала расскажешь где именно и при каких условиях ты наблюдаешь проблемы с кодировкой
Изначально кириллические данные у меня некорректно отображались
Не нужно никакого перевода из одной кодировки в другую. Нужно понять где какая используется и использовать в каждом месте одну
https://t.me/ru_python/2105583 Я это для чего писал?
Ну тут возможны две проблемы: 1. Проблема на входе 2. Проблема на выходе
Ну разумеется. Но неужели нельзя сохранить мою кодировку, но при этом, чтобы тип был таким, чтобы можно было применить к нему нужные методы и получить на выходе нужный результат?
Ничего не понял, все работает не так, а как я сказал выше
Подсказка 1: в ответе сервера приходят байты, которые можно интерпретировать как душе угодно
При том обычно в этих байтах содержится информация о кодировке
Мне надо спарсить страницу. На странице кодировка windows-1251 . Мне нужно каким-то образом преобразовать эту кодировку в utf-8 , но так, чтобы конечный тип данных позволял мне применять методы find() и find_all() от BeautifulSoup
Или не в этих, а рядом...
Зачем тебе её преобразовывать в utf8? Откуда ты это взял?
Откуда фантазия про utf-8 взялась?
Ну конкретно в HTML оно содержится внутри <head>
Да, но может быть в заголовках и не быть в html. Или вообще нигде.
Обсуждают сегодня