и сериализацию обратно в строку.
И чтобы отлавливало отсуствие закрывающего тега и закрывало его в идеале.
Посмотрел несколько либ, то одного не хватает то другого 🤦♀️ то теги ищет по строгому соответствию 😂 ("div" <> "DIV") хоть вручную делай 😂😂😂
Может кто сталкивался?
берешь это: https://www.html-tidy.org/developer/ делаешь биндинги: https://medium.com/dwelo-r-d/using-c-libraries-in-rust-13961948c72a https://medium.com/dwelo-r-d/wrapping-unsafe-c-libraries-in-rust-d75aeb283c65 прогоняешь свою строку с битым html через html tidy, дальше выхлоп парсишь своим любимым парсером
Спасибо. Если есть путь прямее, также сильно обрадуюсь 😂
в твоей задаче даже не надо весь libtidy апи заворачивать (а он там богатый), достаточно только функций, используемых в Sample Program
Я уже изучаю, вижу tidyCleanAndRepair()... Думал, честно говоря что что-то подобное уже наши написали родное, просто я в крейтах не докопался до нужной либы пока ...
Ну как простой вариант - запускать htmltidy, где-то видел и такое
Это гемор. Я из базы SQL дергаю поля, чиню, правлю и обоатно кладу. Хочу простую cli запилить чтобы потом оениться в полный рост.
Сделал нативно, допилил напильником чью-то */domx с github чтобы мутабельное дерево обрабатывать. Забираю из MySQL базы поля с контентом, чиню, заменяю ссылки href и src на нужные префиксы и кладу обратно. Смех в том, что на сайте обнаружилась тонна скрытых div со ссылками на всякое говно - короче сайт ломанули давно, дыры закрыли а мусор остался. Соответственно добавил зачистку скрытых div у которых в style есть "hidden;". Особо оптимизацией не заморачивался тк это была разовая акция но вышло норм, все ссылки починились, картинки показываются. Спасибо!
Обсуждают сегодня