172 похожих чатов

Подскажите библиотеку и пример парсинга HTML из String, редактирования тега

и сериализацию обратно в строку.

И чтобы отлавливало отсуствие закрывающего тега и закрывало его в идеале.

Посмотрел несколько либ, то одного не хватает то другого 🤦‍♀️ то теги ищет по строгому соответствию 😂 ("div" <> "DIV") хоть вручную делай 😂😂😂

Может кто сталкивался?

7 ответов

10 просмотров

берешь это: https://www.html-tidy.org/developer/ делаешь биндинги: https://medium.com/dwelo-r-d/using-c-libraries-in-rust-13961948c72a https://medium.com/dwelo-r-d/wrapping-unsafe-c-libraries-in-rust-d75aeb283c65 прогоняешь свою строку с битым html через html tidy, дальше выхлоп парсишь своим любимым парсером

Valeriy-Grazhdankin Автор вопроса
Marat
берешь это: https://www.html-tidy.org/developer/ ...

Спасибо. Если есть путь прямее, также сильно обрадуюсь 😂

Valeriy Grazhdankin
Спасибо. Если есть путь прямее, также сильно обрад...

в твоей задаче даже не надо весь libtidy апи заворачивать (а он там богатый), достаточно только функций, используемых в Sample Program

Valeriy-Grazhdankin Автор вопроса
Marat
в твоей задаче даже не надо весь libtidy апи завор...

Я уже изучаю, вижу tidyCleanAndRepair()... Думал, честно говоря что что-то подобное уже наши написали родное, просто я в крейтах не докопался до нужной либы пока ...

Valeriy Grazhdankin
Я уже изучаю, вижу tidyCleanAndRepair()... Думал, ...

Ну как простой вариант - запускать htmltidy, где-то видел и такое

Valeriy-Grazhdankin Автор вопроса
Marat
Ну как простой вариант - запускать htmltidy, где-т...

Это гемор. Я из базы SQL дергаю поля, чиню, правлю и обоатно кладу. Хочу простую cli запилить чтобы потом оениться в полный рост.

Valeriy-Grazhdankin Автор вопроса
Marat
в твоей задаче даже не надо весь libtidy апи завор...

Сделал нативно, допилил напильником чью-то */domx с github чтобы мутабельное дерево обрабатывать. Забираю из MySQL базы поля с контентом, чиню, заменяю ссылки href и src на нужные префиксы и кладу обратно. Смех в том, что на сайте обнаружилась тонна скрытых div со ссылками на всякое говно - короче сайт ломанули давно, дыры закрыли а мусор остался. Соответственно добавил зачистку скрытых div у которых в style есть "hidden;". Особо оптимизацией не заморачивался тк это была разовая акция но вышло норм, все ссылки починились, картинки показываются. Спасибо!

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Карта сайта