Ребят привет. подскажите, пытаюсь сайт парсить, схема абсолютно простая, верстка

Question

Ребят привет. подскажите, пытаюсь сайт парсить, схема абсолютно простая, верстка

шаблонная, но в получаемом тексте html куча всяких знаков непечатаемых, отступы, табы и тд. А мне хотелось бы получить просто очень простое AST. перепробовал parse5 , htmlparser2 - даже с опциями удаления лишних пробелов часть каких-то невидимых символов распознаются как текстовые ноды. нет ли простой и надёжной тулзы распарсить док и получить минимум необходимого - тег, атрибуты, внутренний текст и дети ?

#backend #javascript #node.js #programming #russian

0

01.03.2019

1 ответов

49 просмотров

Oleg Elifantiev · Accepted Answer

Oleg Elifantiev

А нет другого решения? Например сайт собирается вызовами API и проще не парсить сайт а дампить вызовы API

0

01.03.2019

170 похожих чатов

Ребят привет. подскажите, пытаюсь сайт парсить, схема абсолютно простая, верстка

1 ответов

Похожие вопросы