шаблонная, но в получаемом тексте html куча всяких знаков непечатаемых, отступы, табы и тд. А мне хотелось бы получить просто очень простое AST. перепробовал parse5 , htmlparser2 - даже с опциями удаления лишних пробелов часть каких-то невидимых символов распознаются как текстовые ноды. нет ли простой и надёжной тулзы распарсить док и получить минимум необходимого - тег, атрибуты, внутренний текст и дети ?
А нет другого решения? Например сайт собирается вызовами API и проще не парсить сайт а дампить вызовы API
Обсуждают сегодня