Привет! Мне нужно проверить нет ли в тексте недопустимых html-тегов.

Question

Привет! Мне нужно проверить нет ли в тексте недопустимых html-тегов.

Я допёр пока только до такой регулярки:
<(p|span|em|strong|ol|ul|li)(\s.*?)?>
. Она находит те теги, которые можно. Осталось как-то инвертировать эти теги и все будет работать. Помогите пожалуйста, как это сделать?
https://regex101.com/r/gV1EQQ/1

#backend #dot #programming #russian

0

24.02.2021

15 ответов

24 просмотра

Andrew Shurunov

Совет: не используй регулярки для парсинга html) Я ведь могу например написать <a url="<notAllowedTag/>"/> и твоя прога будет говорить, мол, недопустимый тег

0

24.02.2021

SomebodyOdd

А может лучше список допустимых тегов, и не регулярками, а предназначенными для этого инструментами? https://github.com/mganss/HtmlSanitizer

0

24.02.2021

Misho

Andrew Shurunov
Совет: не используй регулярки для парсинга html) Я...

эту задачу можно отнести к парсингу?

0

24.02.2021

Alex Автор вопроса

Andrew Shurunov
Совет: не используй регулярки для парсинга html) Я...

У меня на сайте есть встроенный редактор текста, с помощью него можно максимум сделать текст жирным и сделать нумерованный список. Там по идее не должно быть таких случаев

0

24.02.2021

Andrew Shurunov

Misho
эту задачу можно отнести к парсингу?

Да

0

24.02.2021

Alex Автор вопроса

SomebodyOdd
А может лучше список допустимых тегов, и не регуля...

Хмм, сейчас гляну, но что-то мне неохота для такой задачки либу тянуть

0

24.02.2021

Andrew Shurunov

Alex
У меня на сайте есть встроенный редактор текста, с...

Иногда регулярки можно юзать для html, если задача совсем простая. Но часто на такие вопросы кидают культовый ответ: https://stackoverflow.com/a/1732454/5055884

0

24.02.2021

SomebodyOdd

Alex
Хмм, сейчас гляну, но что-то мне неохота для такой...

А парсить иерархические структуры не предназначенными для этого регулярками - это, значит, хочется? =)

0

24.02.2021

Alex Автор вопроса

Andrew Shurunov
Иногда регулярки можно юзать для html, если задача...

Ого там сердечек сколько

0

24.02.2021

Alex Автор вопроса

SomebodyOdd
А парсить иерархические структуры не предназначенн...

А мне и не надо иерархическую структуру парсить))

0

24.02.2021

SomebodyOdd

Alex
А мне и не надо иерархическую структуру парсить))

Судя по описанию редактора - надо предотвратить нехорошие теги в том, что приходит потом бекенду. Это регулярками надёжно не закрывается - либо будет пропускать, либо будет ложно срабатывать. Пожалуйста, ради рассудка того, кто потом будет это кроме вас читать и поддерживать, притяните либу и не страдайте регулярками для html =)

0

24.02.2021

Alex Автор вопроса

SomebodyOdd
Судя по описанию редактора - надо предотвратить не...

Хорошо, спасибо за совет, сейчас посмотрю что там за либа))

0

24.02.2021

Andrew Shurunov

Alex
Хорошо, спасибо за совет, сейчас посмотрю что там ...

Простой System.Xml.Document справится Им правда не очень удобно пользоваться, так что лучше глянь либу

0

24.02.2021