оставить только для гугл.
Сейчас я получаю имя хоста с помощью функции gethostbyaddr, а потом ищу там слово гугл в названии.
После проверяю принадлежность ip к имени хоста. Делаю запрос ip по имени хоста (с мощью функции gethostbyname).
Проверяю ip бота, а потом ip от функции gethostbyname
Если ip оказался одинаковым, то запрос идет дальше
Я не уверен, что это достаточно.
Возможно, кто-то сталкивался с подобной задачей ?
У меня есть предположение, что лучше переложить эту задачу на сервис типа cloudflare, но это лишние расходы
Найди в гугл ip его ботов и фильтруй
robots.txt не катит?
я нашел вот эту ссылку https://developers.google.com/search/apis/ipranges/googlebot.json , но на практике оказалась что этот список не полный
https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot
Если ограничить именно поисковики то robots.txt.
Поисковики через robots.txt, парсеры через условную мидлварь или фильтр на уровне веб-сервера / WAF / DDoS itc
В robots просто прокинь правила и все. Адреса гугла все открыты и известны
Не знаю насколько поможет, но я бы начал ограничение через гугловый dns
Обсуждают сегодня