江山代有才人出,各领风骚数百年。
这段时间看到要给骚客,通过伪静态设置仅蜘蛛可以抓取,垃圾蜘蛛返回403,游客返回503的代码。
用到这样的伪静态几乎无解,游客啥也看不到。
if ($http_user_agent ~* (SemrushBot|DotBot|HttpClient|MJ12bot|SemrushBot|Barkrowler|AhrefsBot|PetalBot|BLEXBot|SM-G900P|Googlebot|Bytespider)) { return 403;} set $return_status true; if ($http_user_agent !~* "Baidu|sogou") { set $return_status false;} if ($remote_addr ~* "127.0.0.1|127.0.0.2") { set $return_status true;} if ($return_status = false) { return 503;}
有朋友还问,有一些页面,游客点击了就跳转,模拟蜘蛛无论如何也看不到页面内容,这是为什么?
可能这种页面设置了禁止PC抓取,所以模拟的PC蜘蛛过去啥也抓不到。然后他是通过PHP进行跳转的,就算你禁止了网页加载JS,也正常跳转。
本站所有内容仅限用于学习和研究目的,程序仅供本地断网测试,转载请说明出处!
站群SEO » 通过伪静态对垃圾蜘蛛返回403,对游客返回503的设置方法
站群SEO » 通过伪静态对垃圾蜘蛛返回403,对游客返回503的设置方法