Nginx设置屏蔽Bytespider垃圾蜘蛛

字节跳动蜘蛛Bytespider每日过分抓取我们的网站内容,公然不遵守robots协议,致使服务器高负载状态,下面就教大家如何设置Nginx。

如上图所示,第一种对于不遵守robots协议无效;第二种亲测非常有效;第三种容易误伤;第四种系统版本不一定有效。

本次只讲第二种,步骤如下:

① 打开宝塔面板,点击网站 → 设置 → 配置文件;

宝塔面板nginx配置文件

② 约8行除,添加如下代码并保存

    if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|Bytespider|Ezooms|Googlebot|JikeSpider|SemrushBot|^$" ) {
      return 403;
    }

代码中我屏蔽谷歌蜘蛛|Googlebot| ,同时也屏蔽了垃圾搜索引擎蜘蛛和目前大部分爬虫,后续可以查看网站日志,返回状态码为403就可以了。初次想要验证结果,可将百度蜘蛛|Baiduspider| 添加上,到百度搜索资源平台试着抓取诊断一下,基本上都是抓取失败的。

原创文章,作者:霍欣标,如若转载,请注明出处:https://www.yijing21.cn/seo/1151.html

上一篇 2024 年 5 月 26 日
下一篇 2024 年 5 月 18 日

相关推荐