Nginx设置屏蔽Bytespider垃圾蜘蛛-欣标博客

字节跳动蜘蛛Bytespider每日过分抓取我们的网站内容，公然不遵守robots协议，致使服务器高负载状态，下面就教大家如何设置Nginx。

如上图所示，第一种对于不遵守robots协议无效；第二种亲测非常有效；第三种容易误伤；第四种系统版本不一定有效。

本次只讲第二种，步骤如下：

① 打开宝塔面板，点击网站 → 设置 → 配置文件；

② 约8行除，添加如下代码并保存

    if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|Bytespider|Ezooms|Googlebot|JikeSpider|SemrushBot|^$" ) {
      return 403;
    }

代码中我屏蔽谷歌蜘蛛|Googlebot| ，同时也屏蔽了垃圾搜索引擎蜘蛛和目前大部分爬虫，后续可以查看网站日志，返回状态码为403就可以了。初次想要验证结果，可将百度蜘蛛|Baiduspider| 添加上，到百度搜索资源平台试着抓取诊断一下，基本上都是抓取失败的。

原创文章，作者：霍欣标，如若转载，请注明出处：https://www.yijing21.cn/seo/1151.html

Nginx设置屏蔽Bytespider垃圾蜘蛛

相关推荐