字节跳动蜘蛛Bytespider每日过分抓取我们的网站内容,公然不遵守robots协议,致使服务器高负载状态,下面就教大家如何设置Nginx。
如上图所示,第一种对于不遵守robots协议无效;第二种亲测非常有效;第三种容易误伤;第四种系统版本不一定有效。
本次只讲第二种,步骤如下:
① 打开宝塔面板,点击网站 → 设置 → 配置文件;
![宝塔面板nginx配置文件](https://www.yijing21.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)
② 约8行除,添加如下代码并保存
if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|Bytespider|Ezooms|Googlebot|JikeSpider|SemrushBot|^$" ) {
return 403;
}
代码中我屏蔽谷歌蜘蛛|Googlebot|
,同时也屏蔽了垃圾搜索引擎蜘蛛和目前大部分爬虫,后续可以查看网站日志,返回状态码为403就可以了。初次想要验证结果,可将百度蜘蛛|Baiduspider|
添加上,到百度搜索资源平台试着抓取诊断一下,基本上都是抓取失败的。
原创文章,作者:霍欣标,如若转载,请注明出处:https://www.yijing21.cn/seo/1151.html