使用htaccess文件规则阻止特定蜘蛛访问

综合27,831,115字数 236阅读0分47秒

互联网上有很多网络爬虫,它们带着各自的任务到处爬行,例如:Baiduspider、Googlebot、bingbot等。这些搜索引擎爬虫爬取收录我们的网站可以给网站带来流量,是有用的。但还有许多垃圾爬虫,对网站没有任何益处,还耗费资源。

对于这些无用的爬虫,我们可以在网站日志logs中分析日志文件,获得爬虫名称使用.htaccess文件规则进行屏蔽。例如:SemrushBot,这是一家靠销售数据的公司,但对于被爬行的网站来说,没有任何价值。文章源自小武站https://1z345.cn/小武站-https://bbs.50-0.cn/926.html

如果在网站根目录中没有看到.htaccess文件,可以参考以下教程创建:文章源自小武站https://1z345.cn/小武站-https://bbs.50-0.cn/926.html

在.htaccess文件中写入如下规则:文章源自小武站https://1z345.cn/小武站-https://bbs.50-0.cn/926.html

SetEnvIfNoCase User-Agent "^SemrushBot" bad_bot
Deny from env=bad_bot

如果要屏蔽多个爬虫,就增加SetEnvIfNoCase行,如下:文章源自小武站https://1z345.cn/小武站-https://bbs.50-0.cn/926.html

SetEnvIfNoCase User-Agent "^SemrushBot" bad_bot
SetEnvIfNoCase User-Agent "^SEOkicks" bad_bot
Deny from env=bad_bot
文章源自小武站https://1z345.cn/小武站-https://bbs.50-0.cn/926.html文章源自小武站https://1z345.cn/小武站-https://bbs.50-0.cn/926.html
有哪些方法可以访问谷歌搜索?
有哪些方法可以访问谷歌搜索? 综合

有哪些方法可以访问谷歌搜索?

在中国,要访问谷歌搜索可以尝试以下方法,但需要注意的是,通过非官方或未经授权的途径访问可能存在法律风险和安全隐患: - 使用VPN等代理工具:- VPN:虚拟专用网络(VPN)可以在您的设备和境外服务...
HadSky v8.3.10 正式版下载
HadSky v8.3.10 正式版下载 综合

HadSky v8.3.10 正式版下载

【8.3.10.20240417更新内容】 【新增】新增Redis缓存功能(后台-实验室-Redis缓存); 【新增】新增应用安装版本校验,不符合程序版本的应用将无法安装; 【新增】文章表新增视频和音...
  • 本文由 admin 发表于2024年8月19日 10:48:17
  • 转载请务必保留本文链接:https://bbs.50-0.cn/926.html
  • 屏蔽爬虫
评论  2  访客  2
    • 小唐
      小唐

      不错,,,

      • 小唐
        小唐

        [g=shouqiang]不错

      匿名

      发表评论

      匿名网友
      确定