什么是robots?如何设置robots?

robots是网站和搜索引擎爬虫之间的协议,当搜索引擎爬虫爬取一个网站之前,第一先访问该网站有没有robots协议,如果有按照设置的robots协议进行对网站的抓取,如果没有默认网站所有页面都可以被抓取。
搜索引擎通过一个程序(搜索引擎蜘蛛),自动获取互联网上数亿的网页,经过分析和对比,筛选出质量优质的网页,进行收录和索引,最后得到网页的排名,用户查询关键词就可以访问到被收录的网页。所以在网站的根目录创建一个robots协议用来告诉搜索引擎,网站这个页面可以被抓取,那个网页不让抓取。可以说robots协议是对搜索引擎蜘蛛的行为设定了要求。
robots注意事项
网站所有的内容都可以让搜索引擎抓取,我就不设置robots文件这是不对的, 每次搜索引擎蜘蛛来到网站访问robots文件都会生成一个404页面,网页不存在,对网站有不好的影响。这种的可以在网站根目录放一个空的robots文件,什么都不写就可以了。设置所有网页都让搜索引擎抓取,可以增加收目率这个想法也是错误的,搜索引擎对html文件情有独钟,对JS、框架等文件很是排斥。网站的脚本文件、样式表等可以选择屏蔽,浪费服务器资源还得不到好处。蜘蛛抓取浪费服务器资源,在robots协议中屏蔽所有搜索引擎这样就把搜索引擎蜘蛛屏蔽了,搜索引擎蜘蛛不会抓取网站内的内容,也不会有收录robots文件需要放置到网站的根目录,url格式域名+robots.txtrobots文件可以放置网站地图的链接,搜索引擎蜘蛛每次到网站首先访问的就是robots文件,所以放上网站的网站地图,有利于搜索引擎蜘蛛发现更多的链接。robots文件必须是小写命名robots协议的设置
robots文件的设置有两种参数,一个允许,一个拒绝。robots文件中有一条或多条声明,robots文件中可以用“#”进行注释。通常robots文件以一条或多条User-agent开始,之后有多行Disallow和多行Allow。
User-agent
这个声明的意思针对搜索引擎蜘蛛,该项的值设为“*”,表示的是所有的搜索引擎蜘蛛。搜索引擎蜘蛛包括:
User-agent: Baiduspider #百度蜘蛛
User-agent:360spider #360蜘蛛
User-agent: Sosospider #搜搜蜘蛛
User-agent: sogou spider #搜狗蜘蛛
User-agent: YodaoBot #有道蜘蛛
User-agent: Googlebot #谷歌蜘蛛
User-agent: Bingbot #必应蜘蛛
User-agent: Slurp #雅虎蜘蛛
如上列举了常见的搜索引擎蜘蛛名字,国内的知道百度的就足够了,国外的知道谷歌、必应等搜索引擎蜘蛛名字。除了以上的还有很多,详细参考robots文件生成。
Disallow
该项的值是用于描述那条URL不被搜索引擎抓取,这里的url可以是完整的也可以是部分的。如:Disallow:/,这个值说明网站不让搜索引擎抓取,Disallow:/admin,这个值告诉搜索引擎不要抓网站admin文件夹里的所有文件,Disallow:/admin/demo,该值告诉搜索引擎可以抓取admin文件夹但是不能抓取admin文件下的demo文件夹。如果该项的值为空,证明网站对搜索引擎开放。
Allow
Allow与Disallow相反,是希望被搜索引擎抓取的一组url链接,而这url也可以是完整或者部分。如:Allow:/seojiaocheng,搜索引擎可以访问seojiaocheng.html或seojiaocheng/111.html等。Allow通常和Disallow搭配使用的,同意访问部分网页并禁止访问其他网页URL链接。
通配符
User-agent、Disallow、Allow这三个的值可以使用通配符“*”和“$”来模糊匹配url地址
“*” 匹配0或者多个任意的字符“$” 匹配行结束符robots.txt语法教程
常见的有五种情况,以自己的实际需求设置,
允许所有搜索引擎访问,robots为空,什么都不用写禁止所有搜索引擎访问某些目录User-agent: *Disallow: /admin/Disallow: /js/Disallow: /css/禁止百度访问User-agent: Baiduspider #百度蜘蛛Disallow: /禁止搜索搜索引擎访问User-agent: * #用通配符表示Disallow: /禁止所有搜索引擎访问图片User-agent: * #用通配符表示Disallow: .jpg$ #或者png等图片格式robots文件在实际的运用是非常灵活,希望各站长可以举一反三,根据自己网站程序来设置。

想了解更多关于什么是robots?如何设置robots?的内容,请扫微信
或微信搜索jiemingpan

本文链接:http://www.soufuzi.com/jianzhan/2130

(0)
上一篇 2024-06-21 08:29:07
下一篇 2024-06-21 08:29:07

相关推荐

  • 南非工业园名录

    1.4.1.北汽南非汽车工业园 南非汽车工业园区项目一期投资一亿美元,占地一平方公里,一期导入座椅、前后保险杠、内饰、仪表板等多家零部件供应商,引入物流企业,并建设配套生活服务区,为入园企业提供综合保障。在北汽南非工厂现有建设基础上,增加2栋联合厂房、1栋研发楼、并视入园企业实际需求增加零部件厂房。最终,在引入中国与南非本地汽车配套供应商后,确保北汽南非工厂国产化率满足60%要求。 1.4.2.南非Salda

    2024-10-15 10:06:50
  • 独立ip空间购买必读

    什么是独立IP 独立IP就是虚拟主机有一条独立的IP地址,当网站放在这台有独立IP的虚拟主机的时候,用户访问您的网站可以用IP直接在浏览器访问,也可以用域名直接访问。具体来说就是独享发信IP,不受其他用户出信的干扰,可以保证发信域名和IP的信誉度。 为什么大型企业要使用独立IP?大型企业一般会规避一切风险,因此,他们会毫无疑问就会选择独立IP。毕竟财大气粗的他们能用钱规避风险,就会让隐藏风险扼杀在摇篮里。那么,谁也不想有这种风险产生,还是买独立

    2023-02-27 10:42:10