双11上云狂欢,0.5折起爆品开抢
Logo

博客

A Standard for Robot Exclusion
http://www.robotstxt.org/wc/norobots.html
 
   有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他 们有过任何联系。其实这正是Web Robot的功劳。Web Robot其实是一些程序,它可以 穿越大量Internet网址的超文本结构,递归地检索网络站点所有的内容。这些程序有时被叫 “蜘蛛(Spider)” , “网上流浪汉(Web Wanderer)”,”网络蠕虫(web worms)”或Web crawler。常见的搜索引擎有google,yahoo,msn,百度,soso,sogou等等。

    现在所有网站都考虑seo,所谓seo就是优化网站对这些搜索引擎的友好度,让自己的网站更容易通过搜索引擎被访问到。然而,Robot程序抓你的网站页面时,有时会因为频率太高而影响你的服务器,所以,合理的设置robots.txt(注意,是robots)很重要。

    若要控制爬网你的网站的时间和方式,请在网站的顶层(根)目录创建 robots.txt 文件。在 robots.txt 中,可以指定允许或阻止哪些爬网软件。大部分爬虫程序都遵循robots.txt的规范。

    robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
   

    当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
   

    robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

下面是一些robots.txt基本的用法:

2,887 阅读

最新发布

13 天前
OBS 自动切换场景 92 次阅读
26 天前
Channel was closed. 60 次阅读
29 天前

大家在看