西安网站建设-西安网站制作-专业西安网站制作公司-「力洋网络」

西安力洋网络
  • 西安网站建设
  • 西安网站制作
  • 西安网站建设
  • 如何巧妙利用robots

  • 发布者:本站 发布时间:2010/11/8 9:33:38
  • 如何巧妙利用robots

    我们经常说robots文件,但是它到底是什么呢?robot文件搜索引擎自动访问互联网上的网页并获取网页信息,当搜索引擎来抓取我们这个网站的时候,搜索引擎首先会找到robot文件,看看我们里面是怎么写的,写些了那些命令。然后它根据我们描述的要求对我们的网站进行相对应的处理,该抓取哪里,不改抓取哪里,这里大家就会想,robot是不是就只要这个作用呢?只是定义搜索引擎改访问、不改访问那些目录或页面呢?其实你就只猜对了一半,robot里面还可以写别的信息。如:作者的版权信息,公司的信息,网站程序信息等等很多信息。我想这点大多数的SEOer是没用利用的。robot在一个网站里面起到的很重要的最好。有了这个文件不能说想对我们的网站为所欲为吧,但是可以很方便的对网站的结构信息进行合理化。就想我在我优化的这个www.jiankan13.com一生健康网的robot文件里面加上了我的个人信息,为什么呢?因为在我找工作的时候,别人会问我有没有成功案例,我说有,我打上网址让人家看,这样很难让人家相信,是不是真的是你做的。但是如果打开robot文件一看。里面的信息是我的。这样也算对自己劳动成果的保护吧,接下来我说一下robot文件的格式:
    User-agent:      这里是定义搜索引擎的类型
    Disallow:    这里是定义禁止搜索引擎收录的地址
    Allow:   这里是定义允许搜索引擎收录的地址
    我们常用的搜索引擎类型有:
    google蜘蛛: googlebot   
    百度蜘蛛:baiduspider   
    yahoo蜘蛛:slurp   
    alexa蜘蛛:ia_archiver   
    msn蜘蛛:msnbot   
    altavista蜘蛛:scooter   
    lycos蜘蛛: lycos_spider_(t-rex)   
    alltheweb蜘蛛: fast-webcrawler   
    inktomi蜘蛛: slurp
    以上是我们常用的搜索引擎类型。下面我们说下标准写法的格式:
    User-agent: *     这里的*代表的所有的搜索引擎种类,*是一个通配符
    Disallow: /admin/       这里定义是禁止爬寻admin目录下面的目录
    Disallow: /require/    这里定义是禁止爬寻require目录下面的目录
    Disallow: /require/   这里定义是禁止爬寻require目录下面的目录   
    Disallow: /ABC     这里定义是禁止爬寻ABC整个目录 
    Disallow: /cgi-bin/*.htm  禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
    Disallow: /*?*    禁止访问网站中所有的动态页面
    Disallow: .jpg$   禁止抓取网页所有的.jpg格式的图片
    Disallow:/ab/adc.html  禁止爬去ab文件夹下面的adc.html所有文件
    User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符
    Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录
    Allow: /tmp        这里定义是允许爬寻tmp的整个目录
    Allow: .htm$        仅允许访问以".htm"为后缀的URL。
    Allow: .gif$     允许抓取网页和gif格式图片

  • 返回列表
    相关阅读
    更多
    深度挖掘网站的商用价值,化繁为简的设计,为企业找到直接有效的解决方案
    +86 (029) 88765320
    +86 15829904657
    地址:西安市太华北路369号
    万达广场4#23F P.C:7100001
    985224206@qq.com
    在线咨询: 985224206
    互联网协会成员单位
    西安力洋之星网络技术有限公司 | 版权所有
    Copyright 2008-2020 Liyang.Inc All Rights Reserved.
    Liyang.Inc