输入您要找的问题关键词

搜索
云官网帮助列表

云官网-Robots.txt

作者:广东五叶草互联网科技有限公司 浏览: 发表时间:2020-11-17 11:19:22

一、背景信息


当一个搜索蜘蛛访问一个站点时,它会首先检查该站点的根目录下是否存在Robots.txt,如果存在,搜索蜘蛛就会按照该文件中的内容来确定访问的范围,如果该文件不存在,搜索蜘蛛能访问网站上所有没有被口令保护的页面。如果用户需要让爬虫访问所有页面,请勿配置此文件。

二、操作步骤

  1. 进入Robots.txt页面:在网站后台左侧的导航栏中单击网站管理 > Robots.txt。
  2. 添加Robots.txt文件:通过选择上传文件即可完成添加Robot.txt操作。Robots.txt的写法请参见通过robots屏蔽搜索引擎抓

robots.txt文件的参数配置说明

  • User-agent:*:搜索引擎种类,*代表所有的搜索引擎种类,是一个通配符。
  • Disallow: /admin/:这里定义是禁止爬取admin目录下面的目录。
  • Disallow: /require/:这里定义是禁止爬取require目录下面的目录。
  • Disallow: /ABC/:这里定义是禁止爬寻ABC目录下面的目录。
  • Disallow: /cgi-bin/*.htm:禁止访问/cgi-bin/目录下的所有以.htm为后缀的URL(包含子目录)。
  • Disallow: /?:禁止访问网站中所有包含问号(?)的网址。
  • Disallow: /.jpg$:禁止抓取网页所有.jpg格式的图片。
  • Disallow:/ab/adc.html:禁止爬取ab目录下面的adc.html文件。
  • Allow: /cgi-bin/:这里定义是允许爬取cgi-bin目录下面的目录。
  • Allow: /tmp:这里定义是允许爬取tmp整个目录。
  • Allow: .htm$:仅允许访问以.htm为后缀的URL。
  • Allow: .gif$:允许抓取网页和.gif格式图片。
  • Sitemap:网站地图,告诉爬虫这个页面是网站地图。

示例

  • 示例一:禁止所有搜索引擎访问网站的任何资源。
    User-agent: *
    Disallow: /
  • 示例二:允许所有搜索引擎访问任何资源。
    User-agent: *
    Allow: /
    说明:也可以建一个/robots.txt空文件,Allow的值设置为/robots.txt
  • 示例三:禁止某个搜索引擎的访问。
    User-agent: BadBot
    Disallow: /
  • 示例四:允许某个搜索引擎的访问。
    User-agent: Baiduspider
    allow: /




云官网-Robots.txt
长按图片保存/分享
0
文章推荐

首页      |      小程序帮助      |      H5建站帮助      |      H5电商帮助      |      餐饮、商圈、酒店      |      社区拼团      |      视频帮助

 客户服务中心:020-2818-5502 用心服务每一位用户 7x24小时 技术支持

Copyright © 2010 - 2019  WuYeCao Internet All rights reserved.   

添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了
粤ICP备16018803号