温馨提示:这篇文章已超过1013天没有更新,请注意相关的内容是否还可用!
您可以使用 robots.txt 文件来控制您的网络服务器上的哪些目录和文件不允许符合机器人排除协议 (REP) 的搜索引擎爬虫(又名机器人或机器人)访问,即不应该访问的部分被抓取。重要的是要理解,这不是根据定义意味着未爬网的页面也不会被索引。要了解如何防止页面被索引,请参阅 此主题。
Robots.txt创建步骤:
第一步、确定您要阻止爬网程序访问 Web 服务器上的哪些目录和文件
检查您的 Web 服务器以查找您不想被搜索引擎访问的已发布内容。
在您想要禁止的 Web 服务器上创建可访问文件和目录的列表。示例 您可能希望机器人忽略对 /cgi-bin、/scripts 和 /tmp(或它们的等价物,如果它们存在于您的服务器架构中)等站点目录的爬取。
第二步、确定您是否需要为特定搜索引擎机器人指定除一组通用抓取指令之外的其他指令
检查您的网络服务器的引荐来源网址日志,以查看是否有爬取您的网站的机器人,您希望在适用于所有机器人的通用指令之外阻止这些机器人。
![]() |
---|
Bingbot 在为自己找到一组特定指令后,将忽略通用部分中列出的指令,因此除了在文件的自己的部分中为它们创建的特定指令之外,您还需要重复所有通用指令. |
第三步、使用文本编辑器创建 robots.txt 文件并添加 REP 指令以阻止机器人访问内容。文本文件应以 ASCII 或 UTF-8 编码保存。
机器人在 robots.txt 文件中被称为用户代理。在文件的开头,通过添加以下行开始适用于所有机器人的指令的第一部分:User-agent: *
创建一个 Disallow 指令列表,列出您想要阻止的内容。
示例 鉴于我们之前使用的目录示例,这样的指令集将如下所示:
User-agent: * #允许所有搜索引擎爬虫抓取 Disallow: /include #不允许抓取include目录
您不能在一行中列出多个内容引用,因此您需要为要阻止的每个模式创建一个新的 Disallow: 指令。但是,您可以使用通配符。请注意,每个 URL 模式都以正斜杠开头,表示当前站点的根。
您还可以对存储在其内容将被阻止的目录中的文件使用 Allow: 指令。
User-agent: * Allow: /include #允许抓取include目录
有关使用通配符以及创建 Disallow 和 Allow 指令的更多信息,请参阅网站管理员中心博客文章防止机器人“迷失在太空中”。如果要为不适合所有机器人的特定机器人添加自定义指令,例如 crawl-delay:,请将它们添加到第一个通用部分之后的自定义部分中,将User-agent: 引用更改为特定机器人。有关适用机器人名称的列表,请参阅机器人数据库。
User-agent: Baiduspider #百度搜索爬虫 Disallow: User-agent: Bingbot #必应搜索爬虫 Disallow:
![]() |
---|
添加为单个机器人定制的指令集不是推荐的策略。重复通用部分中的指令的典型需求使文件维护任务复杂化。此外,适当维护这些自定义部分的遗漏通常是搜索引擎机器人爬行问题的根源。 |
可选:添加对站点地图文件的引用(如果有)
如果您创建了一个站点地图文件,其中列出了您网站上最重要的页面,您可以通过在文件末尾的自己的行中引用它来将机器人指向它。
示例 站点地图文件通常保存在站点的根目录中。这样的站点地图指令行如下所示:
Sitemap: https://o0310o.com/sitemap/map.xml #站点地图 User-agent: * Disallow: /include Disallow: /templet
通过验证您的 robots.txt 文件来检查错误
将 robots.txt 文件上传到您网站的根目录
![]() |
---|
您无需将新的 robots.txt 文件提交给搜索引擎。搜索引擎机器人会定期自动在您网站的根目录中查找名为 robots.txt 的文件,如果找到,将首先读取该文件以查看哪些指令(如果有)与它们相关。请注意,搜索引擎会将您的 robots.txt 副本至少在其缓存中保留几个小时,因此更改可能需要几个小时才能反映在其抓取行为中。 |
还没有评论,来说两句吧...