温馨提示:这篇文章已超过948天没有更新,请注意相关的内容是否还可用!
什么是网页快照?
网页快照,英文名叫WebCache,网页缓存。搜狗在收录网页时,对网页进行备份,存在自己的服务器缓存里,当用户在搜索引擎中点击“网页快照”链接时,搜狗将搜狗Spider系统当时所抓取并保存的网页内容展现出来,称为“网页快照”。
互联网上的网页并不是一成不变的,而是不断增加、删除、改动。因此,搜狗网页数据库中的网页也需要及时更新,既把互联网上网页重新复制一遍。
如果你在你的网站上删除一张网页,那么搜狗数据库中的复制品-网页快照并不会立刻被删除,而是要过一段才会被删除。
从搜狗永久删除内容如何操作?
如果网页已不存在,请确保服务器返回 404(未找到)。这样可让搜狗知道该网页已不存在,无需再在搜索结果中显示。
请使用 robots.txt 阻止 sogou spider 进行抓取。请注意,在通常情况下,即使您已通过 robots.txt 禁止抓取某个网址,但如果我们在其他网站中发现该网址,仍会将相应网页编入索引。这里需要说明一点,如果页面变死链了,并且设置了robots.txt,那么搜狗的spider就不会再来更新,也就不知道这个页面变死链。
如果要从搜索结果中删除非 HTML 格式的文件(例如可下载的 PDF),则您或网站站长应确保从服务器中删除该文件。
情况一网页已不存在
情况二网页仍存在
情况三删除非 HTML 格式的文件
我想从搜索结果中删除整个网站或某个目录的内容?
如果您是网站拥有者,则需要在验证网站所有权后申请删除整个网站或目录。
为确保永久删除您的目录或网站,请使用 robots.txt 阻止抓取工具访问该目录(如果要删除的是网站,则应阻止抓取工具访问您的整个网站)。我们建议您在请求删除目录前或请求删除后不久执行该操作。否则,您的内容稍后可能会重新显示在搜索结果中。仅返回 404 HTTP 状态代码还不够,因为可能出现这样一种情况:即某个目录返回了 404 状态代码,却仍然分发其中的文件。通过使用 robots.txt 禁止抓取目录,可确保将目录的所有子项也一并排除。
完成上述某步操作后,您就可以发出删除请求,从搜索结果中删除相应目录及其所有内容。删除 https://www.example.com 的同时还会删除 http://www.example.com,以及http://example.com 和 https://example.com。
如果您不是网站拥有者,请通过网站联系网站管理员,要求他通过以上步骤进行删除。搜狗没有权利控制互联网中的内容。
还没有评论,来说两句吧...