|
Post by account_disabled on Dec 23, 2023 5:10:45 GMT
为您的网站创建 robots.txt 可帮助您控制机器人对网站上某些区域的访问。如果您不小心犯了一些错误,导致 Googlebot 无法为您的网站编制索引,这可能会非常危险。然而,出于多种原因,创建 robots.txt 文件仍然非常有用:防止重复内容出现在您的网站中(请注意,Meta Robots 通常是更好的选择)将页面的某些部分保留为私有 阻止内部搜索结果页面显示在 SERP 上 指定站点地图的位置 阻止 Google 工具对您网站上的某些文件(图像、PDF 等)建立索引使用 Crawl-delay 命令设置时间。 当爬虫一次加载大量内容时,这将防止您的服务器过载。如果您不想阻止网 手机号码数据 络爬虫从网站收集数据,则根本不需要创建 robots.txt。获取免费文件 robots.txt 文件的限制 1. 某些搜索浏览器不支持robots.txt文件中的指令并非所有搜索引擎都支持 robots.txt 文件中的指令,因此为了确保数据安全,最好的选择是为服务器上的私人文件设置密码。2. 每个数据处理器都有自己的数据解析语法 通常,信誉良好的数据提交者会遵循 robots.txt 文件中的命令标准。但每个搜索引擎都会有不同的解释数据的方式,有些搜索引擎将无法理解robots.txt文件中设置的命令。因此,网络开发人员必须清楚地了解网站上每个数据收集工具的语法。3.被robots.txt文件屏蔽,但Google仍然可以索引它即使您之前屏蔽了网站上的某个 URL,但该 URL 仍然出现,Google 仍然可以抓取该 URL 并为其编制索引。如果其中的内容对于最高安全性而言不太重要,则应删除网站上的该 URL。因为当有人在 Google 上搜索时,该 URL 中的内容仍然可以出现。使用robots.txt文件时的一些注意事项 没有必要为每个用户代理指定命令,因为大多数用户代理来自同一搜索引擎并遵循相同的一般规则。 绝对不要使用robots.txt文件来屏蔽用户信息等隐私数据,因为Googlebot会忽略robots.txt文件中的命令,因此安全性不高。为了保护网站数据,最好的方法是对您不想在网站上访问的文件或 URL 使用单独的密码。但是,您不应该过度使用 robots.txt 命令,因为有时效果不会达到预期的那么高。robots.txt 文件如何工作? 搜索引擎有两个主要任务: 抓取(抓取/分析)网站上的数据以发现内容 对该内容建立索引以满足用户搜索 robots.txt 文件,wordpress 的标准 robots.txt 文件搜索引擎有两个主要任务:抓取和索引 为了抓取网站数据,工具将跟踪从一个页面到另一页面的链接。最终,它通过数十亿个不同的网站收集数据。这种数据爬行过程也称为“Spidering”。到达网站后,在进行蜘蛛抓取之前,Google 机器人会查找 WordPress robots.txt 文件。如果它找到 robots.txt 文件,它将首先读取该文件,然后再继续执行后续步骤。robots.txt 文件将包含有关 Google 工具应如何抓取网站的信息。在这里,这些机器人将获得有关此过程的更具体信息的指导。如果 robots.txt 文件不包含任何用户代理指令,或者您没有为网站创建 robots.txt 文件,机器人将收集网络上的其他信息。robots.txt 文件位于网站的什么位置? 当您创建 WordPress 网站时,它会自动在服务器根目录下创建一个 robots.txt 文件。
|
|