如何为seo优化生成Robots.txt文件

如何为SEO创建完美的Robots.txt文件

机器人

每个人都喜欢“黑客”。

我也不例外 – 我喜欢找到让生活更美好,更轻松的方法。

这就是为什么我今天要告诉你的技术是我最喜欢的技术之一。这是一个合法的SEO黑客,你可以立即开始使用。

这是一种通过利用每个很少被人谈论的网站的自然部分来增加搜索引擎优化的方法。实现起来并不困难。

这是robots.txt文件(也称为机器人排除协议或标准)。

这个极小的文本文件是互联网上每个网站的一部分,但大多数人甚至都不知道它。

它的设计目的是与搜索引擎一起使用,但令人惊讶的是,它只是等待解锁的SEO汁源。

在客户端向后弯腰尝试增强他们的搜索引擎优化后,我见过客户端。当我告诉他们他们可以编辑一个小文本文件时,他们几乎不相信我。

然而,有许多增强SEO的方法并不困难或耗时,这就是其中之一。

您无需任何技术经验即可充分利用robots.txt的强大功能。如果您可以找到您网站的源代码,则可以使用此代码。

因此,当您准备好后,请跟随我,我将向您展示如何更改您的robots.txt文件,以便搜索引擎喜欢它。

为什么robots.txt文件很重要

首先,我们来看看robots.txt文件首先是否重要的​​原因。

robots.txt文件(也称为机器人排除协议或标准)是一个文本文件,用于告知网站机器人(通常是搜索引擎)您网站上的哪些网页要抓取。

它还告诉Web机器人哪些页面  不要抓取。

假设搜索引擎即将访问某个网站。在访问目标网页之前,它会检查robots.txt以获取相关说明。

有不同类型的robots.txt文件,所以让我们看几个不同的例子。

假设搜索引擎找到了这个示例robots.txt文件:

这是robots.txt文件的基本框架。

“user-agent”后面的星号表示robots.txt文件适用于访问该站点的所有Web机器人。

“Disallow”之后的斜杠告诉机器人不访问该站点上的任何页面。

您可能想知道为什么有人想阻止网络机器人访问他们的网站。

毕竟,搜索引擎优化的主要目标之一是让搜索引擎轻松抓取您的网站,以便提高您的排名。

这就是这个搜索引擎优化黑客的秘密所在。

您的网站上可能有很多页面,对吧?即使你不认为你这样做,去检查。你可能会感到惊讶。

如果搜索引擎抓取您的网站,它将抓取您的每一个网页。

如果您有很多页面,搜索引擎机器人会花费一段时间来抓取它们,这会对您的排名产生负面影响。

这是因为Googlebot(谷歌的搜索引擎机器人)有一个“爬行预算”。

这分为两部分。首先是爬行率限制。第二部分是抓取需求:基本上,抓取预算是“Googlebot可以和想要抓取的网址数量”。

您希望以最佳方式帮助Googlebot为您的网站花费其抓取预算。换句话说,它应该抓取您最有价值的页面。

据谷歌称,有些因素会对网站的抓取和索引产生负面影响。

那么让我们回到robots.txt。

如果您创建了正确的robots.txt页面,则可以告诉搜索引擎机器人(尤其是Googlebot)避免使用某些网页。

想想其含义。如果您告诉搜索引擎机器人仅抓取您最有用的内容,则机器人将仅根据该内容对您的网站进行抓取和索引。

正如Google所说:

“您不希望自己的服务器被Google的抓取工具淹没,也不希望浪费爬网预算来抓取您网站上不重要或类似的网页。”

通过正确使用robots.txt,您可以告诉搜索引擎机器人明智地花费他们的抓取预算。这就是使robots.txt文件在SEO环境中如此有用的原因。

被robots.txt的力量所吸引?

你应该!我们来谈谈如何查找和使用它。

找到你的robots.txt文件

如果您只是想快速查看robots.txt文件,可以通过一种非常简单的方式查看它。

实际上,这种方法适用于任何网站。因此,您可以查看其他网站的文件,看看他们正在做什么。

您只需在浏览器的搜索栏中输入网站的基本URL(例如,neilpatel.com,quicksprout.com等)。然后将/robots.txt添加到最后。

三种情况之一将发生:

1)你会找到一个robots.txt文件。

2)你会找到一个空文件。

例如,迪士尼似乎缺少robots.txt文件:

3)你会得到404。

方法为robots.txt返回404:

花一点时间查看您自己网站的robots.txt文件。如果您找到空文件或404,则需要修复此问题。如果找到有效文件,则可能设置为创建站点时创建的默认设置。我特别喜欢这种方法来查看其他网站的robots.txt文件。一旦你了解了robots.txt的细节,这可能是一项有价值的练习。

现在让我们看一下实际更改robots.txt文件。

找到你的robots.txt文件

您接下来的步骤将取决于您是否有robots.txt文件。(使用上述方法检查是否这样做。)

如果您没有robots.txt文件,则需要从头开始创建一个。打开纯文本编辑器,如记事本(Windows)或TextEdit(Mac)。

仅为此使用纯文本编辑器。如果您使用Microsoft Word等程序,该程序可能会在文本中插入其他代码。

回到robots.txt。如果您有robots.txt文件,则需要在站点的根目录中找到它。

如果您不习惯在源代码中浏览,那么找到robots.txt文件的可编辑版本可能有点困难。

通常,您可以通过访问您的主机帐户网站,登录并前往您网站的文件管理或FTP部分来找到您的根目录。

你应该看到这样的东西:

找到您的robots.txt文件并将其打开以进行编辑。删除所有文本,但保留文件。

注意:如果您使用的是WordPress,当您访问5dseo.com/robots.txt时,可能会看到robots.txt文件,但您将无法在文件中找到它。

这是因为如果根目录中没有robots.txt,WordPress会创建虚拟robots.txt文件。

如果您遇到这种情况,则需要创建新的robots.txt文件。

创建robots.txt文件

您可以使用您选择的纯文本编辑器创建新的robots.txt文件。(请记住,只使用纯文本编辑器。)

如果您已有robots.txt文件,请确保已删除文本(但不删除文件)。

首先,您需要熟悉robots.txt文件中使用的一些语法。

我将向您展示如何设置一个简单的robot.txt文件,然后我们将看看如何为SEO自定义它。

首先设置用户代理术语。我们将设置它以适用于所有网络机器人。

通过在用户代理术语后使用星号来执行此操作,如下所示:

接下来,键入“Disallow:”但不要在此之后键入任何内容。

由于禁止后没有任何内容,因此将引导网络漫游器抓取您的整个网站。现在,您网站上的所有内容都是合理的游戏。

到目前为止,您的robots.txt文件应如下所示:

我知道它看起来非常简单,但这两条线已经做了很多。

您也可以链接到您的XML站点地图,但这不是必需的。如果你愿意,这里是键入的内容:

信不信由你,这就是基本的robots.txt文件的样子。

现在让我们把它带到一个新的水平,并把这个小文件变成一个SEO助推器。

针对SEO优化robots.txt

优化robots.txt的方式取决于您网站上的内容。有各种各样的方法可以使用robots.txt。

我将介绍一些最常用的使用方法。

(请记住,你应该 使用robots.txt来阻止搜索引擎的网页。这是一个很大的禁忌)。

robots.txt文件的最佳用途之一是通过告知他们不抓取未向公众显示的网站部分来最大化搜索引擎的抓取预算。

例如,如果您访问此站点的robots.txt文件(neilpatel.com),您将看到它不允许登录页面(wp-admin)。

由于该页面仅用于登录站点的后端,因此搜索引擎机器人浪费时间爬行它是没有意义的。

(如果你有WordPress,你可以使用同一个完全不允许的行。)

您可以使用类似的指令(或命令)来防止机器人抓取特定页面。禁用后,输入.com之后的URL部分。把它放在两个正斜杠之间。

因此,如果您想告诉机器人不抓取您的页面http://yoursite.com/page/,您可以输入:

您可能想知道要从索引中排除哪些类型的页面。以下是一些常见情况:

有目的的重复内容。虽然重复内容大多是坏事,但有一些案例是必要且可接受的。

例如,如果您有一个适合打印的页面版本,那么从技术上讲,您会有重复的内容。在这种情况下,您可以告诉机器人不要抓取其中一个版本(通常是打印机友好版本)。

如果您对具有相同内容但设计不同的页面进行拆分测试,这也很方便。

谢谢你的网页。感谢页面是营销人员最喜欢的页面之一,因为它意味着新的领导。

…对?

事实证明,有些感谢页面可以通过Google访问。这意味着人们可以在不经过潜在客户捕获过程的情况下访问这些页面,这是个坏消息。

通过阻止感谢页面,您可以确保只有合格的潜在客户才能看到它们。

所以,我们的感谢页面可以在https://yoursite.com/thank-you/找到。在您的robots.txt文件中,阻止该页面如下所示:

由于没有针对哪些网页禁用的通用规则,因此您的robots.txt文件对您的网站而言是唯一的。在这里使用你的判断。

您应该知道另外两个指令:noindex和nofollow

你知道我们一直在使用的禁令指令吗?它实际上并不会阻止页面被编入索引。

所以从理论上讲,你可以禁止一个页面,但它仍然可以在索引中结束。

一般来说,你不希望这样。

这就是你需要noindex指令的原因。它与disallow指令一起使用,以确保机器人不访问索引某些页面。

如果您有任何不想编入索引的页面(如那些非常感谢页面),您可以同时使用disallow和noindex指令:

现在,该页面不会出现在SERP中。

最后,还有nofollow指令。这实际上与nofollow链接相同。简而言之,它告诉Web机器人不要抓取页面上的链接。

但是nofollow指令的实现方式有点不同,因为它实际上不是robots.txt文件的一部分。

但是,nofollow指令仍在指示Web机器人,因此它是相同的概念。唯一的区别在于它发生的地方。

找到要更改的页面的源代码,并确保您位于<head>标记之间

然后粘贴这一行:

<meta name =“robots”content =“nofollow”>

所以看起来应该是这样的:

确保你没有把这一行放在任何其他标签之间 – 只是<head>标签。

这是感谢页面的另一个好选择,因为Web机器人不会抓取任何磁铁或其他独家内容的链接。

如果要添加noindex和nofollow指令,请使用以下代码行:

<meta name =“robots”content =“noindex,nofollow”>

这将同时为网络机器人提供指令。

测试一切

最后,测试你的robots.txt文件,确保一切正常并以正确的方式运行。

Google提供免费的robots.txt测试程序作为网站管理员工具的一部分。

首先,点击右上角的“登录” ,登录您的网站管理员帐户。

 

选择您的属性(即网站),然后单击左侧边栏中的“抓取”。

 

你会看到“robots.txt Tester。”点击它。

 

如果包装盒中已有任何代码,请将其删除并将其替换为新的robots.txt文件。

单击屏幕右下方的“测试”。

 

如果“测试”文本更改为“允许”,则表示您的robots.txt有效。

以下是有关该工具的更多信息,以便您可以详细了解所有内容的含义。

最后,将您的robots.txt上传到您的根目录(如果已有,请将其保存在那里)。您现在拥有一个功能强大的文件,您应该会看到搜索可见性的增加。

结论

我总是喜欢分享鲜为人知的搜索引擎优化“黑客”,它可以通过多种方式为您提供真正的优势。

通过正确的方式设置robots.txt文件,您不仅可以增强自己的SEO。你也在帮助你的访客。

如果搜索引擎机器人可以明智地花费他们的抓取预算,他们将以最佳方式组织和显示您在SERP中的内容,这意味着您将更加明显。

设置robots.txt文件也不需要花费太多精力。它主要是一次性设置,您可以根据需要进行少量更改。

无论您是第一个还是第五个网站,使用robots.txt都会产生重大影响。如果您以前没有这样做,我建议给它一个旋转。