搜索引擎优化基础

wapysun

浏览: 21485291 次
性别:
来自: 杭州

最近访客更多访客>>

devcang

hunankeda110

辽东小小

apex53

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2012-06 ( 77)
2012-05 ( 587)
2012-04 ( 177)
更多存档...

搜索引擎 Google Linux Web 浏览器

第1 部分: 提高站点在搜索引擎中的排名

您已经创建了一个很棒的站点，接下来该做什么呢？无论这个 Web 站点的目的是销售产品还是提供信息，如果没有人浏览它，您的努力就白费了。让站点受到关注的方法是让它对搜索引擎和实际受众友好。

向搜索引擎 “推销” Web 站点本身已经成了一种业务，许多顾问、工具和搜索引擎优化（SEO）站点都可以帮助您的站点吸引搜索引擎的注意。或许现在的信息和资源已经太多了。但是，如果您建立了一个可访问且有用的站点，就踏上了通往成功的正确道路。如果您负责一个 Web 站点 —— 无论您是寄希望于专业的搜索引擎公司，还是自己去打理它，都需要了解针对搜索引擎而优化站点的基础知识。

这个分四部分的系列将提供开始您的 SEO 战役所需的工具，无论您计划的 SEO 规模有多大，都会对您有所帮助。在第 1 部分和第 2 部分中，您将学习搜索引擎的工作原理，以及如何创建对搜索引擎和用户都有用且可访问的内容。在这个系列的第 3 部分中，Mike Moran 和 Bill Hunt（Search Engine Marketing, Inc. 的作者）将帮助您使页面进入搜索索引。在第 4 部分中，他们将处理大型 Web 站点特有的搜索营销问题（关于 Search Engine Marketing, Inc. 的更多信息，参见参考资料）。

SEO 术语

在开始学习本系列之前，您需要了解以下术语：

目录（Directory）

目录是由人为编辑的搜索结果。大多数目录依靠的是人为提交而不是爬行器（spider）。（参见 SEO 和搜索引擎。）

关键字、关键词和关键短语（Keyword、keyterm 和 keyphrase）

关键字、关键词和关键短语是 Web 站点在搜索引擎结果页面（也称为 SERP）上排序所依据的词。根据站点受众的不同，您可以选择一个单词、多个单词的组合或整个短语。为简化起见，本文将使用关键词 这个术语表示所有这三种类型。

链接场（Link farm）

在 SEO 术语中，链接场是指一个充满链接的页面，这些链接其实没有实际作用，它们只作为链接存在，而没有任何实际的上下文。那些采用运用黑帽 SEO 方法的人利用链接场，在一个页面中增加大量链接，希望能通过这种方式使 Google™ 误认为这个页面很有链接的价值。

有机列表（Organic listing）

有机列表是 SERP 中的免费列表。有机列表的 SEO 通常涉及改进 Web 站点的实际内容，这往往是在页面或基础架构级别进行的。

PageRank

PageRank 是迷恋 Google 的人们用来测试其站点在 Google 中的排名的一种度量标准。SEO 和搜索引擎营销（SEM）专家也使用这个术语描述网页在 SERP 中的排名以及 Google 根据排名算法给予站点的分数。无论如何定义，PageRank 都是 SEO 的重要部分。（参见下面的 Google 和 PageRank。）

付费列表（Paid listing）

顾名思义，付费列表就是只有在付费后才能列入搜索引擎的服务。根据搜索引擎的不同，付费列表可能意味着：为包含于索引之中、每次点击（PPC）、赞助商链接（sponsored link）或者在搜索目标关键词和短语时让站点出现在 SERP 中的其他方式而付费。

排名（Ranking）

排名是页面在目标关键词的 SERP 中列出的位置。SEO 的目标是提高 Web 页面针对目标关键词的排名。

排名算法（Ranking algorithm）

排名算法是搜索引擎用来对其索引中的列表进行评估和排名的规则。排名算法决定哪些结果是与特定查询相关的。

搜索引擎营销（Search engine marketing，SEM）

SEM 这个术语可以与 SEO 互换使用，但 SEM 常常是指通过付费和广告向搜索引擎推销 Web 站点，同时应用 SEO 技术。

搜索引擎优化（Search engine optimization，SEO）

SEO 就是根据对搜索引擎的吸引力和可见性来优化内容，从而使 Web 页面能够被搜索引擎选中。SEO 主要用来提高有机列表的排名。我使用 SEO 这个术语描述我推荐的技术，但是其中许多技术也可以归入 SEM 的范畴。

搜索引擎结果页面（Search engine results page，SERP）

SERP 是为特定搜索显示的列表或结果。SERP 有时候定义为搜索引擎结果的安排（placement）。根据本系列的目的，我将其称为页面而不是安排。在 SEO 领域中，在 SERP 中取得良好的表现就是一切。

垃圾技术（Spamming）

垃圾技术是一种欺诈性的 SEO 手段，它尝试欺骗爬行器（spider），并利用排名算法中的漏洞来影响针对目标关键词的排名。垃圾技术可以表现为多种形式，但是 “垃圾技术” 最简单的定义是 Web 站点用来伪装自己并影响排名的任何技术。根据是否采用垃圾技术，SEO 方法可分为两大类：

黑帽 SEO（Black hat SEO）：用垃圾技术欺骗搜索引擎。黑帽 SEO 以伪装、欺诈和窃取的方式骗取在 SERP 中的高排名。
白帽 SEO（White hat SEO）：以正当方式优化站点，使它更好地为用户服务并吸引爬行器的注意。在白帽 SEO 中，能够带来好的用户体验的任何东西也都被视为对 SEO 有益。

爬行器（Spider）

爬行器在 Web 上漫游，寻找要添加进搜索引擎索引中的列表。爬行器有时也称为 Web 爬行榜（Webcrawler）或机器人。针对有机列表优化页面也就是为了吸引爬行器的注意。（参见下面的 SEO 和搜索引擎。）

SEO 的重要性

了解了这些定义之后，您可能依然很迷惑：SEO 的目的是什么？SEO 似乎有点儿搞阴谋的味道，不是吗？

SEO 创建可访问和有用的 Web 站点

良好的 SEO 实践会使站点更实用，可访问性更强，而且对搜索引擎更友好。但是，不守规矩的 SEO 营销企业会运用黑帽 SEO 技术（垃圾技术），这给 SEO 带来了坏名声。但是，任何种类的营销都是这种情况：推销产品的方法有好也有坏，而且有时候坏方法更有效 —— 但只是在短期内。通过黑帽 SEO 技术欺骗搜索引擎是一条危险的道路，会带来糟糕的用户体验。因此本系列只关注白帽 SEO 技术。利用白帽 SEO 技术，您和您的用户都会获益。这是双赢的做法。

SEO 对于商业站点至关重要

如果您的业务是在线式的，那么企业的生存就依赖于 Web 站点受关注的程度。如果人们根本无法找到某个商业站点，又怎么能够从那里买东西呢？而且，问题不仅仅是让潜在顾客找到您的主页并通过站点中的下拉菜单、链接或其他任何东西进行导航。过去，如果您有了一个出色的主索引页，人们就会蜂拥而至，耐心地浏览，直至找到自己所需的信息，但现在已经不再是这种情况了。

SEO 是 Web 使用方式演进的一部分

Web 的使用方式向以搜索为中心演进

Jakob Nielsen 详尽地阐述了搜索引擎技术中的哪些改进对 Web 的使用方式产生了影响。人们利用搜索寻找答案，因此站点在搜索引擎中的可见性（以及用户找到它的容易程度）就成了成功的关键（Nielsen 的相关文章列表见参考资料）。

人们使用搜索引擎准确地找到您的站点中他们所需的那个页面。如果您的独立页面没有出现在 SERP 的顶部，潜在受众就可能找不到您的站点。用户更可能通过搜索查询进入您的站点，而不是通过页面层次结构进行导航。对于站点管理员而言，这意味着每个单独的页面都必须足够健壮，可以被单独搜索到。必须使站点适应搜索引擎爬行器，然后让页面对用户有足够的吸引力，让用户愿意停留在这里。白帽 SEO 正是这样一种方法。

SEO 实践

为了解释 “让页面足够健壮，可以被单独搜索到” 的含义，我将以 developerWorks Web 站点为例。因为 www.ibm.com/developerworks 的主页是所有 developerWorks 内容的入口，我们针对 “IBM resource [for] developers” 优化主页，使其具有一般化的特点，而且使用这个短语搜索时，在 Google SERP 中这个主页是排在第一位的结果。使用有机优化技术带来了回报。Google 知道这个页面与哪些内容相关，用户点击这个链接后不会失望，他们会进入一个拥有 IBM 提供的开发者资源的丰富页面。

但是，除了主页之外，在 developerWorks Web 站点中还有其他许多东西。一些潜在受众可能会使用我们的导航系统或内部搜索寻找更有针对性的开发者资源，但也有许多其他用户更倾向于使用外部搜索引擎搜索内容，并直接进入相关页面。

例如，如果某位搜索者要查找 “linux developer tutorials”，而 URL 为 www.ibm.com/developerworks/linux 的 developerWorks Linux 页面没有出现在 SERP 的前 10 个结果中，那么在 developerWorks 主页上所做的所有优化对于这位搜索者来说都是没用的。但是，我们在 developerWorks 站点上实践良好的有机 SEO 已经许多年了，developerWorks Linux 页面目前是 “linux developer tutorials” 的 Google SERP 中的第一个结果。良好的 SEO 意味着优化站点上的每个页面，让搜索引擎准确地了解您认为每个页面上最重要的内容。

由于要考虑优化 Web 站点上的每个页面，以提高在搜索引擎结果中的排名，SEO 看似烦琐。您或许想知道是否存在某种诀窍或者更简便的方法。但是，对于提高在搜索引擎结果中的排名来说，不存在诀窍。底线就是创建能让用户赞赏的优秀内容，这样搜索引擎会给予您很好的排名。在这个系列中，您将学习如何实现这个目标。

SEO 和用户

正确地实现了良好的 SEO 也就会创建出对搜索引擎友好、对用户有吸引力的站点。有机 SEO 的收益之一是可访问性非常高的页面。搜索引擎爬行器查看页面的方式与有视力障碍的人所用的页面阅读器相同。可以使用 lynx 浏览器体会一下页面阅读器所看到的站点是什么样的（参见参考资料中提供的 lynx 浏览器的链接）。页面阅读器还会展示您的站点在小屏幕上的显示效果，比如手机或其他小型 Web 浏览工具（关于可访问性的更多信息，参见参考资料）。如果能够使页面具有较好的可访问性，让页面阅读器能够轻松地理解它们，那么页面就是对搜索引擎友好的。

在 SEO 的历史中，大多数臭名昭著的搜索引擎垃圾技术都会创建出对用户不友好或可访问性差的 Web 页面。两种对用户友好性破坏最大的黑帽 SEO 技术是：

元标记垃圾技术：在早期，搜索引擎会读取元关键词、描述和其他标记。搜索引擎根据这些标记的内容判断页面的主题，并确定页面在 SERP 中的排名情况。遗憾的是，某些人利用了这一点，在他们的元标记中重复地加上许多相同的单词，让搜索引擎误认为页面包含某些实际上并不存在的内容。这种做法误导了用户和搜索引擎。
例如，如果我们希望将 Linux 用户引导到 developerWorks 主页上，但是这里并没有多少 Linux 内容，那么可能会这样做：“<meta name="keywords" content="linux, ibm, linux, developer, tutorials, ibm, developer, linux, tutorial, tutorial, tutorials, resources, linux, tutorials, developer" />。当用户点击 SERP 中列出的这个站点时，将显示 developerWorks 主页，他们会很失望，因为这里只有零星的几个 Linux 教程，而不是像 developerWorks Linux 部分那样专门提供 Linux 教程。正因为有许多人采用元标记垃圾技术实现黑帽 SEO，搜索引擎不再使用元标记中的信息来对页面进行排名了。
alt 标记欺骗：对 alt 属性的滥用也属于黑帽 SEO ，因为它向用户和搜索引擎提供关于图片的错误信息。例如，developerWorks Linux 页面上某幅图片的 alt 标记可能填充了下面这样的关键字：<img alt="linux, ibm, linux, developer, tutorials, ibm, developer, linux, tutorial, tutorial, tutorials, resources, linux, tutorials, developer" />。尽管 Linux 页面确实与 Linux 教程有关，但应保证这幅图片本身确实向页面阅读器传递了关于其内容的准确信息。否则就是对 alt 标记的滥用。

最重要的是要记住，合适的文字对于搜索引擎和用户都很重要。文字要向搜索引擎清楚且真实地表明页面的主题，对用户也是如此。（关于创建良好 Web 页面的更多信息，参见参考资料。）

SEO 和搜索引擎

在想到搜索引擎时，大多数人会想到 Google（可在参考资料提供的论坛中进一步了解 Google），但是为了公平地对待所有搜索方法和搜索引擎，我将使用搜索引擎 这个术语。第 1 部分和第 2 部分中的信息是以 Google 为中心的，但也适用于其他大多数主流搜索引擎。根据目标受众的不同，您的目标搜索引擎可能有所不同。因为我只描述白帽 SEO 技术，所以这里提供的工具和知识会使您的 Web 站点对美国的所有主流搜索引擎更有吸引力。美国以外地区的搜索引擎流行情况可能有所不同，但是白帽 SEO 能帮助站点在大多数基于英语的搜索引擎和其他基于爬行器的搜索引擎中获得更好的排名。

搜索引擎的类型

目录和真正的搜索引擎之间的差异是，目录是人为编辑出来的，而搜索引擎是由爬行器通过跟踪链接漫游 Web 而建立的。白帽 SEO 的主要关注点在于提高站点在使用爬行器编辑的搜索引擎中的排名。

搜索引擎工作原理 —— 简化版

为了收集数据，搜索引擎让爬行器跟踪链接漫游、组织数据并判断每个页面上的文本与什么内容相关。当搜索者进行搜索时，搜索引擎利用爬行器收集的信息，通过专用排名算法建立与这次查询最相关的站点列表，并显示在 SERP 中。

目录工作原理 —— 简化版

纯粹的目录就像是图书馆中的分类卡，只不过是采用了电子形式。它包含编辑好的已提交到目录中的站点列表。它知道这个列表中有什么，而且知道对于搜索字段中输入的单词应该搜索哪些类别。这是因为最初的提交者常常会选择分类。另外，搜索者可能根据目录的类别进行浏览，寻找带有他所请求的单词的站点。

Google 是真正的搜索引擎。它提供一些来自 Open Directory 或 DMOZ 的目录结果（参见参考资料），但是大多数结果来自爬行器的漫游和 PageRank 算法（参见。Yahoo!® 是一种目录混合型搜索引擎，它首先搜索自己的目录，然后使用 Yahoo Bot Slurp! 进行搜索引擎搜索。

关于 Google 的更多信息

许多 Web 站点管理员报告说，Google 的搜索索引在他们所有与搜索相关的流量中占主要比例。正因为 Google 如此流行，您很可能希望主要针对 Google 来优化站点（请参见参考资料中 Google 自己的统计数据）。

对于 Web 站点管理员来说，幸运的是，Google 之所以成为第一搜索引擎，并不是由于它采用了什么营销手段或者对用户不友好的其他手段，而是因为它是真正的搜索引擎，它的搜索以内容质量和链接质量为依据。Google 一直坚守着 “对用户有益的东西就在 SERP 中具有高排名” 这一原则。

Google 和所有其他搜索引擎

美国大多数搜索引擎和目录都与 Google 和 Yahoo! 有关。要想进一步了解这些关联，请参见参考资料中 Bruce Clay 的 Search Engine Relationship Chart。

Google 有一个 Add URL 工具，但是站点的排名是由链接分析决定的；如果 Google 没有被其他要编入索引的站点引到您的站点，那么就永远不会给予您较高的排名，无论您是否主动提交了站点。通过 Add URL 进行提交并不意味着页面会被自动列出，但是它能使搜索引擎注意到您的页面。过去，SEO 专家建议使用 Add URL 工具对爬行器不易找到的页面进行 “深度提交”。但是，现在 Google 引入了 Google Sitemaps（Google 站点地图），用这种格式进行提交效果会更好。本系列的第 3 部分将详细介绍 Google Sitemaps。

从长远角度来看，在 SEO 方面的努力最好投入在优化站点以促进 Google 和其他爬行器的深度漫游上。

Google 的排名算法是一项顶级机密。关于 Google 的已知情况如下：

Google 的主要结果来自在 Web 上漫游的爬行器。
Google 的爬行器只查看页面上的可见文本。
Google 为以下类型的文件编制索引：html、pdf、ps、wk1、wk2、wk3、wk4、wk5、wki、wks、wku、lwp、mw、xls、ppt、doc、wks、wps、wdb、wri、rtf、swf、ans 和 txt。
Google 索引的创建过程主要关注页面内容和链接流行度。决定页面在 Google 列表中的排名的部分因素包括：指向这个站点的链接数量、链接到这个站点的站点的质量、指向这个站点的链接中和链接周围的文本以及页面本身链接到的内容。
Google 公布，其结果由超过 100 种因素决定。
Google 使用 PageRank 检查 Web 站点的链接结构，从而判断哪些页面是最重要的。
Google 还会进行它所说的超文本匹配分析（hypertext-matching analysis） 来判断哪些页面与特定的搜索查询相关。

基本上，Google 使用 PageRank 来评估入站链接（链接到您的站点的站点）和出站链接（您的站点链接到的站点）的质量，它会给出一个值来表示这些链接的数量和质量（流行度）。Google 认为的高质量站点会获得更高的 PageRank。然后，Google 综合使用 PageRank 排名和超文本匹配分析来寻找与搜索相关的页面。

Google 和元标记

Google 并没有完全忽视元标记。如果出于某些原因，爬行器未能提取到在 SERP 列表中显示您的站点所需的信息，它就会提取出元描述标记中的文本。但最佳方案是在可见页面上准备好一份出色的介绍信息。您的实际访问者也会赏识这一点的。

为了防止有人利用垃圾技术欺骗搜索引擎，Google 不断改变它的排名算法并更新它的索引。在搜索引擎中获得高排名的最佳方法是，优化站点，切勿依靠排名算法的漏洞来获得高排名。与现实世界中一样，最诚实的 SEO 就是最好的策略。

第2 部分: SEO 关键词和基础设施策略

在 Google 中获得好排名的关键是对页面上的可见关键词进行优化。正如我在本系列第 1 部分中提到的，一些 Web 站点管理员在早期的 SEO 活动中认为，在所有可用区域中塞满关键词就能够提高搜索引擎排名。这些早期的黑帽 SEO 技术未能取得完全的成功，因为关键词常常与页面上的实际内容不符，这误导了搜索引擎和用户。但是，这些早期的黑帽 SEO 技术在大方向上差不多是正确的，因为关键词优化对于提高站点在搜索引擎结果中的排名很重要。

在这一期中，将学习对关键词进行自左上角向下的白帽 SEO 技术，帮助您为站点选择和优化适当的关键词。另外，还将了解其他白帽 SEO 策略，并学习如何解决基础设施问题来提高站点对搜索引擎的吸引力。

从左上角向下的关键词优化策略

只需两步，即可在关键词策略战役中取得成功：

关键词选择：判断页面提供了什么内容。然后判断潜在受众可能使用哪些词来搜索您的页面，并根据这些词创建关键词。
关键词优化：将这些关键词应用于适当的页面（推荐的数量是每个页面 3 至 5 个关键词），并自左上角开始，向下进行优化。这常常要处理页面的前 200 个单词 —— 页面标题标记、标题、摘要等等。

基本上，关键词越接近左上角，Google 给予它们的权重就越大。我将这称为 “自左上角向下（top-left-down）” 关键词优化策略。用户最初查看 Web 站点的方式与爬行器的方式相同，所以按照自左上角向下强调关键词也是一种良好的 Web 设计实践。

视线跟踪和搜索行为
Enquiro Eye Tracking 研究项目研究了人们查看搜索结果的方式，进一步证明了用户会以自左上角向下的方式查看搜索结果和 Web 页面，这也称为 “黄金三角（golden triangle）”。关于 Google 和 “黄金三角” 的更多信息，参见参考资料。

要想利用关键词策略取得成功，最好是将关键词放在接近页面顶部的地方。许多因素会影响整个搜索引擎排名，包括（但不限于）出站和入站链接、对重定向的使用和其他基础设施问题。但是，SEO 的第一步是选择关键词。

任务 1：关键词选择策略

关键词优化中最重要的任务是，判断页面对于人们实际要搜索的关键词是否是优化的，也就是在针对这些关键词的搜索结果中页面是否会获得高排名。如果没有人搜索您的目标关键词，那么站点在搜索引擎的排名再高也没有意义。这实际上是任何关键词策略的重要部分，但是这个步骤却常常被忽视。

如果已经构建好了页面，那么该怎么办？

您可能已经忽视了这个首要步骤，现在面对现有的 Web 页面，您可能会想，“现在选择关键词是不是太晚了”。一点儿也不晚。在页面投入使用前后都可以决定关键词，但建议您预先做好这一工作，这样就不必重写页面上的文本。

如果 Web 页面已经投入使用了，那么已经有了关键词。但是，这些关键词可能并不合适。或者，关键词是合适的，但是没有经过充分优化。在这种情况下，仍然可以进行全面彻底的关键词选择，以确保对正确的关键词进行优化。

另外，可以通过关键词分析工具测试现有页面，以便更好地了解搜索引擎会如何看待这些页面。（页面分析工具的列表见参考资料。）

如果已经构建好了页面，并认为已经选择了适当的关键词，那么可以跳到排名检查以了解页面是否已经充分优化了。

许多专门的 SEO 工具可以帮助您判断可能关键词的流行度和竞争度。在创建关键词清单时，要记住的主要概念如下：

流行度（Popularity）：人们会使用您的关键词进行搜索吗？
竞争度（Competitiveness）：有多少其他页面也针对这些关键词？应该增加更特定的关键词吗？

正确的 SEO
在 SERP 中获得第一位并不是 SEO 的目标。SEO 的目标是用合理的内容吸引潜在用户访问站点，这些内容必须与用户用来搜索的关键词相符。搜索引擎仅仅是用来接触受众的工具；高排名并不是最终目标，而是第一步。

我们以 developerWorks Web 站点为例来说明关键词选择问题。这个 Web 站点的主页（www.ibm.com/developerworks/）是在 Google 上搜索 “developerWorks” 时排名第一位的结果。这对我们来说是个好消息，但还不足以证明我们的 SEO 努力是成功的。如果用户搜索的是 “developerWorks” 这个单词，就说明他已经知道要去哪里。developerWorks 主页的目标受众是正在寻找 IBM 支持的众多技术和品牌的相关参考资料的开发人员。我们针对的关键词是 “IBM resource developers”，因为我们认为这个有广泛内容的页面与进行较广泛搜索的潜在受众相匹配。

为了接触到正在通过搜索引擎查找信息的受众（见第 1 部分中关于 Jakob Nielson 的介绍），需要判断哪些人并不是在专门找您的页面，但是您的页面对他们是有用的。应该针对这些 “游荡者” 对页面进行优化。

关键词选择的另一个关注点是，判断关键词是否太流行，即竞争度是否太高。如果太多的页面都在争夺搜索这些关键词时的高排名，那么您可能需要选择更特定的关键词。对于有多种含义的关键词，也需要考虑改变关键词。您必须研究用户可能怎样搜索您的页面。页面的内容会回答哪些特定的问题？根据这些问题精炼您的关键词。

如果对于您认为最适合描述自己页面的关键词，SERP 中会出现数以千计的页面，那么需要考虑搜索者会如何处理这种情况。搜索者不会一页接一页地点击 SERP 中的链接；而是很可能输入第二个搜索词，或者干脆换个搜索词。您需要判断页面的哪些特征是与众不同的，而且是可搜索的。如果顶级页面提供了多种类型的内容，那么总是可以从比较一般化的关键词开始，然后在目录中更深、更特定的第二级页面上使用更特定的关键词。

例如，在 Google 中对 “java” 进行搜索，会得到从咖啡到地理位置的各种结果（java 的另一个意思是印度尼西亚的爪哇岛）。但是，搜索 “java technology tutorials” 会返回 developerWorks Java 技术库（www.ibm.com/developerworks/views/java/library.jsp），这里有大量 Java™ 教程的链接。所以，更特定的关键词可以帮助您接触到正在寻找特定页面类型的用户。

关于关键词精炼的更多原则

用于关键词精炼的 SEO 工具

可以使用专门的 SEO 工具精炼关键词选择（参考资料中列出了部分工具），也可以使用 Google 的 Advanced Search Modifiers 之一。例如，在 Google 中对 “allintitle: developer resources” 进行搜索，会得到被 Google 编入索引的标题中包含这两个单词的页面数量。这说明了有多少其他页面在竞争这些单词。

关键词流行度比较难以确定。Overture 这种工具可以列出每个月搜索某些关键词的次数，以及相似关键词和对应的每月查询次数。使用 SEO 工具的最佳策略是只将它们作为额外信息，但是以自己对页面和受众的理解作为 SEO 努力的基础。

在精炼关键词时，要记住大部分搜索只搜索三个或两个单词。在搜索答案时，人们常常用问题组织出搜索词。搜索者不会搜索那些描述解决方案的单词。在对页面进行优化时，一定要像搜索者那样思考问题。

还要记住，在对页面进行优化时不要千篇一律。如果您发现自己的每个页面具有相同的关键词，那么可能需要修改 Web 页面，使它们更有针对性。每个页面都需要适应用户收集信息的方式：常常是从一般化信息到更特定的信息。在导航结构中更特定的页面应该具有更特定的关键词。

如果在决定页面关键词时拿不定主意，那么和编写页面内容的人谈谈，从而进一步了解这些页面，帮助您决定合适的关键词。想一下自己的 Web 站点回答了什么问题。如果您不知道非营销领域如何讨论您的 Web 页面所解决的问题，那么可以访问讨论相同主题的论坛或 blog。

任务 2：对关键词进行优化

选择了关键词之后，就该将它们应用在 Web 页面上了。对于搜索引擎来说，页面文本是页面中最重要的部分。搜索引擎会给予页面标题、文本标题或强调的文本较高的权重。这就是前 200 个单词如此重要的原因。这也是 “自左上角向下” 关键词优化策略的基础。除了页面上的前 200 个单词和强调的文本之外，还要确保主体文本包含关键词。

下面是应该进行优化的东西及其原因：

title 标记（<title>）：所有 SEO 专家都认为 title 标记是页面上最重要的标记。它是爬行器最早遇到的单词，也是页面在 SERP 中列出时显示的标题。使用这个标记说明页面的特色；也就是，要确保将关键词列在这里。
页面文本标题和小标题：页面文本标题和小标题是页面上第二重要的内容。页面文本标题和小标题应该以适当的方式描述页面，这对于用户和搜索引擎都很重要。一些站点将图形用于这些重要的标记 —— 但是爬行器无法读取图形，所以如果使用图形替代文本，这些关键标记就浪费了。
摘要：除了页面标题和文本标题之外，页面还应该有一些描述页面主题的文本。这些文本会被放进 SERP 上对页面的说明中，所以要在其中包含关键词，以便于爬行器和用户了解页面的主题。尽量利用这个区域，使用页面中的前 200 个单词尽可能准确地说明页面的主题。
主要标题以及粗体和斜体的单词：主要标题标记中的单词以及粗体和斜体的单词也会影响排名。这些标记告诉用户突出显示的单词对页面很重要，而且爬行器会以相同方式看到它们。要确保强调的单词包含关键词。
文本主体：不要忘记确保在文本中包含关键词。如果在这方面遇到困难，那么可能说明您选错了关键词。
超链接：如果链接到自己的页面，那么要在链接的可点击部分中使用单词，并用关键词描述链接。不要使用 URL 作为链接的可点击部分。

页面中的前 200 个单词和大多数强调的单词应该是关键词。其次，要确保主体文本包含关键词。

关键词精炼和优化实践

我将以 developerWorks Windows to Linux Roadmap 概述页面（www.ibm.com/developerworks/linux/library/l-roadmap.html）为例。这个路线图用来帮助那些希望从 Windows 迁移到 Linux 的开发人员，概述页面针对开发人员可能搜索的单词做了广泛的优化。我突出显示了在顶部标记和前 200 个单词中出现的关键词。

图 1. 突出显示了关键词的 Linux 路线图

在下面的代码示例中，我提取出 html 中的所有相关代码，包括页面标题、文本标题和小标题后面的前 200 个单词：

<title>Windows-to-Linux roadmap: Overview</title>
<h1>Windows-to-Linux roadmap: Overview</h1>
<em>A roadmap for developers making the transition to Linux</em>

<p>Level: Introductory</p>
<p>Chris Walden (<a href="mailto:dwinfo@us.ibm.com">dwinfo@us.ibm.com</a>), 
 e-business Architect, IBM<br /></p>
<p> 11 Nov  2003</p>
<blockquote>IBM e-business architect Chris Walden is your guide through 
a nine-part developerWorks series on moving your operational skills from 
a Windows® to a Linux® environment. He covers everything 
from logging to networking, and from the command-line to help systems -- even 
compiling packages from available source code.</blockquote>

<p>You're moving from Windows to Linux. You've decided you want the stability, 
flexibility, and cost savings of Linux, but you have many questions in your head. 
Isn't Linux like UNIX?  Isn't UNIX hard? Where do you begin to make sense of all 
of this? Is there a map you can follow?</p>

<p>This roadmap is designed to help you take the experience and knowledge 
that you already have in computing and redirect it to working in Linux. It's not 
the only reference you'll ever need, but it will help you get past some 
of your first obstacles and adjust to a new and, I think, exciting approach 
to computing. As you follow this roadmap, you'll discover many new resources 
to help you learn, troubleshoot, and manage Linux.</p>

注意：在前面的代码示例中，为了便于查看，我们将代码分成了多行。

随着 Linux 路线图变得越来越详细，关键词越来越特定。这个概述页面将得到更广泛的优化，因为它涵盖整个系列。

排名检查

搜索引擎排名优化和统计

如果您不想自己进行搜索引擎提名和统计，可以询问站点上负责统计页面访问量和进行搜索引擎排名优化的人。您应该检查当前的统计数据，从而决定 SEO 努力的方向并建立一个基准来衡量优化工作是否成功。SEO 专家认为大约 30% 的站点流量应该来自搜索引擎。根据正在优化的 Web 站点类型的不同，这个数字有所不同。

在精炼了关键词并对页面进行优化之后，就该关心所有 SEO 工作的目标了：进行排名检查。在研究了页面之后，检查页面对于它的关键词是否能够获得好排名。

在进行排名检查时，要记录已经搜索的关键词、列出了哪些页面以及在 SERP 中的排名。如果在搜索引擎结果的前三页（即前面的 30 个结果）中没有找到自己站点的页面，那么就可以认为是失败，此时应该集中关注采取哪些措施来改进对这些关键词的排名。

如果页面的排名没有您想象得那么好，那么可能需要精炼关键词，或者研究能够影响在搜索引擎中的排名的其他因素。

超越关键词：影响排名的其他因素

我承认，良好的利用 “自左上角向下” 方法的关键词优化策略并不完全代表有机 SEO。然而，关键词优化却是十分有效的白帽 SEO 技术，因为判断和关注页面所表达的内容主题会改进用户体验。另外，在对页面进行优化之后，就不需要为对付搜索引擎中的算法修改而重新修改页面 —— 就像使用黑帽 SEO 技术时那样。

下面是几个其他 SEO 问题。对基础设施的 SEO 改进将在本系列的第 3 部分和第 4 部分中详细讨论。

链接和基础设施

其他 SEO 改进包括：

应用好的链接策略。

PageRank 排名

只能部分信任在 Google Toolbar 中显示的 Google PageRank，因为不守规矩的黑帽 SEO 专家最初使用它作为买卖链接的依据。为了对付这种情况，Google 不再频繁更新 PageRank，现在它只能作为一个不精确的指标。在 PageRank 方面可能遇到的主要问题是带灰色条的页面链接 —— 这些页面是没有被 Google 编入索引的。可以在参考资料中提到的任何 SEO 论坛中了解 SEO 专家对 PageRank 的看法。

SERP 中的排名受到来自其他站点的链接的影响，这方面的改进要逐页面地进行。但是，链接不一定能给您的页面带来帮助，除非 Google 认为它是个 “好链接”。为了提高 Google 给予特定页面的排名和它在 SERP 中的排名，需要从其他高排名的页面链接您的页面。可以根据页面在目标关键词的 SERP 中的位置来判断 Google 给予哪些页面高排名。一些 SEO 专家使用 Google Toolbar 中的 PageRank 排名来判断页面的 “Google 价值”。

实际上，您只能控制自己的出站链接，所以要确保它们是好链接，但是链接的价值由您决定。不建议用垃圾站点（比如明显的链接场）来链接您的页面。

在链接到自己的页面时，要确保链接的可点击部分是页面优化所针对的单词。例如，“Find tons more developer resources from developerWorks.”

检查无效链接并修正 HTML。
如果 Google 的爬行器漫游到您的站点并沿链接前进，但遇到无效链接，它就会停止前进。要确保 HTML 结构良好，所有链接都按照预期工作。站点的用户也会赏识这种做法。
谨慎地进行用户重定向。
Google 的爬行器喜欢直接访问内容。Google 会把重定向解释为垃圾技术，也有可能会误解成 Doorway Page 或 Cloaking 等垃圾技术。如果搜索引擎的爬行器在您的站点中漫游时由于不适当的或过多的重定向遇到了麻烦，您在搜索引擎中的排名就会受损 —— 所以要避免重定向，除非绝对必需。

如果无法避免使用重定向，那么尝试使用 301 服务器重定向。服务器重定向向 Google 爬行器表明这个页面永久转移了，应该将 301 另一端的页面作为新 URL 对待。Google 爬行器会由于元刷新重定向而阻塞，而 302 重定向会导致重复内容处罚。第 3 部分和第 4 部分中将更深入地讨论重定向。
避免 URL 参数。
对于使用内容管理系统的大型站点，大量的参数是一个很常见的问题。参数的问题在于，爬行器可能受到 URL 字符的阻碍，比如与字符（&）。

Google 认为您最多只应该使用一两个参数。基本上，URL 越长、越复杂，它对搜索就越不利。也可以把它看作易用性问题：最好的 URL 就是容易记住的 URL。
建立好的导航。
导航对于爬行器和通过搜索（而不是通过老式的站点内导航方式）进入站点的用户仍然非常有用。这也称为 “自底向上搜索”。人们进入站点之后，需要用链接和好的导航将他们引导到站点的深处。如果一个页面对搜索友好，但是它没有到 Web 站点其他部分的链接，那么进入这个页面的用户就不容易在站点中走得更远。
尽可能少使用 Flash 和其他图形。
如果在站点的重要方面使用 Flash 或图形替代文本，那么会对搜索引擎或潜在用户产生不好的影响。页面阅读器无法读取 Flash 或图形，搜索引擎也不行。
避免任何会阻碍爬行器在站点中漫游的东西。
如果使用 Frame、JavaScript 和页面阅读器无法读取的其他技术，也会产生爬行器无法读取（或者会阻碍爬行器）的内容。
不要做得太过火。
既然您已经知道了如何吸引搜索引擎的注意，就可能试图在前 200 个单词中塞满关键词，而忽视其他方面。但是，这不是白帽 SEO 方式。不要仅仅为了获得第一名而对站点进行过度优化。您的目标是将用户从搜索引擎吸引过来。但是，受众进入站点之后，您希望他们留下来。应该创建具有良好的用户体验的页面，用户会感谢您，搜索引擎也会因此奖励您。

关于其他白帽 SEO 最佳实践，请查阅参考资料中 Google 对 Web 管理员的要求。本系列的第 3 部分和第 4 部分将讨论其他 SEO 问题和解决方案。

第3 部分: 让 Web 页面进入搜索引擎索引

Web 搜索是热点，而且越来越热门。四分之三的 Web 用户经常进行搜索，64% 的 Web 用户以搜索作为寻找信息的主要方法（参见参考资料中相关研究的链接）。这些用户会找到您的站点吗？您的 Web 站点会错过机会吗？

在本系列的前两部分中，Jennette Banks 概述了搜索营销（第 1 部分）以及关键词规划和优化的基础知识（第 2 部分）。

在第 3 部分中，我们重点介绍让 Web 站点的页面进入搜索索引所需的知识。搜索索引是 Google 和 Yahoo!® 这样的搜索引擎在用户进行搜索时使用的数据库。如果 Web 页面没有被编入搜索引擎的索引，那么引擎就不会找到它，所以将页面添加到索引中是取得 SEO 成功的关键一步。

我的站点上有多少页面进入了索引？

如果想知道您的站点上有多少页面进入了索引，那么先做个简单的测试。进入 Google 或者您喜欢的其他搜索引擎，搜索您公司的名称。如果公司名称是一个常见名称（比如 AAA Plumbing 或 Acme Industries），那么再加上地区（AAA Plumbing Peoria）或公司最出名的产品（Acme Industries sheet metal），看看您的站点是否被找到了。

如果发现一个 Web 站点根本没有被编入搜索索引中，那么通常有两个原因：

站点是新的。如果 Web 站点是刚刚建立的，而且在搜索索引中没有其他站点链接到它，那么搜索引擎还没有发现它。在这种情况下，只需让其他某些站点链接到您的站点。
站点被禁止了。如果搜索引擎认为您的站点采用了不道德的（即黑帽）SEO 做法，就可能会从它们的索引中删除您的所有页面。如果您发现自己处于这种糟糕的境地，那么找一位搜索营销专家来对站点进行分析并找出违反道德的地方，在纠正问题之后，向搜索引擎请求予以 “宽恕”。

如果幸运的话，在搜索引擎中输入公司名称时，至少会找到您 Web 站点上的一个页面。通常情况是任何特定的搜索引擎只将您的部分页面编入了索引中，但是如果几乎所有页面都被编入了索引，就更好了。没有编入索引的页面越多，您站点的潜在访问者就越有可能转向您的竞争对手（如果他们的页面已编入索引）。

包含率

首先，计算包含率（inclusion ratio），也就是被搜索引擎编入索引的页面占总页面数的百分比。当然，理想的包含率是 100%，但是稍微低一些也可以让人满意。如果页面中只有不到 50% 被包含在搜索索引中，那么就要认真对待了。

为了计算包含率，将搜索引擎索引中的页面数除以您站点上的页面总数。如果您的 Web 站点相当小，那么估算站点的页面总数可能很容易，但是对于大型站点，有时候很难查明有多少个页面。对于大型站点，可以使用几种方法估算页面数：

询问 Web 管理员。Web 管理员以前肯定被问到过这个问题，他很可能已经做过研究。
统计内容管理系统中的文档数量。通常，每个文档会创建一个独特的页面，所以这会给出页面数的估计值。
使用工具：OptiSpider™ 或 Xenu 等程序会检查站点并报告找到了多少个页面（参见参考资料）。

对 Web 站点的规模进行估算之后，就要查明站点中有多少页面被编入了索引。Google、Yahoo! Search 和 MSN Search 都提供了 “site:” 操作符，它会报告您需要知道的信息。输入 site:，后面加上您的域名（比如 site:kodak.com），查看返回的结果。更方便的工具是 Marketleap 的免费工具 Saturation Reporting Tool（参见参考资料），它会显示任何站点在每个搜索索引中的页面数。

爬行器路径

如果计算包含率的结果很糟糕，那么该怎么办呢？首先，我们回顾一下搜索引擎如何将页面编入索引。搜索引擎使用专门设计的称为爬行器（spider 或 crawler）的程序来检查站点上的页面。

爬行器收集每个页面的 HTML，并记录到其他页面的链接，这样以后它就可以去收集这些页面的 HTML。您可以想像到，经过足够长的时间之后，爬行器最终会找到 Web 上的每个页面（至少是每个链接到其他页面的页面）。获得页面，找到页面上的所有链接，然后获得链接到的那些页面，这个过程称为 “在 Web 上爬行”。

因为爬行器是这样工作的，创建对每个页面的链接可以简化让站点被编入索引的任务 —— 我们将这些技术称为爬行器路径（spider path）。您的站点已经包含路径，而且可能已经有了最重要的爬行器路径类型：站点地图。如果站点只包含少量页面，那么站点地图可以列出并链接到站点上的每个页面。

但是，站点地图不应该超过 100 个链接，所以比较大的站点地图必须链接到分类页面，这些页面再链接到站点上的其他页面。最大型的 Web 站点通常划分成针对各个国家的分站，这就需要特殊的站点地图，称为国家地图（country map），其中列出每个国家的名称并链接到各个国家站点的主页。爬行器非常喜欢这种技术。（参见参考资料中大型站点地图的示例。）

只有爬行器到了您的站点上，站点地图才会发挥作用，但是还有更加主动的使页面被编入索引的方法。Google 和 Yahoo! 都提供包含程序（inclusion program），专门用来使页面被编入索引。Google 的 beta 程序称为 Sitemaps（参见参考资料），它是免费的，提供几种向 Google 爬行器通知页面位置的方法。甚至可以请求 Google 对您的一部分页面进行更频繁的索引更新。Yahoo! 提供一个付费的包含程序 SiteMatch（参见参考资料），它承诺在 48 小时内对您的页面重新编制索引。（Google 对时间没有做出承诺。）

RSS feed 提供了另一种方法，可以在页面发布时使页面迅速地被编入索引。使用 Ping-O-Matic!（参见参考资料）通知搜索引擎在 RSS feed 有了新条目，新条目常常会在一两天内被编入索引。

清理爬行器路径

徒步旅行的队伍要让开路者去探索和标出前进路线，但是开路者必须经常清理这些路径，使路径不会损毁或荒废。爬行器路径也是一样的；除非经常检查它们，否则很可能就会阻塞了。

如果您忽视了爬行器的工作方式，爬行器路径就很容易成为爬行器陷阱。对人来说很好的页面却可能阻碍爬行器。爬行器是自动的，所以不会像人类访问者那样填写注册表单。如果链接到站点上的页面所需的操作不仅仅是沿着 HTML 锚标记走，那么这个链接可能会对爬行器隐藏。

这意味着 JavaScript、Flash、frames 和 cookie 也会造成问题。如果您的 Web 页面没有这些技术就根本无法显示，那么页面就不会被爬行器编入索引。另外，如果用户需要这些技术才能使用链接，那么爬行器就无法沿着链接前进。

爬行器只查看 HTML 代码，就像有视力障碍的用户所用的屏幕阅读器一样。要想体会一下爬行器看到了什么，可以在查看页面时禁用浏览器对 cookie、JavaScript 和图形的支持，或者使用文本模式的 Lynx 浏览器或 Lynx Viewer（参见参考资料）。如果页面可以使用 Lynx 完整地显示，那么它们很可能能够被编入索引。根本不显示或者显示得很不完整的页面不容易被搜索引擎找到。

即使您避免使用这些惹麻烦的技术，仍然可能会给爬行器造成阻碍。爬行器对 HTML 代码的正确性要求非常严格 —— 浏览器就要宽容多了。在浏览器中看起来很好的页面却可能阻碍爬行器，这会使爬行器看不到或误解整个页面或部分页面。HTML 检验服务（参见参考资料）和 Firefox 浏览器可以发现这些错误。

还必须注意爬行器对每个页面的内容大小限制。大多数爬行器只对页面中的前 100,000 个字符编制索引。这个数字听起来似乎很大，但是如果在页面中添加 JavaScript 程序和样式表，或者把整个用户手册放进一个 PDF 文件中，那么很快就会达到这个限制。所以，可以考虑将手册分割为每章一个 PDF，并将所有 JavaScript 和样式表代码转移到外部文件中。

欢迎爬行器

清理了爬行器路径之后，必须确保爬行器是受欢迎的。最明显的建议是，当爬行器到达时，确保站点正在运行，能够做出响应。因为不知道爬行器什么时候会访问您的站点，频繁地停机（即 “维护时间窗”）会有风险，如果爬行器在站点停机时到来，它就会认为站点是失效的，从而转到其他站点去。

如果站点的响应速度非常慢，这几乎和完全失效一样糟糕，因为爬行器是按进度计划运行的。对于缓慢的站点，它们编入索引的页面更少，而且再次访问的频率更低，因为在同样的时间内它们能够在其他地方处理更多的页面。

即使您的站点通常不停机而且速度很快，仍然有可能由于错误地编写了机器人指令（robots instruction） 而将爬行器拒之门外。可以使用 robots.txt 文件让爬行器避开某些页面、目录或整个站点，所以如果站点的指令编写错了，就可能赶走爬行器。另外，每个页面都可以有一个 robots 标记，它指示爬行器是否将这个页面编入索引，以及是否沿着其中的链接前进（参见参考资料。）

留住爬行器

即使您的站点欢迎爬行器，也不能保证它以后不会遗弃这个站点。

会阻碍爬行器的一个问题是对页面使用长的动态 URL。许多动态 URL 需要用参数来选择要显示的内容，比如来自 Canada 产品目录的产品 2372 的法文说明。爬行器很反感这些动态站点，因为参数的组合几乎是无穷的 —— 爬行器不希望在站点中迷路。当爬行器看到 URL 超过 1,000 个字符或者其中的参数超过两个时，它们往往会跳过这些页面。

如果您的站点存在这些有问题的 URL，就必须参考 Web 服务器的文档，研究如何改变 URL 的形式以使爬行器满意。例如，Apache 使用 “mod_rewrite” 功能（参见参考资料）修改 URL，其他 Web 服务器也有相似的功能。

所谓的 “会话标识符” 也会吓走爬行器。一些程序员在 URL 中创建一个参数，用来捕捉关于当前访问者的信息（常常用 “id=” 加上惟一的字母数字编码来标识）。爬行器很讨厌这种技术，因为它导致成百上千的不同 URL 显示同样的内容。程序员应该将这一信息存储在 Web 应用服务器的会话层或者 cookie 中。（但是，正如前面讨论的，显示页面应该不需要 cookie，否则爬行器无法将它编入索引。）

分析了动态页面之后，还要注意另一个可能给页面造成麻烦的问题。重定向 这种技术告诉浏览器和爬行器请求的 URL 已经改变了。例如，如果您的公司改名了，它可能也会改变 Web 站点的域名，所以重定向可以将来自旧 URL 的所有访问者转到新的 URL。但是，对于爬行器有效的重定向方法只有一种：服务器端重定向，也称为 301 重定向（参见参考资料）。其他重定向技术对浏览器是有效的，比如元刷新重定向和 JavaScript 重定向，但是爬行器无法沿着这些重定向的路径前进，这会使重定向的页面不被编入搜索索引。

第 4 部分: 改进大型站点的搜索营销

您的 Web 站点有多大？数千个页面？数百万个页面？如果页面数量超过几千个，那么在搜索引擎优化方面就会遇到在小型站点中没有的特殊问题。我们来谈谈如何对大型站点进行成功的 SEO。

大型 Web 站点对 SEO 提出了一些新挑战。如果您能够将整个 Web 团队集合在一间会议室中，那么您的站点还不算大。您或许拥有一家非常成功的企业，但是您的问题不同于我们这个四部分的 SEO 系列所探讨的问题。

在第 1 部分和第 2 部分中，Jennette Banks 概述了搜索营销以及关键词规划和优化的基础知识。在第 3 部分中，我们集中介绍了如何让页面进入搜索索引。在这三篇文章中，您看到了所有 Web 站点（无论规模如何）必须如何做才能吸引 Google 等互联网搜索引擎的关注。但是，大型 Web 站点确实有所不同。如果您的 Web 站点由数千甚至数百万页面组成，就会遇到这些特殊的 SEO 挑战。

在第 4 部分中，我们要解决大型 Web 站点特有的问题。我们将讨论维护

分享到：