Google 网站管理员指南(1)
今天让我们研究一下Google对网站管理员的建议,逐一分析,也来看看其内涵的特别意思。
网站准备就绪后:
+将其他相关网站链接到您的网站上。
+将其提交给 Google,网址为:http://www.google.com/addurl.html。
+将 Sitemap 作为我们 Google Sitemaps(测试版)项目的一部分进行提交。Google Sitemaps 使用您的 Sitemap 了解您网站的结构并提高我们对您网页的利用率。
+确保应了解您网页的所有网站都知道您的网站已处于在线状态。
+将您的网站提交给相关的目录,例如,Open Directory Project 和 Yahoo!,以及其他特定行业的专业网站。
这里的先后顺序相信是Google有意安排的,并非排名不分先后。
当网站基本建立完成后,首先要有外部链接,就是需要有其他的网站,相关的网站,链接到你的网站,这是最重要的,也是首先要做的事情。接下来才谈得上其他的网站提交工作。
一个孤岛似的网站,很难要求Google去收录。
好了,现在有了几个外部链接,用你网站的名字,或者关键词链接到你的网站。
下面开始提交你的网站到Google。这一步重要性不再如以前那么重要了。
Sitemap是一个帮助Google蜘蛛来更好的遍历你的网站的工具,不要小看她,还是好好的做一个Sitemap文件,提交到Google Sitemaps.
第四条有点奇怪,我的理解就是重复第一点,加强外部相关网站到你的网站的链接。
最后一条,才是提交到目录,各种行业目录。
显然,Google更看重从相关网站所来的链接,从他重复了两遍,就可以看出其重要性。而从目录来的链接权重要小于前者,当然也很重要。
Google 网站管理员指南(2)
现在我们来讲讲技术层面的东西。在这一部分,Google中文的内容简直是惨不忍睹,我还是链接英文原文,加上我的解释好了,至少看得懂。
Technical guidelines技术指南
大部分的搜索引擎蜘蛛拜访你的网站时候,如同一个文本浏览器,比如Lynx,你可以下载一个Lynx浏览器,看看你的网页在Google蜘蛛的眼中是什么样子。如果由于你使用了Javascript、Cookie、会话ID、框架等复杂的技术,造成在文本浏览器中看不到你希望的样子,那么,显然Google的蜘蛛也看不到。所以要避免这种状况出现。
在Google蜘蛛抓取你的网页的时候,要避免使用会话ID,session ID,这个东西会造成Google抓取网页不完全。
Update:10月25日,Google修改了这条,可以接受参数,尽量简短,不要超过两个,如果可以得话,还是用静态网址的好。
如果你的网站所在的WEB服务器支持if-Modified-Sice HTTP头,那么就打开它,可以告诉Google蜘蛛哪些网页是新的要抓取,那些是旧的不用抓取,这样可以节省你的带宽和服务器开销。
要设置好网站的robots.txt,这个文件是用来告诉搜索引擎的蜘蛛,那些目录可以抓取,那些不可以。要注意的是,确保该文件正确反映你的网站的现状,不要阻止蜘蛛抓取你想给它抓取得目录。你也可以在使用Google Sitemaps的工具来分析。
如果使用了内容管理系统CMS,那么也要确保其能正确导出内容,以便搜索引擎的蜘蛛可以抓取你的网站。
切勿使用"&id="作为网址的参数,因为Google不会在索引中包含这些网页。
从上面的六条内容来看,文本内容很重要,确保您的网站在文本浏览器的样子是你所期望的。
不要使用太多花哨的技术,这样不利于Google的收录。
而且会话ID是Google很不喜欢的。
SEO的8项技巧
1)服务器的位置
根据你主要目标用户的位置来确定你的网站服务器的位置。
Google对于服务器的IP地址(可以用来确定位置)还是有所区别的。
2)服务器的IP地址是否被处罚过
如果使用的是虚拟主机,或者是共享的空间,那么要注意,谁是你的邻居。
一台主机上有40个虚拟主机,如果其中的大多数网站,在Google都曾被除名,或者屏蔽的话,你的服务器也会受到牵连。
首先检查一下,这台服务器上有多少的网站,使用这个工具可以轻松查到结果:
http://whois.webhosting.info/ip/
这里的ip就用你要查的服务器的ip地址来代替。
然后用所查到的网站域名,来查看Google收录了多少页面,在Google的搜索框里输入site:www.###.com就可以了。
如果大部分的网站都没有给Google收录的话,那么很有可能这台服务器被Google处罚过,最好换一台。
3)服务器的稳定性
一个稳定的网站,需要一台稳定的服务器。一台三天两头会down机的服务器,如果恰好在Google蜘蛛来抓取你的网站的时候,无法访问,你的排名和收录都会受到很大的影响。
4)域名、路径名、文件名
这些词都有关键词的作用,要选择好的,这却反映你公司的域名,然后路径名称,和文件名称都会对Google排名有很大的影响。
记得使用英文,或者拼音来做路径名和文件名,不要直接用中文。
5)网页的标题和meta标签
这就是最常用的Title标签,和meta标签。
我觉得Title更为重要,一定要用好,每个页面都要用不同的Title,要用最能描述网页内容的名字。
至于meta的description和keywords,对于Google来说已,不再那样重要。
到这里开始是精髓,要注意看了。
如何使用Google Sitemaps
Google Sitemaps是Google提供给网站站长的工具,有两项功能,第一就是可以让站长提交完整的网站地图给Google,便于Google蜘蛛遍历整个网站。第二是一个控制台,提供了网站在Google索引里的情况,以及蜘蛛抓取网页的情况,是否有无法抓取的问题等等。
1)首先你要有一个Google Account。如果没有的话,去这里申请。
2)登录到Google网站管理员工具。
3)添加网站。
4)确认网站的所有权,基本上这里是控制权的确认。
5)提交Google Sitemaps文件。
至于Google Sitemaps文件,不同于其他的网站地图,它用自己的协议,那么如何制作这么一个专用于Google Sitemaps的文件就成为了一个问题。
Google更新规律
最近我的观察,Google的更新相当的频繁,从昨天开始的这一轮更新,到现在还没有结束。
Google为了维持,或者说保持其在搜索领域的先进性,在不断的加快它的索引服务器的更新速度。
如果一个PR值在5以上的网站,新的内容一般在几个小时里就会出现在Google的搜索结果里。
虽然确切的时间没法确定,可是只要常常去看看你的网站的收录数,你就能发现,Google更新的越发频繁了。
通常,如果你在Google Sitemaps里提交了Sitemaps文件后的1,2个小时,就会有Google蜘蛛来光顾你的网站。至于反映的收录数目,则需要等更多的时间。
不管怎样,Google更新频繁,是一件好事,至少对于那些网站内容更新频繁的站长来说,是的。
Google PageRank 在线检测
Google排名参考了很多的参数,而其最核心的仍然是PageRank。
PageRank 是基于「从许多优质的网页链接过来的网页,必定还是优质网页」的回归关系,来判定所有网页的重要性。
来看看Google自己的说明
关于PageRank
PageRank,有效地利用了 Web 所拥有的庞大链接构造的特性。 从网页A导向网页B的链接被看作是对页面A对页面B的支持投票,Google根据这个投票数来判断页面的重要性。可是 Google 不单单只看投票数(即链接数),对投票的页面也进行分析。「重要性」高的页面所投的票的评价会更高,因为接受这个投票页面会被理解为「重要的物品」。
根据这样的分析,得到了高评价的重要页面会被给予较高的 Page Rank(网页等级),在检索结果内的名次也会提高。PageRank 是 Google 中表示网页重要性的综合性指标,而且不会受到各种检索(引擎)的影响。倒不如说,PageRank 就是基于对"使用复杂的算法而得到的链接构造"的分析,从而得出的各网页本身的特性。
当然,重要性高的页面如果和检索词句没有关联同样也没有任何意义。为此 Google 使用了精练后的文本匹配技术,使得能够检索出重要而且正确的页面。
基本上在Google的搜索索引里有收录的网页,都有一个PageRank,从0到10不等。
如果你有安装Google的工具条,那么在浏览时,看到PageRank的值。
META标签是否不再重要呢
META标签在早期的搜索引擎技术里是很重要的,因为那时它们还没有能力抓取所有的网页,也没有技术作全文分析,那么每个META标签就显得非常重要。
最常用的META标签是,META DESCRIPTION和META KEYWORDS,前者是描述该网页的主题,后者是相关的关键词。
有些SEO业者认为对于Google来说META标签不再重要,可是根据我的观察,META标签在Google的搜索索引里还是有一定的地位的。
比如
在这里的网址的说明部分,就是采用的META DESCRIPTION的内容。
该页是百度的站长建议(1),你也可以自己去看看那里的源代码。
我在该网页的头部加入了下面的说明:
<meta name="description" content="如何使您的站点被百度有效收录,有针对性的分析百度的站长指南。" />
可见,Google对于META标签还是有所考虑的。
Google蜘蛛有几种
如果你看过一些有关SEO的文章,一定会发现有这样一个名词“Google蜘蛛”,也叫做Google Spider。
常见的Google蜘蛛有两种。
一种是搜索引擎用的,叫做Googlebot,它会访问制定的网页,收集该网页上的链接,而且会顺着这些链接找其他的网页,通过这些链接,把世界上的网页连成了一个巨大的网,所以这些在网络上爬行的Googlebot也被称为Google蜘蛛。
在Robots.txt文件里的写法和设定,如下:
User-Agent: Googlebot
Disallow:
还有一种叫做Mediabot,这种蜘蛛也是Google的,它的目的是抓取网页来匹配Google AdSense与内容相关广告的。
在Robots.txt文件里的写法和设定,如下:
User-agent: Mediapartners-Google*
Disallow:
Google收购Neven Vision
最近有一条消息,指称Google收购了Neven Vision,一家图像公司。这个消息已经被证实,参见A better way to organize photos?
当然Google是说会整合该公司的面部识别技术到未来版本的Picasa,以利于用户搜索照片。
可是这种技术的发展,可以让Google在图像识别技术上取得很大的先机。MSN已经有了自己的人像识别技术,虽然略显粗糙,可是把人像转为卡通头像已经可以做到了。
现在Google获得了这项面部识别功能的技术,在这个领域同Microsoft有的一拼。
那么当Google收购了Neven Vision之后,除了把面部识别技术应用到Picasa里,还有哪里可以用呢?
不免让人想到Google赖以生存的搜索,其实Neven Vision本身拥有14项面部识别的专利,它已经有一个基于照相手机的图像搜索引擎。
Google会不会把这项技术应用到Google Image呢?只要提供一幅图像,那么Google就可以在网上找到相似或者相同的图像,而且告诉你在哪里。
Google而且提到,这项识别技术的发展,将不止包括人物,还有物体和地点。
Google的关键词工具
昨天我在写选择关键词的三个要素的时候,想到过用Google AdWords来分析关键词,今天就来探讨一下。
Google 关键字工具
同样用昨天的玫瑰花和康乃馨为例。

可以看出Google给出了明确的答案。
使用这个工具的主要目的,就是在表达相似意思的多个关键词之间,找到一个,或者几个搜索量相对大的关键词,以帮助筛选关键词,用于网站的优化。
在Google Sitemaps里设置网站的首选域
Google的Sitemaps是一个专门为站长设计的工具,关于Sitempas文件的制作,我们已经在如何使用Google Sitemaps讲过。现在我们会来谈谈在Sitemaps里设置首选域的问题。
登录Google Sitemaps后,在诊断〉首选域部分有设置。
在互联网的网址规范里面,seo.g2soft.net和www.seo.g2soft.net是完全不同的两个主机名字,代表了两个网站,可是有些网站的有www和没有www开头的网址其实是指向了相同的内容,这种情况,会被搜索引擎认为是重复内容而受到处罚,而首选域的功能就是让你可以设定,有www和没有www开头的主机其实是相同的主机,而且用你所习惯的,所首选的网址形式表达出来。
当然你可以不设置,默认的设置就是两者是不同的网站。
在没有首选域这个设置之前,常规的做法是,把seo.g2soft.net指向网站空间,而www.seo.g2soft.net用301重定向到seo.g2soft.net。
现在我只要在GoogleSitemaps里设置首选域为seo.g2soft.net就可以了。
这个设置只对Google的搜索引擎有作用,那么如果你想对其他的搜索也能做到相同的功效,就必须使用301重定向了。
昨天Google对于Sitemaps的首选域部分有所改进,参见下面的文章。
Setting the preferred domain
常见问题:
Q. 设置首选域之后,多久会看到我改变的网址在搜索结果中出现?
A. 一般在几个星期里会出现。
Q. 设置首选域后的变化?
A. 设置首选域后,
1)所有指向那个站点(包括有www和没有www)的链接,都会被认为是指向你所设定的那个域名网址。这样有利于对PageRank的认定。
2)在之后蜘蛛抓取网页的时候,会直接去你所设定的首选域去抓取。
3)在搜索引擎里所收录的页面会采用你所设定的首选域,如果已经有不同的版本(包括有www和没有www),那么逐渐的,你会看到收录的网页会转换到你所设定的首选域。
受Fenng的技术高手的启发,做了相关的研究。
如他所说,用技术高手来搜索,他的Blog排在了前面,似乎同这个query不太相干。
当我们选择“网页”,“所有中文网页”,或者“简体中文网页”的范围来搜索的话,结果就是这样,DBA Notes排在第一。
而当我选择“中国的网页”的时候,DBA notes就不再是第一了,而且在搜索结果里消失了。

当我们用Site命令来查看该网站时。
Site:dbanotes.net
使用”中国的网页“,结果是收录数为零。
当我们用不同的范围来搜索的时候结果不同:
“网页” - 5000结果
“所有中文网页 ” - 包括简体,繁体,共1620个结果。
“简体中文网页” - 1630项。
“中国的网页” - 0。
以上是在www.google.cn上的查询结果。
当使用www.google.com的时候,就没有了“中国的网页”这个选项。
相信Google的这个概念“中国的网页”是用网站所在的IP地址来判断的。
本站因为在加拿大,所以也有同样的现象。