搜索引擎的收录

建了站,当然希望搜索引擎来收录自己的网页,好让更多的人通过搜索引擎来访问。写这篇文章综述一下搜索引擎收录的问题。

国人用的比较多的就是Google和百度了,首先考虑的就是让这两个搜索引擎收录,其他的么,国内几个门户的就算了,MSN和Yahoo应该考虑下。既然是Blog网站,几个Blog搜索引擎也是必要的。

这几个搜索引擎都有登陆页面,上去填一下地址就可以了:

  • Google:http://www.google.com/intl/zh-CN/add_url.html
  • 百度:http://www.baidu.com/search/url_submit.html
  • MSN:http://search.msn.com/docs/submit.aspx

而Blog搜索引擎比如www.technorati.com可以通过ping来通知

Google有个Google Sitemaps,我的这篇文章有介绍,使用Google Sitemaps据说可以让你的网页更快更全地被Google收录,而且在他的页面也可以看看自己网站的统计信息,比如热门搜索,各个页面的PR值,抓取中出现的错误,以及测试robots.txt文件。

总体来说百度收录的很快,而Google收录的慢些。有一篇《Google和百度收录网站页面的比较》讲的不错。Google对PR值较高的收录比较快,而百度则是来者不拒,导致Google的质量较高,而百度则很杂,不过有些新出来的东西,由于百度收录的比较快,那么在Google上搜不到的话去百度看看也不错。另外就是百度对国内的网站收录的比较多,国外的收录的就少了,而且有一些比如sitesled,blogspot等他根本就不收录,所以搜索英文网站还是去Google的好。

还有一个事,就是哪些不让搜索引擎收录的问题。有些文件是不想让搜索引擎收录的。比如feed,我就经常在Google里搜到结果后发现是个feed,然后还要自己在一堆XML代码中找出页面地址打开;另外存档文件也不想让搜索引擎收录,因为Google和百度等搜索引擎都会检测页面是否重复,每个月的第一篇文章和当月的存档文件很容易被认为是重复的,而存档文件个头更大些,搜索引擎就会只收存档页面而不收第一篇文章的页面了,其他的文章也会有同样的情况。正是由于这个原因,我原来用Blogger搭建的Blog光文章就有40多篇,在Google只收录了30个页面左右,百度不太清楚,因为sitesled的页面百度一个都不收。

http://www.robotstxt.org/wc/robots.html这个网站讲的比较全面,另外就是http://www.robotstxt.org/wc/norobots-rfc.html,百度的http://www.baidu.com/search/robots.html,今天发现了一个,就是allow语句,可以实现抓取http://yskin.net/2005/02/1.html而不抓取http://yskin.net/2005/02/这样的存档页面。使用Google Sitemaps的robots.txt测试通过,不知道百度支持不支持。不让搜索引擎收录可以通过robots.txt文件的办法,也就是在网站根目录建立一个robots.txt文件,你可以参考Web Server Administrator's Guide to the Robots Exclusion Protocol这篇文章。我在robots.txt里禁止搜索引擎收录feed,sitemap,以及category下的文件,可是按月存档却没法封,因为"http://yskin.net/2006/04/"这样的地址一封就把单个的文章页面也封了。于是只好用另外一个办法,通过页面的META tag对搜索引擎进行限制。关于META tag可以参考HTML Author's Guide to the Robots META tag.这篇文章。我在header.php里写入只要是存档页面则加上< meta content="noindex,follow" name="robots" />这一句,这样可以使搜索引擎不收录此页面,但是还是继续搜索下面的页面。

好像百度对META Tag并不支持,Google倒是支持的不错。有几个工具站,可以做下面几件事:帮助你一次看到很多搜索引擎对你的网站的收录数;查询Google各个服务器上你的网站的PR值。

这个Mypagerank提供一段代码,放在网站上就可以显示网站的PR值,被Google索引的页面数以及被被人链接数。我今天加上了,目前全都显示为0,希望过段时间PR值会涨起来。

未写完...

robots文件里,每个bot选项对应的是单独的bot,*的对应其他bot,所以不要认为*的是通用的,其他的再定其他选择项。

Update:刚发现一个坏例子:www.june6.cn。Google收录了他500多页,可是site:www.june6.cn却只显示出一项,其他的都被认为是重复项目。可怜啊可怜。

本文共有 1 条评论搜索引擎的收录


  1. 1 搜索引擎的收录 | One Studio.
    Pingback2007-1-25 2:29 下午

请留下您的评论: