robots.txt与sitemap.xml 这两个是文件放在网站的根目录,是给搜索引擎看的。适当优化这两文件,可以增强对搜索引擎的友好性。 robots.txt 划定了哪些爬虫可以收录网站,哪些目录可以收录,哪些不要收录。还有网站舆图sitemap.xml的链接。

例: # Robots.txt file from http://lanwairen.rupai.net

User-agent: *

Sitemap: http://lanwairen.rupai.net/sitemap.xml

更多内容可参考: http://baike.baidu.com/view/1280732.htm

http://www.dunsh.org/2006/08/02/robotstxt/ sitemap.xml

Google推出的Sitemap,是对原来robots.txt的扩展,它使用XML格局来记实整个网站的信息并供Google读取,使搜索引擎能更快更全面的收录网站的内容。Sitemap的作用就似乎为网站提供了整站的RSS,而Google就是这些RSS的订阅者,只要网站有更新就会自动通知Google。这样一来,搜索引擎的收录由被动的Pull变成了主动的Push,辛劳的Google爬虫们终于可以松一口吻了。  简朴点说,就是你以XML的格局向Google提交一个站点舆图,以后google就会根据这个舆图,阶段性地抓取该舆图指出的页面。诉苦google收入页面太少的朋友不妨一试。 有索引sitemap和普通sitemap,例子可见:

http://www.google.cn/support/webmasters/bin/answer.py?answer=71453&topic=13452 http://baike.baidu.com/view/1072062.htm

个人看法: 1、两者结适用,robots可以定义不让搜索引擎收录特定的内容。sitemap不能。

2、且看尺度的文件: http://lanwairen.rupai.net/robots.txt

http://lanwairen.rupai.net/sitemap.xml