中国IT动力,最新最全的IT技术教程
最新100篇 | 推荐100篇 | 专题100篇 | 排行榜 | 搜索 | 在线API文档
首 页 | 程序开发 | 操作系统 | 软件应用 | 图形图象 | 网络应用 | 精文荟萃 | 教育认证 | 硬件维护 | 未整理篇 | 站长教程
ASP JS PHP工程 ASP.NET 网站建设 UML J2EESUN .NET VC VB VFP 网络维护 数据库 DB2 SQL2000 Oracle Mysql
服务器 Win2000 Office C DreamWeaver FireWorks Flash PhotoShop 上网宝典 CorelDraw 协议大全 网络安全 微软认证
硬件维护  CPU  主板  硬盘  内存  显卡  显示器  键盘鼠标  声卡音箱  打印机  机箱电源  BIOS  网卡  C#  Java  Delphi  vs.net2005
  当前位置:> 站长教程 > 搜索引擎优化 > Google优化推广
控制Googlebot对网站的索引与收录
作者:佚名 时间:2006-09-04 09:15 出处:ce100.com 责编:月夜寒箫
              摘要:控制Googlebot对网站的索引与收录
 一般说来,在网站建设中,总是希望搜索引擎的机器人能够尽可能地在网站内爬行,收录网站尽可能多的页面,要实现这一点,需要在网页设计与制作时尽可能照顾搜索引擎Spider,避免或减少使用图片、Flash、JavaScript等。但是,对大多数网站而言,往往也存在着部分私密性数据不想公诸于众,比如网站的后台程序部分,比如存放于Internet网站服务器上的企业内部信息页面等,对这部分不希望被搜索引擎收录的内容,应如何控制搜索引擎Spider对其的爬行与索引呢?

  Matt Cutts近日提供了一个控制Googlebot索引网页的说明,尽管他所言只是针对Google,但适用于大多数搜索引擎,简要归纳如下:

  1. 网站/目录级别,推荐使用 .htaccess文件来对网站的私密部分加以密码保护,这是最安全的作法,目前各搜索引擎的Spider对密码保护的内容都是无能为力的。同时,.htaccess也可将初级的入侵者拒之门外。不过,.htaccess文件只在Unix/Linux下起作用,国内流行的Windows 平台服务器则无法使用这一功能。
  2. 网站/目录级别,也可以使用robots.txt来控制搜索引擎抓取,这也是不支持.htaccess文件的Windows 平台服务器下的的必须选择。不过,与采用.htaccess文件的方式,控制权完全掌握在网站建设者手中相比,robots.txt能否完全控制搜索引擎的Spider取决于搜索引擎是不是严格遵循robots.txt文件的要求,如Baidu的Spider就曾多次被质疑。
  3. 网页级别,在html文件中使用meta标签,“noindex”标签将告诉搜索引擎的Spider该页面拒绝收录,“nofollow”标签则告诉搜索引擎的Spider该网页内的所有链接拒绝爬行。同样地,这些标签Googlebot能够很好地辨识并遵循,但有些搜索引擎则未必。
  4. 链接级别,可以为某个单独的链接使用“nofollow”标签。
  5. 如果要保护的内容已经被Google收录,可以使用google的网址删除系统。一般说来,这是最后的手段,要慎重地使用,在Google索引中被删除的内容在180天内不会被重新收录。具体可参考Google的帮助。

  当然,要完全杜绝私密内容被搜索引擎、被别人看到,最有效的还是不要将其放在面向公众访问的Internet服务器上。

 

关闭本页
 
首页 | 投资与合作 | 服务条款 | 隐私政策 | 收藏本站 | 设为首页 | 新用户注册 | 免责声明 | 使用帮助
Copyright ©2005-2008 chinaitpower.com All rights reserved. www.chinaitpower.com 版权所有