中国IT动力,最新最全的IT技术教程
最新100篇 | 推荐100篇 | 专题100篇 | 排行榜 | 搜索 | 在线API文档
首 页 | 程序开发 | 操作系统 | 软件应用 | 图形图象 | 网络应用 | 精文荟萃 | 教育认证 | 硬件维护 | 未整理篇 | 站长教程
ASP JS PHP工程 ASP.NET 网站建设 UML J2EESUN .NET VC VB VFP 网络维护 数据库 DB2 SQL2000 Oracle Mysql
服务器 Win2000 Office C DreamWeaver FireWorks Flash PhotoShop 上网宝典 CorelDraw 协议大全 网络安全 微软认证
硬件维护  CPU  主板  硬盘  内存  显卡  显示器  键盘鼠标  声卡音箱  打印机  机箱电源  BIOS  网卡  C#  Java  Delphi  vs.net2005
  当前位置:> 程序开发 > Web开发 > 临时文章
自动分类在搜索引擎性能优化中的应用
作者:未知 时间:2005-07-27 23:32 出处:CSDN 责编:chinaitpower
              摘要:自动分类在搜索引擎性能优化中的应用

自动分类:按照分类标准,将考察对象划分到各类别下

自动聚类:按照被考察队形的内部特征,把相似、近似、特征相似的对象聚合到一起

 

信息查询方式:

       ――分类浏览:基于网站分类目录,浏览对象为网站――成本高,更新维护量大

       ――关键词检索:检索对象为网页,信息量大,更新及时,不须人工干预――信息量大,质量难以保证

 

====》提供对关键字检索结果集网页的分类浏览

 

文本分类

       ――基于知识工程:依据语言学知识编制推理规则――复制而困难

       ――基于统计:利用词频信息对文本进行加权(简单,准确)向量空间模型――文档相似度由两个向量的夹角余旋决定

自动规类步骤:

       网页特征提取和加权:提高分类速度和精度(排除了干扰)词频,位置

       机器学习:

Svm 建立在学习理论的结构风险最小化原则基础上,在高维空间寻找超平作为两个类的分割,以满足最小的分类错误率(分类间隙最大)

最近k邻居:对给定的新网页,考虑在训练集中与该网页距离最近的k篇文本,根据这k篇文本所属的类别决定新网页类别。K值一般为学习调整

贝叶斯算法

自动聚类的实现步骤:

       网页表示

       相似度计算

       聚类

       给出聚类表示

自动聚类的基本实现方式:

       单遍聚类法:设定类相似度阈值;任意取一篇文章做聚类中心,对新的文本,计算与其相似度,在阈值内这聚入此类,调整聚类中心;否则为一新类聚类中心。

       逆中心聚类法:任取一向量为聚类中心;有最大最小距的非聚类中心向量为下一个聚类中心。确定聚类中心后在做就近聚类

       密度测试法:某网页周围聚集有较多网页,且在较大范围有网页,则可作为聚类中心。网页分为未聚类网页,已聚类网页和松散型网页。初始时所有网页都为未聚类网页。任取未聚类网页,根据测试条件,变为聚类网页或松散型网页知道结束。

自动分类应用实例:

       Wwlib自动规类系统

       Grouper自动聚类系统

       Vivisimo自动聚类系统

应用相关问题:

传统(图书馆)分类法vs网络分类法-》结合

应用时机

应用对象

结果展示


关闭本页
 
首页 | 投资与合作 | 服务条款 | 隐私政策 | 收藏本站 | 设为首页 | 新用户注册 | 免责声明 | 使用帮助
Copyright ©2005-2008 chinaitpower.com All rights reserved. www.chinaitpower.com 版权所有