中国IT动力,最新最全的IT技术教程
最新100篇 | 推荐100篇 | 专题100篇 | 排行榜 | 搜索 | 在线API文档 | 网通镜像
首 页 | 程序开发 | 操作系统 | 软件应用 | 图形图象 | 网络应用 | 精文荟萃 | 教育认证 | 硬件维护 | 未整理篇 | 站长教程
ASP JS PHP工程 ASP.NET 网站建设 UML J2EESUN .NET VC VB VFP 网络维护 数据库 DB2 SQL2000 Oracle Mysql
服务器 Win2000 Office C DreamWeaver FireWorks Flash PhotoShop 上网宝典 CorelDraw 协议大全 网络安全 微软认证
硬件维护  CPU  主板  硬盘  内存  显卡  显示器  键盘鼠标  声卡音箱  打印机  机箱电源  BIOS  网卡  C#  Java  Delphi  vs.net2005
  当前位置:> 程序开发 > Linux编程
php抓取和分析
作者:佚名 时间:2007-11-07 16:58 出处:互连网 责编:月夜寒箫
              摘要:php抓取和分析
  抓取和分析一个文件是非常简单的事。这个教程将通过一个例子带领你一步一步地去实现它。让我们开始吧!

  首先,我首必须决定我们将抓取的URL地址。可以通过在脚本中设定或通过$QUERY_STRING传递。为了简单起见,让我们将变量直接设在脚本中。

  <?$url='http://www.php.net';?>

  第二步,我们抓取指定文件,并且通过file()函数将它存在一个数组里。

  <?$url='http://www.php.net';$lines_array=file($url);?>

  好了,现在在数组里已经有了文件了。但是,我们想分析的文本可能不全在一行里面。为了解这个文件,我们可以简单地将数组$lines_array转化成一个字符串。我们可以使用implode(x,y)函数来实现它。如果在后面你想用explode(将字符串变量数组),将x设成"|"或"!"或其它类似的分隔符可能会更好。但是出于我们的目的,最好将x设成空格。y是另一个必要的参数,因为它是你想用implode()处理的数组。

  <?$url='http://www.php.net';$lines_array=file($url);$lines_string=implode(',$lines_array);?>

  现在,抓取工作就做完了,下面该进行分析了。出于这个例子的目的,我们想得到在<head>到</head>之间的所有东西。为了分析出字符串,我们还需要叫做正规表达式的东西。

  <?$url='http://www.php.net';$lines_array=file($url);$lines_string=implode(',$lines_array);eregi("<head>(.*)</head>",$lines_string,$head);?>

  让我们看一下代码。正如你所见,eregi()函数按下面的格式执行:

  eregi("<head>(.*)</head>",$lines_string,$head);

  "(.*)"表示所有东西,可以解释为,"分析在<head>和</head>间的所以东西"。$lines_string是我们正在分析的字符串,$head是分析后的结果存放的数组。

  

  最后,我们可以输数据。因为仅在<head>和</head>间存在一个实例,我们可以安全的假设数组中仅存在着一个元素,而且就是我们想要的。让我们把它打印出来吧。

  <?$url='http://www.php.net';$lines_array=file($url);$lines_string=implode(',$lines_array);eregi("<head>(.*)</head>",$lines_string,$head);echo$head[0];?>

  这就是全部的代码了。
关闭本页
 
首页 | 投资与合作 | 服务条款 | 隐私政策 | 收藏本站 | 设为首页 | 新用户注册 | 免责声明 | 使用帮助
Copyright ©2005-2008 chinaitpower.com All rights reserved. www.chinaitpower.com 版权所有