中国IT动力,最新最全的IT技术教程
最新100篇 | 推荐100篇 | 专题100篇 | 排行榜 | 搜索 | 在线API文档
首 页 | 程序开发 | 操作系统 | 软件应用 | 图形图象 | 网络应用 | 精文荟萃 | 教育认证 | 硬件维护 | 未整理篇 | 站长教程
ASP JS PHP工程 ASP.NET 网站建设 UML J2EESUN .NET VC VB VFP 网络维护 数据库 DB2 SQL2000 Oracle Mysql
服务器 Win2000 Office C DreamWeaver FireWorks Flash PhotoShop 上网宝典 CorelDraw 协议大全 网络安全 微软认证
硬件维护  CPU  主板  硬盘  内存  显卡  显示器  键盘鼠标  声卡音箱  打印机  机箱电源  BIOS  网卡  C#  Java  Delphi  vs.net2005
  当前位置:> 程序开发 > 编程语言 > Visual C++ > COM技术
如何提取网页中所有链接
作者:未知 时间:2005-07-20 14:21 出处:VC知识库 责编:chinaitpower
              摘要:如何提取网页中所有链接

如何提取网页中所有链接
作者:谭昕

下载本文示例源代码

见过“网际快车”的“使用网际快车下载全部链接”这个功能吗?想实现它,我们可以这样做:
IE有几个有用的接口,我们可以用它来提取网页所有链接。

一、基本原理

首先是用IHTMLDocument2的get_links,来获取IHTMLElementCollection接口,再通过IHTMLElementCollection来获取IHTMLAnchorElement,而IHTMLAnchorElement接口的get_href就是我们想要的,通过循环获取,我们就可以得到网页的所有链接了!

二、具体代码

{
    TCHAR HostName[2*MAX_PATH];
    CComPtr<IDispatch> spDispatch;
    CComQIPtr<IHTMLDocument2, &IID_IHTMLDocument2> pDoc2;
    CComPtr<IHTMLElementCollection> pElementCol;
    CComPtr<IHTMLAnchorElement> pLoct;
    // TODO: Add your control notification handler code here
    int n = m_LinksList.GetItemCount();//GetCount();

    for (int i = 0; i < n; i ++){
        IWebBrowser2 *pBrowser = (IWebBrowser2 *)m_LinksList.GetItemData(i);
        if (pBrowser){
            pBrowser->Release();
        }
    }

    m_LinksList.DeleteAllItems();
    m_LinksNum = 0;
    Log("**************************************************************");
    Log("\r\n");

    if (m_spSHWinds){
        int n = m_spSHWinds->GetCount();
        for (int i = 0; i < n; i++){
            _variant_t v = (long)i;
            IDispatchPtr spDisp = m_spSHWinds->Item(v);


            SHDocVw::IWebBrowser2Ptr spBrowser(spDisp);   //生成一个IE窗口的智能指针
            if (spBrowser){

                if (SUCCEEDED(spBrowser->get_Document( &spDispatch)))
                    pDoc2 = spDispatch;
                if(pDoc2!=NULL)
                {
                    if (SUCCEEDED(pDoc2->get_links(&pElementCol)))
                    {
                        //    AfxMessageBox("IHTMLElementCollection");
                        long p=0;
                        if(SUCCEEDED(pElementCol->get_length(&p)))
                            if(p!=0)
                            {   
                                m_LinksNum = m_LinksNum+p;
                                UpdateData(FALSE);

                                for(long i=0;i<=(p-1);i++)
                                {

                                    BSTR String;
                                    _variant_t index = i;
                                    if(SUCCEEDED(pElementCol->item( index, index, &spDispatch)))
                                    if(SUCCEEDED(spDispatch->QueryInterface( IID_IHTMLAnchorElement,(void **) &pLoct)))

                                    pLoct->get_href(&String);
                                    ZeroMemory(HostName,2*MAX_PATH);
                                    lstrcpy(HostName,_bstr_t(String)); 
                                    m_LinksList.InsertItem(i,HostName);
                                    m_LinksList.SetCheck(i,TRUE);
                                   
                                    pLoct->get_hostname(&String);
                                    ZeroMemory(HostName,2*MAX_PATH);
                                    lstrcpy(HostName,_bstr_t(String)); 
                                    if(lstrlen(HostName))
                                    {
                                        m_LinksList.SetItemText(i,1,HostName);
                                        Log(HostName );
                                        Log("\r\n");
                                    }
                                    
                                }
                            }
                    }

                }

            }
        }
    }
}
本程序在VC7+WINXP下编译通过,详细请看源代码!

关闭本页
 
首页 | 投资与合作 | 服务条款 | 隐私政策 | 收藏本站 | 设为首页 | 新用户注册 | 免责声明 | 使用帮助
Copyright ©2005-2008 chinaitpower.com All rights reserved. www.chinaitpower.com 版权所有