问一个关于web webharvestt的问...

信息抽取(2)
& & & & 我们以list格式查看变量的值(除此之外还可以以txt、XML、HTML等格式查看变量的值),我们发现其中有许多空白项(经观察发现空白项是单独一个换行造成的),按照我们的初衷是想得到这样的值:在list里面按照论文题目-作者、题目-作者、题目-作者……这样的顺序存放在list里面。而现在因为一些原因导致出现了空白项,这样就不能够按照index的奇偶来顺序的将论文题目和作者一一得到。& & & &在遇到这个问题的时候,我尝试了许多方法,例如,将list里的内容用toString()方法转成字符串然后用replace()方法替换掉其中的换行,但是发现在这样转换之后原本的多个数据项全部成为了一项,这比原来的结果还要糟糕。此外,我还尝试了用XQuery中translate()等方法依然无法达到想要的效果,这里不得不说网上关于web-harvest、xpath等资源实在是太少了,也不知是我搜索的方法不对,至少我没有在网上找到解决办法,当我想用最笨的办法用script去提取想要的内容时,突然想到一个方法,为何不可以在循环外面再定义一个变量,当抽取到有效数据的同时该变量随着自增,当读取到空白项时,该变量的值不变,这种方法是很容易想到的,如果用C、C++或者J***A都很容易实现,但是因对XML不是很熟悉所以刚一开始不知道如何让一个变量的值循环递增,后来摸索着,终于找到了一种方法:&!-- 定义一个变量,名字为j--&&var-def name="j"&1&/var-def&&!--重点来了!这个地方看上去是重定义变量j,但是要注意的是var-def 里overwrite属性可是不能写成false,不然就完蛋了。如果写成false那就意味着遇到同名字的变量原来变量的值不覆盖,这样的话template的值永远都停留为1,while就成死循环了。将overwrite属性值写为true(默认为true,所以可以不写),则在每次执行template的时候原来j的值都会被覆盖为新的值,就像是C中的j++,便可实现递增--&&while condition='${!j.toString().equals("5")}'& &var-def name="j" &
&template&${j=Integer.parseInt(j.toString())+1}&/template& &/var-def&&/while&&有了这个办法之后就可以配合着case语句判断index的奇偶性,实现想要的功能。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:50190次
积分:1893
积分:1893
排名:第15089名
原创:146篇
(4)(138)(1)(2)(1)> web-harvest的使用
web-harvest的使用
tgf229 & &
发布时间: & &
浏览:13 & &
回复:0 & &
悬赏:0.0希赛币
web-harvest的应用
  一、背景
在当前信息空前爆炸的时代,人们不再担心信息的匮乏,而是为筛选有用的信息付出大量的代价。那么如何采集有用的
信息呢?现在有RSS、博客等服务,但是并不能完全满足我们的需求,因为很多信息并不是以格式化的数据形式提供出来,于是聪明的工程师想出了精确搜索的方
法,从而出现大量的垂直搜索网站(比如酷讯),确实火了一把。当然我们无法得知他们是怎么实现的,但是我们也可以实现这种精确采集,开源的Web-
Harvest就是类似的技术,之前曾经接触过,故写出来分享给大家。
二、WebHarvest简介
Web-Harvest
是一个用Java 写的开源的Web
数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的,你可能需要用到如XSLT,XQuery,和正则表达式等操作
text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML
的页面内容。另一方面,它也能通过写自己的Java 方法来轻易扩展其提取能力。
Web-Harvest
的主要目的是加强现有数据提取技术的应用。它的目标不是创造一种新方法,而是提供一种更好地使用和组合现有方法的方式。它提供了一个处理器集用于处理数据
和控制流程,每一个处理器被看作是一个函数,它拥有参数和执行后同样有结果返回。而且处理是被组合成一个管道的形式,这样使得它们可以以链式的形式来执
行,此外为了更易于数据操作和重用,Web-Harvest 还提供了变量上下方用于存储已经声明的变量。
上述流程的执行结果可以存储在执行中创建的文件中或者是编程时的上下文环境中使用。
一、配置语言
每个提取过程都被定义在了一个或多个基于XML 的配置文件中,而且被描述为特定的或是结构化的XML 元素中。为了更好地说明,下面列举了一个配置文件来进行说明:
&config charset=”gbk”&
     &!- 页面爬取开始,按照关键词:“玩具”来搜索 -&
     &var-def name=”start” &
        
&html-to-xml&
             
&http url=”玩具“/&
        
&/html-to-xml&
     &/var-def&
     &!- 获取竞价排名的企业网站列表 -&
     &var-def name=”urlList” &
        
&xpath expression=”//div[@class='r']“&
             
&var name=”start”/&
        
     &/var-def&
     &!- 循环 urlList ,并把结果写入到XML文件中 -&
&file action=”write” path=”baidu/catalog.xml” charset=”utf-8″&
&![CDATA[ &catalog& ]]&
&loop item=”item” index=”i”&
     
&list$>$var name=”urlList”/$>$/list&
     
       
         
&xq-param name=”item” type=”node()”$>$var name=”item”/$>$/xq-param&
         
&xq-expression$>$![CDATA[
             
declare variable $item as node()
             
let $name := data($item//span/font[1]/text()[1])
             
let $url := data($item//span/font[2]/text())
               
                 
                   
&name&{normalize-space($name)}&/name&
                   
&url&{normalize-space($url)}&/url&
                 
&/website&
         
]]$>$/xq-expression&
       
     
&![CDATA[ &/catalog& ]]&
上述的配置文件包含了三段。
第一段的执行步骤:
1. 下载清除下载内容里面的HTML 以产生XHTML;
第二段的执行步骤:
1. 用XPath 表达式从所给的URL 里面提取搜索结果;
2. 用一个新的变量“urlList”来保存上面的搜索结果;
第三段是利用上一段的搜索结果来提取相应的信息:
1. 循环里面迭代每一个item;
2. 获取每个item的name和url;
3. 将其保存在文件系统里;
有了配置文件(把该配置文件保存为:baidu.xml),我们再往前一步,写几行代码:
import java.io.IOE
import org.webharvest.definition.ScraperC
import org.webharvest.runtime.S
public class Test {
public static void main(String[] args) throws IOException {
ScraperConfiguration config = new ScraperConfiguration(”c:/baidu.xml”);
Scraper scraper = new Scraper(config, “c:/tmp/”);
scraper.setDebug(true);
long startTime = System.currentTimeMillis();
scraper.execute();
System.out.println(”time elapsed: ” + (System.currentTimeMillis() - startTime));
让我们执行一下,看看结果:
     &website&
          &name&上海丽强 专业大型&/name&
          &url$>$/url&
     &/website&
     &website&
          &name&多样型大型&/name&
          &url$>$/url&
     &/website&
     &website&
          &name&童博士卡通&/name&
          &url$>$/url&
     &/website&
     &website&
          &name&芝麻街&/name&
          &url&c4&/url&
     &/website&
     &website&
          &name&童博士, 中国平价学生用品..&/name&
          &url$>$/url&
     &/website&
     &website&
          &name&充气&/name&
          &url$>$/url&
     &/website&
     &website&
          &name&找木制&/name&
          &url$>$/url&
     &/website&
     &website&
          &name&米多迪&/name&
          &url&b14&/url&
     &/website&
&/catalog&
是不是很酷。爬虫就这么简单。
二、深入考虑
不知道大家看到上面的配置、代码和结果是否感觉很熟悉。是否和Java通过Ibatis读取数据库数据的方式类似。
那我们是否可以实现这样的机制呢,把整个互联网作为我们的庞大的数据库,我们随意的读取。
Web-Harvest提供了一个 ScraperContext , 可以在该上下文中设置Java对象,可以通过Java对象收集相应的结果数据,(比如:设置Map,可以通过Map收集数据)
Scraper 提供了这样的方法:
scraper.getContext().put(“resDataSet”, new ResultDataSet());
ResultDataSet是收集数据的Java对象。
那么我们就可以这么做:
a)  首先设置要访问的网页的路径
scraper.getContext().put(“startPageHref”, “;wd=儿童玩具“);
b)  第二步,设置要收集返回数据的容器
scraper.getContext().put(“resDataSet”, new ResultDataSet());
c)  在配置文件中就可以这样设置数据
${resDataSet.addRecord(“searchResult”,“totalSearchResult”,totalSearchResult)};
d)  爬取操作执行完毕后,即可返回数据:
ResultDataSet resultDataSet = (ResultDataSet)scraper.getContext().get(“resDataSet”);
Ok,我们就可以随心所欲的使用这些数据,详细请看附件。
三、分页机制处理
a)     来由介绍
现在的信息量很大,在展示的时候都是通过分页处理的。
a)     实现机制
那我们怎么处理呢?分页提取数据我们得明确几件事情
1.     分页器的处理,比如:页码、页大小、记录数或页数。
2.     “下一页”的地址的构造
3.     每页数据的爬取
不同的网站的分页机制都不一样,我们如何处理呢?当然我们不能通过硬编码的方式来处理,我们就通过Web-Harvest的配置文件来实现。
     Web-Harvest 本身的配置文件结构为:
          &config charset=”gbk”&
             
          &/config&
     对这个结构进行扩展:
&web-harvest-config&
&!- 生成分页器配置 -&
&config charset=”gbk” id=”pagination”&
&!- 组装下一页地址 -&
&config charset=”gbk” id=”urlnav”&
&!- 抓取列表数据 -&
&config charset=”gbk” id=”listData”&
&/web-harvest-config&
     我们就可以通过三个config项来处理
第一步,通过 id=”pagination” 的配置生成分页器
第二步,通过已经生成的分页器加上 id=”urlnav” 的配置构造下一页的URL
第三步,通过 id=”listData” 的配置提取需要的数据
一、Web-Harvest的优缺点
Web-Harvest是一个使用比较方便的抓取信息的API库,目前是1.0版本
扩展性好,只要修改配置文件即可
上手较快,使用方便。
处理过程比较多,对应的速度较慢
二、其他使用过或者正在尝试的精确抓取数据的方式
a)     使用HTMLParser
HTMLParser
可以分析HTML
源码中的TAG(比如Table,DIV等),还可以自己定义TAG(比如:ENET),通过查找特定的Tag,提取相应的数据。由于没有很多的中间处理
过程,速度较快,缺点是有很多的硬编码,难以扩展。或许能找出一个特定的表达式可以快速的提取数据。
b)     使用HTMLClean
该方式还是走HTML-&XML的路线,首先通过HtmlClean把抓取的网页内容转化为XML格式数据,然后通过XPATH、XSL等方式对XML数据进行转化,达到收集数据的目的。Web-Harvest是类似的方式,但是我们可以精简化,提高抓取的效率。
三、使用爬虫碰到的问题
a)     网站对频繁抓取数据的爬虫进行IP限制问题
考虑使用IP代理,但是速度难以忍受,故现在在考虑分布式的抓取数据的方式
  转自:
本问题标题:
本问题地址:
温馨提示:本问题已经关闭,不能解答。
暂无合适的专家
&&&&&&&&&&&&&&&
希赛网 版权所有 & &&求 开源WebHarvest抓取实例!!!_百度知道Web-harvest学习笔记(五)
ScraperContext是一个怎样的类?
ScraperContext是Catalog的子类,而Catalog就是一个HashMap。ScraperContext在Catalog的基础上做了一些简单的封装。
&&&&&&&&public ScraperContext(Scraper
scraper)&;
&&public Variable getVar(String
& public Object setVar(Object key, Object
& public void dispose() {
this.systemUtilities.setScraper(null);
&&&&&&&getVar和setVar方法简单封装其父类的set和put的操作。其中setVar()执行的时候要先将k-v中的值用CommonUtil.createVariable(value);包装一下,以使它成为web-harvest承认的变量类型。关于web-harvest使用的变量类型,我们将在后面的章节会有详细的分析。这里读者只需要将它理解成hashMap的操作即可。
&&&&&&dispose方法是context被重置,或者被废弃的时候执行的。它将scraper这个变量置为空。那么scraper这个变量值又是什么时候放进context中的呢。下面我们来看构造函数的源码。
public ScraperContext(Scraper scraper) {
&&super();
this.systemUtilities = new SystemUtilities(scraper);
this.put("sys", this.systemUtilities);
this.put("http",
scraper.getHttpClientManager().getHttpInfo());
&&&&&&&构造函数完成了两件事情。1、通过scraper实例化systemUtilities
类。将在之存储到context中。systemUtilities
是这样的一个类,它存储了系统公用的设置,并且只有对scraper的引用,也封装了一些常用的方法,包括对context的操作、常用的时间操作、对xml文档一些操作等。
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
2、将当前的httpinfo存储到context中。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。君,已阅读到文档的结尾了呢~~
广告剩余8秒
文档加载中
Web-Harvest学习笔记
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
Web-Harvest学习笔记
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口

参考资料

 

随机推荐