Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1455424
  • 博文数量: 209
  • 博客积分: 464
  • 博客等级: 下士
  • 技术积分: 3772
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-24 18:25
个人简介

阿弥陀佛

文章分类

全部博文(209)

文章存档

2019年(3)

2018年(5)

2017年(6)

2016年(10)

2015年(9)

2014年(73)

2013年(90)

2012年(13)

分类: 服务器与存储

2013-09-30 10:29:13

由Crawl 得到fetch list,fetch list 里面全部都是链接,nutch采用了生产者-消费者 模型,一个生产者,多个消费者
QueueFeeder 读取 fetch list 里面的元素,然后将这些元素放入到多个FetchItemQueue里面去,每个主机对应一个队列,当队列中的元素少的时候,QueueFeeder再将往队列中放。然后由多个FetcherThread线程抓取数据,获得该URL里面的内容,遵循Protocal接口实现相应的方法,让Fetch能够获得内容。
参考:http://wiki.apache.org/nutch/bin/nutch_fetch
阅读(2483) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~