You are on page 1of 2

Crawl 用法

bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN]


<urlDIr> 必须是一个已存在的目录,目录中含有 URL 地址的文本文件
[-dir <d>]:保存爬行文件的目录,默认值是./crawl-[date],[date]是当前日期
[-threads <n>] Fetcher 要使用的线程数,覆盖 fetcher.threads.fetch 的配置值,默认为 10
[-depth <i>] nutch 要爬行的迭代数,默认是 5
[-topN <num>:在每次迭代中限制爬行的头几个链接数,默认是 Integer.MAX_VALUE
配置文件
hadoop-default.xml,hadoop-site.xml,nutch-default.xml,nutch-site.xml,crawl-tool.xml
其他文件
Crawl-urlfilter.txt

Inject 用法

Bin/nutch inject <crawldb> <urldir>


<crawldb> 爬行数据库所在的目录路径
<urldir>包含 url 文本文件的目录路径
配置文件
hadoop-default.xml,hadoop-site.xml,nutch-default.xml,nutch-site.xml
配置值
下 面 的 属 性 直 接 影 响 了 注 射 器 如 果 注 入 网 址 :
db.default.fetch.interval:设置每两次 fetch 之间的时间间隔天数,默认是 30.0f
db.score.injected:设置 URL 的默认范围,默认是 1.0f
urlnormalizer.class : 规 范 化 注 入 的 urls 的 类 名 称 , 默 认 是
org.apache.nutch.net.BasicUrlNormalizer
例子:
nutch-0.8-dev/bin/nutch inject /path/to/crawldb /path/to/url/dir

Files:
/path/to/url/dir/nutch.txt
/path/to/url/dir/hadoop.txt
/path/to/url/dir/wikis.txt

nutch.txt contents:
http://lucene.apache.org/nutch/
http://lucene.apache.org/nutch/tutorial.html

hadoop.txt contents:
http://lucene.apache.org/hadoop/
http://lucene.apache.org/hadoop/docs/api/

wikis.txt contents:
http://wiki.apache.org/hadoop/
http://wiki.apache.org/nutch/
http://wiki.apache.org/lucene/
在上面的例子中,有 7 个网址会被注射器注入位于/path/to/crawldb 的爬行数据库
Generator 用法
Bin/nutch generate <crawldb> <segments_dir> [-topN <num>] [-numFetchers <fetchers>]
[-adddays <days>]
<crawldb>crawldb 目录
<segments_dir> 创建 Fetcher Segments 的目录
[-topN <num>]选择每个段的前<num>条,默认 Long.MAX_VALUE
[-numFetchers <fetchers>]fetch 分区数,默认是 Configuretion key->mapred.map.tasks->1
[-adddays <days>] 当 前 时 间 <days> 天 后 爬 行 已 被 fetched 的 url 地 址 , 比
db.default.fetch.interval 快,默认是 0
配置文件
hadoop-default.xml,hadoop-site.xml,nutch-default.xml,nutch-site.xml
配置值
下面属性会影响 Generator 生成 fetch segments
generate.max.per.host :本次 fetch 运行中,从一个单一主机上生成 urls 最大数,默认值
是 unlimited

fetch 用法