`

三,nutch 1.0 爬虫配置与运行

阅读更多

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.javaeye.com ).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr


在解压出来的目录下的bin目录里建立urls文件夹,
在里面创建url.txt,内容为http://www.17173.com
这里为要抓取的入口路径,可以设置多个值,也可以放置多个txt文件
然后在cygwin里面进入这个bin目录,
输入./nutch crawl urls -dir file:///d:/solomoncrawl -depth 3
这样就可以看到开始抓取了.



nutch是一个批处理文件,后面跟的命令和参数告诉它该如何运行.
crawl urls是告诉nutch爬虫要crawl一个目录里的url,这个目录的名字是urls.
nutch爬虫有很多行为,crawl是其中一个主要行为.
-dir参数告诉它该把抓取来的东西放在什么地方,指定了一个d盘下叫solomoncrawl的目录.
-depth参数告诉它该抓取的深度,从入口url开始扩展多少层.
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来.

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics