二,nutch 1.0 web应用部署 - 软件开发资料库 - ITeye博客

`

wapysun

浏览: 21497473 次
性别:
来自: 杭州

最近访客更多访客>>

devcang

hunankeda110

辽东小小

apex53

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

2012-06 ( 77)
2012-05 ( 587)
2012-04 ( 177)
更多存档...

最新评论

ZY199266：配置文件还需要额外的配置ma
Android 客户端通过内置API（HttpClient) 访问服务器(用Spring MVC 架构) 返回的json数据全过程
ZY199266：我的一访问为什么是 /mavenwebdemo/WEB-I ...
Android 客户端通过内置API（HttpClient) 访问服务器(用Spring MVC 架构) 返回的json数据全过程
lvgaga：我又一个问题就是如果像你的这种形式写。配置文件还需要额外的 ...
Android 客户端通过内置API（HttpClient) 访问服务器(用Spring MVC 架构) 返回的json数据全过程
lvgaga：我的一访问为什么是 /mavenwebdemo/WEB-I ...
Android 客户端通过内置API（HttpClient) 访问服务器(用Spring MVC 架构) 返回的json数据全过程
y1210251848：你的那个错误应该是项目所使用的目标框架不支持吧
log4net配置(web中使用log4net,把web.config放在单独的文件中)

二,nutch 1.0 web应用部署

Web Tomcat Hadoop Google XML

阅读更多

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.javaeye.com ).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr

a)将解压出来目录中的nutch-1.0.war放到tomcat的webapps目录下.
使用winrar打开.war文件,修改里边的配置文件.

b)修改WEB-INF\classes\crawl-urlfilter.txt
-[?*!@=]
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
-.
改为
+[?*!@=]
+.*(/[^/]+)/[^/]+\1/[^/]+\1/
+.

c)修改nutch-site.xml,在<configuration></configuration>内增加这样两属性:
<property>
<name>searcher.dir</name>
<value>file:///d:/indexes/</value>
</property>
<property>
<name>http.agent.name</name>
<value>RIDER</value>
</property>
<property>
<name>hadoop.job.ugi</name>
<value>rider(读者的计算机名),iamsolomon(读者的计算机密码)</value>
</property>
searcher.dir的值是我们抓取的内容生成的索引所存放的位置,
http.agent.name属性写个有效的url或者计算机名即可
第三个属性为计算机名与密码,貌似可以随便写,但是去掉这个属性的话会报错.
此2属性均可根据自己的情况配置.

然后启动tomcat,访问http://localhost:8080/nutch-1.0即可访问我们架设的nutch了.效果如图:

nutch 1.0 的快照,貌似比以前的漂亮多了:

分享到：

三,nutch 1.0 爬虫配置与运行 | lucene的简单实例

2010-11-30 10:39
浏览 719
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Nutch1.0的API chm格式: Nutch1.0的API，不过注意没有搜索功能

开源搜索引擎nutch-1.0.part01.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

Nutch 1.0part6: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch1.0 part4: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch1.0part5: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch1.0:Nutch1.0修改版（整合中文分词）原始码修改，编译打包-修改: Nutch1.0:Nutch1.0修改版（整合中文分词）原始码修改，编译打包

nutch-1.0part1: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

开源搜索引擎nutch-1.0.part09.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

Eclipse中编译Nutch-1.0: Eclipse 中编译 Nutch-1.0 运行源代码

开源搜索引擎nutch-1.0.part08.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

开源搜索引擎nutch-1.0.part07.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

nutch-1.0-dev.jar: nutch-1.0-dev.jar nutch devlope

nutch1.3在myclipse部署工程源码: nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

Nutch-1.0分布式安装手册.rar: Nutch-1.0分布式安装手册.rar，完整的

Nutch-1.0 part2: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch在Tomcat下的部署.doc: Nutch在Tomcat下的部署.doc

开源搜索引擎nutch-1.0.part03.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

开源搜索引擎nutch-1.0.part06.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

开源搜索引擎nutch-1.0.part02.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

开源搜索引擎nutch-1.0.part04.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

Global site tag (gtag.js) - Google Analytics