使用Netbeans开发搜索引擎Nutch

 Nutch简介 

  Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Nutch致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, nutch能够做到: 每个月取几十亿网页; 为这些网页维护一个索引; 对索引文件进行每秒上千次的搜索; 提供高质量的搜索结果; 以最小的成本运作. 

  测试环境: 

  Nutch release 0.9 

  Netbean5.5.1 中文版 

  Java 1.6 

  Ubuntu 7.10 

  步骤: 

  1.安装:Nutch 

  下载 Nutch 0.9 的压缩包并解压 

  (下载地址:http://apache.mirror.phpchina.com/lucene/nutch/) 

  按照教程进行安装 

  (教程地址: http://wiki.apache.org/nutch/NutchTutorial

  2.在Netbeans中创建项目 

  启动Netbeans5.5.1; 

  创建过程:文件->新建项目->常规; 

  选择“基于现有源代码的Java项目”->下一步,选择项目名称和项目文件夹,可以根据自己的需要自行指定; 

  选择下一步,点击“源包文件夹”文本框右边的“添加文件夹”按钮,浏览文件目录选择Nutch安装目录下的src文件夹; 

  点击完成,此时工程已经建立,当需要对项目进行配置才能实现代码的调试; 

  在左边的“项目”导航窗口中,选择库包,点击右键,选择属性,此时弹出项目属性配置窗口 

  选择配置“库”,点击按钮“添加JAR/文件夹”,添加Nutch安装目录下的 "conf"目录以及nutch-0.9.jar包; 

  继续将Nutch安装目录下“lib”和“plugin”文件夹中的所有JAR包添加进来,此处比较麻烦,因为Netbeans不能自动扫描到文件夹下所有的JAR包,必须手工将其添加进来。 

  最后需要添加两个JAR包,这两个包分别是解析MP3和RTF文档的,因为license的不兼容性,它们从代码中分离了,你可以在如下地址下载: 

http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/ 

http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/ 

  下载后将其分别放至src/plugin/parse-mp3/lib和src/plugin/parse-rtf/lib/目录下,同时像添加其他JAR包一样,将其添加至“编译时库”中。此时,您可以选择左方“项目”导航窗口中的项目图标,点击右键,选择“生成项目”,项目应该能正确通过编译。您还需要对Nutch进行配置以调试Nutch的爬行代码。 

  3.配置 Nutch 

  在Nutch安装目录下,找到文件/conf/nutch-defaul.xml, 将其 "plugin.folders" 属性值改为"Nutch安装目录/src/plugin" 

  4.在Nutch中运行Nutch爬虫 

  选择左方“项目”导航窗口中的项目图标,点击右键,选择“属性”,在左方类别窗口中选择“运行”,对运行参数进行配置 

  主类: 选择 org.apache.nutch.crawl.Crawl 

  参数: 填入 urls -dir crawl -depth 3 -topN 50 

  VM选项:填入 -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log 

  点击“确定”按钮退出 

  选择左方“项目”导航窗口中的项目图标,点击右键,选择“运行项目” 

  注:对于Ubuntu来说,可能由于权限的问题导致不能正常调试,可以在用户和组管理中设置当前用户的组为ROOT组。



文章来自: 本站原创
引用通告地址: http://www.xd-tech.com.cn/blog/trackback.asp?tbID=75
Tags:
评论: 0 | 引用: 0 | 查看次数: 972
发表评论
昵 称:
密 码: 游客发言不需要密码.
验证码:
内 容:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 100 字 | UBB代码 开启 | [img]标签 开启