预览模式: 普通 | 列表

第一次Nutch搜索引擎

Nutch  会在初始化的时候广播查询服务器,代码如下:

/** Construct in a named directory. */
  public NutchBean(File dir) throws IOException {
    File servers = new File(dir, "search-servers.txt");
    if (servers.exists()) {
      LOG.info("searching servers in " + servers.getCanonicalPath());
      init(new DistributedSearch.Client(servers));
    } else {
      init(new File(dir, "index"), new File(dir, "segments"));
    }
  }

也就是说 优先查找的文件是 dir 目录下的 search-servers.txt文件 , 也就是通过 searcher.dir 配置项指向的目录。如果目录下面没有 search-servers.txt 文件,NutchBean 就认为 searcher.dir 指定的内容是索引文件。

DistributedSearch 是一个分布查询处理程序,超大数据量的时候通过这个分布处理程序将极大的获得查询性能提升,过段时间将会针对这个分布处理程序做详细说明。

查看更多...

分类:搜索引擎 | 固定链接 | 评论: 14 | 引用: 0 | 查看次数: 16796

搜索引擎入口

有好多天没有更新了, 最近实在是忙。一个字:累。

接着上一篇的内容,继续从搜索开始。

public Hits search(Query query, int numHits,
                     int maxHitsPerSite, String dedupField,
                     String sortField, boolean reverse)

        这是一个搜索请求的入口,关键在于构造Query ,Nutch  默认的搜索查询分析器是采用一元分词的,为了提高查询精度,所以采用分词。分词需要在原始文档索引之前进行一次,经过分词处理后在索引入库。在查询的时候同样也需要分词,这点可以在yahoo的搜索技术文章里找到更详细的说明。

查看更多...

Tags: 搜索引擎 Nutch Lucene

北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com

分类:搜索引擎 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 15235

Nutch查询服务器

服务器端的启动命令(当前目录是Nutch的安装目录): bin/nutch server 9999  /indexpath

这样会在本机的 9999 端口开启一个监听器并默认的是启动 10个 handle 来接受查询请求。

indexpath是 服务器上索引文件的 物理路径 ,可以是绝对路径,也可以是相对路径,但需要注意能够在当前目录下找得到。

在客户端就是查询端 ,需要两步,一:添加或者修改search-servers.txt ,其内容为:

查看更多...

Tags: Nutch 查询 服务器

北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com

分类:搜索引擎 | 固定链接 | 评论: 1 | 引用: 0 | 查看次数: 15287