预览模式: 普通 | 列表

Nutch中creativecommons插件的分析[转帖]

Cretivecommons插件的主要作用是从抓取的网页中提取一些特定的或者我们自定义的一些信息(这里的信息必须符合cc机制),为这些信息建立索引,提供查询的功能.举个例子:比如我们正在爬行某招聘网站的网页,我们对某一招聘信息的职位描述感兴趣,那么我们就可以扩展这一插件,筛取出此网页职位描述的信息,建立此网页新Field(Lunene的Document),入索引库.等待查询或者进行别的操作.
   为了达到目标,creativecommons plugin扩展3个不同的扩展点,它们是:
HTMLParser:从meta-tags得到推荐的terms
IndexingFilter:增加一个推荐Field在索引中。
QueryFilter:增加对索引中新Field的查询能力.
插件中一些概念的说明:
creative commons:(创作共用) 是网络上的数字作品(文学、美术、音乐等)许可授权机制,它致力于让任何创造性作品都
有机会被更多人分享和再创造,共同促进人类知识作品在其生命周期内产生最大价值。Nutch引入这个机制是为了在所索引的网页
使用创作公用这个授权机制,对所索引到的内容进行知识保护,这不但能对资源提供者的知识进行保护,也能促进知识资源的良性传播,
 

插件的代码分析:

creativecommons插件包括以下四个文件:

CCIndexingFilter:实现了IndexingFilter这个接口

CCParseFilter:实现了HTMLParser这个接口

查看更多...

分类:搜索引擎 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 14566

转贴:Lucene的特性分析 

3.1. Lucene核心部分——索引排序
Lucene 的索引排序是使用了倒排序原理。

该结构及相应的生成算法如下:
设有两篇文章1和2
文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.
文章2的内容为:He once lived in Shanghai.

1. 由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施

a. 我们现在有的是文章内容,即一个字符串,我们先要找出字符串中的所有单词,即分词。英文单词由于用空格分隔,比较好处理。中文单词间是连在一起的需要特殊的分词处理。

b. 文章中的”in”, “once” “too”等词没有什么实际意义,中文中的“的”“是”等字通常也无具体含义, 这些不代表概念的词可以过滤掉,这个也就是在《Lucene详细分析》中所讲的StopTokens

查看更多...

Tags: Lucene

北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com

分类:搜索引擎 | 固定链接 | 评论: 4 | 引用: 0 | 查看次数: 21539

搜索引擎的工作原理----Google

这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24000000个网页。我们可以从 下载。

设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。

本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。

本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。

查看更多...

分类:搜索引擎 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 11791