将查询的响应时间降低到0.5秒以内 ---------10月8日补充
作者:admin 日期:2006-10-03
将查询的响应时间降低到0.5秒以内
Nutch 的索引文档数量在100W以下的时候,怎么处理查询响应都比较的快速,基本上不会超过0.5秒。但是超过200W索引文档 的时候如果不处理,查询的响应时间就会超过这个数字。如果内存足够,甚至可以把200W的索引文档全部加载到内存,这时查询响应时间会小于0.1秒,但内存占用会超过1.5G,这种方式适合数据量比较小的查询系统,例如文献检索等。
当数据量超过200W的时候如果全部加载到内存则不太适合了,因为受JVM最大内存的限制(1.2G到3.6G Linux下),加载超过200W索引页面的时候,JVM会溢出。
以下介绍通过几种方式实现超过1000W的索引页面查询响应时间降低到0.5秒以内。
Tags: 搜索引擎 Nutch Lucene
北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com
搜索引擎入口
作者:admin 日期:2006-09-17
有好多天没有更新了, 最近实在是忙。一个字:累。
接着上一篇的内容,继续从搜索开始。
public Hits search(Query query, int numHits,
int maxHitsPerSite, String dedupField,
String sortField, boolean reverse)
这是一个搜索请求的入口,关键在于构造Query ,Nutch 默认的搜索查询分析器是采用一元分词的,为了提高查询精度,所以采用分词。分词需要在原始文档索引之前进行一次,经过分词处理后在索引入库。在查询的时候同样也需要分词,这点可以在yahoo的搜索技术文章里找到更详细的说明。
Tags: 搜索引擎 Nutch Lucene
北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com
从搜索开始
作者:admin 日期:2006-09-08
这么长时间对Nutch 的使用,使我积累了不少经验,有很多我在网上没有见到过相关的介绍和解释,官方的文档又少的可怜,在我刚开始接触Nutch 的时候,为了查找一个功能是怎么使用的,经常需要浏览很多网站,查找资料,最痛苦的莫过于翻阅大量的英文邮件列表,可怜我的E文又是那么的烂,所以,刚学习使用Nutch 的痛苦只有经历过的人才能够了解到,有鉴于此,在此后的一段时间里,我将通过博客的形式,将我的Nutch使用和开发经验与所有学习和即将学习、使用和即将使用Nutch的网友一起分享。
这是一个关于Nutch和Lucene的系列,从搜索开始,逐步分解Nutch的本地搜索部分、分布式搜索部分、索引部分、分布式文件系统、网络机器人。希望通过我的这一个系列,能够让需要Nutch的网友对她 有个比较细致的了解。
另外,给大家推荐一个邮件列表:http://www.mail-archive.com
这个邮件列表给我的帮助很大,有时候遇到障碍的时候都是通过这个邮件列表找到解决办法的。不过内容太多,比较杂,需要仔细发现,她是一个金矿。
Tags: 搜索引擎 Nutch Lucene
北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com
- 1






