主题爬虫的设计
作者:admin 日期:2006-10-11
象Google 一样准确
作者:admin 日期:2006-10-09
将查询的响应时间降低到0.5秒以内 ---------10月8日补充
作者:admin 日期:2006-10-03
将查询的响应时间降低到0.5秒以内
Nutch 的索引文档数量在100W以下的时候,怎么处理查询响应都比较的快速,基本上不会超过0.5秒。但是超过200W索引文档 的时候如果不处理,查询的响应时间就会超过这个数字。如果内存足够,甚至可以把200W的索引文档全部加载到内存,这时查询响应时间会小于0.1秒,但内存占用会超过1.5G,这种方式适合数据量比较小的查询系统,例如文献检索等。
当数据量超过200W的时候如果全部加载到内存则不太适合了,因为受JVM最大内存的限制(1.2G到3.6G Linux下),加载超过200W索引页面的时候,JVM会溢出。
以下介绍通过几种方式实现超过1000W的索引页面查询响应时间降低到0.5秒以内。
Tags: 搜索引擎 Nutch Lucene
北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com

点击下载此文件




