预览模式: 普通 | 列表

主题爬虫的设计

点击下载此文件参考附件的一篇文献

正在研究针对非固定主题的爬虫。

分类:搜索引擎 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 14053

象Google 一样准确

     过几天简单的介绍一下。

    有空在介绍一下竞价排名和分类广告系统。

分类:搜索引擎 | 固定链接 | 评论: 1 | 引用: 0 | 查看次数: 19033

将查询的响应时间降低到0.5秒以内

        Nutch 的索引文档数量在100W以下的时候,怎么处理查询响应都比较的快速,基本上不会超过0.5秒。但是超过200W索引文档 的时候如果不处理,查询的响应时间就会超过这个数字。如果内存足够,甚至可以把200W的索引文档全部加载到内存,这时查询响应时间会小于0.1秒,但内存占用会超过1.5G,这种方式适合数据量比较小的查询系统,例如文献检索等。

        当数据量超过200W的时候如果全部加载到内存则不太适合了,因为受JVM最大内存的限制(1.2G到3.6G Linux下),加载超过200W索引页面的时候,JVM会溢出。

        以下介绍通过几种方式实现超过1000W的索引页面查询响应时间降低到0.5秒以内。

查看更多...

Tags: 搜索引擎 Nutch Lucene

北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com

分类:搜索引擎 | 固定链接 | 评论: 8 | 引用: 0 | 查看次数: 18005