预览模式: 普通 | 列表

浅谈图片搜索引擎的实现

 leo在他的《博客营销》中说不清楚全文检索博客的领域是什么,呵呵,整个Minidx.com其实都只不过是一个自己随便涂鸦的地方,倒还真没考虑过什么领域,更加没有考虑过自己的博客应该专注于哪一方面……如果非要划分,大概http://minidx.com勉强还能算得上一点“领域”吧。呵呵,无所谓了,随便涂鸦吧……OODA SAN说他在研究图片搜索引擎,所以就和他探讨了一些图片搜索的实现的问题,这里也记录一下自己的思路,OODA是这方面的专家,而我只能算是“新手上路”,下面说的有什么不对的还望包涵指出,:)

简单的说,图片搜索是搜索引擎针对网络上的图片所提供的服务。包括Google, Yahoo!, Ask, MSN和AOL以及国内的Baidu这些大型搜索引擎都提供有图片搜索,还有号称图片搜索专用的picsearch,但它们并非真正地对文件中的图像进行搜索,而是对附加在图片中的文字(比如img标签的alt属性)以及文件名进行搜索,也就是通常意义上的关键字索引,所以实质上用的还是基于文本内容的检索,因此也只能搜索数量较少的文件,IBM 公司的研究人员也曾经开发一种名为Marvel的可以实现音像资料搜索的搜索引擎,它能够获取目前在互联网上很难获取的音像资料,只是没有关注过目前的进展。目前微软也正在研究可以通过头像来查找某人的信息这样的搜索引擎,微软将之成为Photo2Search,“a picture is worth a thousand words”,真正意义上的多媒体搜索引擎的实现,带给人们的影响,将可以与蒸汽机,电脑相媲美……

查看更多...

分类:其他 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1567

搜索引擎之排序技术分析

什么是排序技术

所谓的排序技术,我们可以简单的理解为曝光率,谁出现的次数最多,谁排在前面。要谈到排序技术,就不得不说Google的PageRank,而提到PageRank,则我们需要先来了解一下一种称为HillTop的排序算法。

查看更多...

分类:搜索引擎 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 976

使用Netbeans开发搜索引擎Nutch

 Nutch简介 

  Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Nutch致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, nutch能够做到: 每个月取几十亿网页; 为这些网页维护一个索引; 对索引文件进行每秒上千次的搜索; 提供高质量的搜索结果; 以最小的成本运作. 

  测试环境: 

查看更多...

分类:其他 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 971