预览模式: 普通 | 列表

应用技巧:Google搜索引擎的使用

1、汉语拼音输入检索 
  为了方便使用中文的用户在网上搜索,Google允许用户直接在键盘上输入汉语拼音来检索相关事物,例如: 
  输入 shanghaishikebiao 
  检索结果提示:您是不是要找:上海时刻表  
  这正是我们需要查找的关键词,用户可以据此浏览相关结果,这包括上海地区的各种交通工具的时刻表。如果需要查找更详细的资料“上海飞机航班时刻表”,则只要在原来的检索结果“上海时刻表”中间输入feijihangban,例如: 

查看更多...

Tags: Google 搜索引擎

北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com

分类:搜索引擎 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1430
速度:17600左右个汉字 , 分 1000词 ,时间大约是 12.5秒左右 , 差不多每秒 100万字 , 比海量分词的速度还快4倍 , 提供扩展到 词性标注的接口 , 估计准确率应该还可以接受吧。词库文件邮件发


package com.xdtech;
import java.util.*;

查看更多...

分类:搜索引擎 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2054

信息指纹与消重算法

信息指纹:就是提取一个信息的特征,通常是一组词或者一组词+权重,然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。

从理论上讲,每两个不同文本的特征信息是不同的,那么得到的代码也应该是不一样的,就象人的指纹。

搜索引擎在建立索引的时候需要对重复内容的网页进行识别和消重,这就要用到信息指纹。

查看更多...

Tags: 信息指纹 消重算法

北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com

分类:搜索引擎 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3570