分类: 全文检索 |
预览模式: 普通 | 列表

搜索引擎的系统架构
    这里主要针对全文检索搜索引擎的系统架构进行说明,下文中提到的搜索引擎如果没有特殊说明也是指全文检索搜索引擎。搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。  
 1、从互联网上抓取网页
利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。

查看更多...

Tags: 全文检索 搜索引擎 系统架构

北京线点科技 致力于以数据和搜索为核心的业务 (全文检索、舆情监控、搜索引擎产品)http://www.xd-tech.com

分类:全文检索 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 175

使用站内搜索的五大理由


自从有了计算机以后,人类开始用计算机保存信息,有保存,就有查找,于是检索技术诞生了。文本检索技术的发展从最初的SMART文档检索系统[1]到Altavista搜索引擎,到现在的搜索巨头Google[2],其发展可谓日新月异、与时具进,人们开始习惯互联网的搜索时代,站内检索的需求也逐渐显露出来。下面列举需要站内检索的五大理由:
一、所寻即所得
信息量总在不断增长,而访问者的耐心却逐渐下降。据统计,每需要多点击一次鼠标,就有三分之一的用户选择放弃。这意味着100个访问者进入我们的网站,如果需要点击三次鼠标才能找到所需要的东西,那么就只剩下不到4个人了。根据第十一次中国互联网信息调查表明,53.1%的人上网是为了获取信息[3],大部分网站的目的是让外界了解自己,了解的人越多,效果就越好。把访问者最想要的返回给用户,就可让更多的用户了解自己,这样站内检索成为必然选择。
二、了解访问者的意图

查看更多...

分类:全文检索 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 183

全文检索


有专家认为,无论对文献标引的质量如何,对用户检索的满足率都不可能百分之百。例如,用户想检索关于陈毅在抗日战争中活动的文献,采用对标引词(主题词、关键词)字段的检索就很难满足检索要求,只有全文检索才能满足这一检索目的。因此,无论对文献的标引和分类如何,全文检索的功能都是不可替代的。然而,由于全文检索是直接对“原文”的检索,检索时会产生误检,大量的检索垃圾降低了全文检索的查准率,同时由于作者用词的不统一,同义词繁多,全文检索的查全率也受到影响。所以,解决这些问题是刻不容缓的。
1.提高查全率
作者用词的不统一,影响了用户的查全。例如,查找“非典型肺炎”,由于不同的文献使用的词汇不同,如“非典型肺炎”、“SARS”、“非典”等,只用某一词查找就可能出现漏检,如果让用户去列举出所有同义词来检索,势必增加了用户的检索负担。因此,构造全文检索算法时应考虑到检索词的扩充,采用同义词词典无疑是一个好的方法。
同义词词典是把含义相同的词汇关联起来,在全文检索中的作用是,当用户使用某个词汇检索时,系统直接将同义词取出,构成“或”运算检索式,在全文中匹配查询,这样确保了具有高查全率的检索效果。对于同义词词典,应能够及时更新,或具有学习功能,为维护同义词词典提供帮助。

查看更多...

分类:全文检索 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 168