中文搜索引擎技术揭密:中文分词(一)
作者:baijl 日期:2010-03-31
什么是中文分词?
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
中文分词和搜索引擎
中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有两个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)上以“和服”为关键词进行搜索:
使用站内搜索的五大理由
作者:baijl 日期:2010-03-31
自从有了计算机以后,人类开始用计算机保存信息,有保存,就有查找,于是检索技术诞生了。文本检索技术的发展从最初的SMART文档检索系统[1]到Altavista搜索引擎,到现在的搜索巨头Google[2],其发展可谓日新月异、与时具进,人们开始习惯互联网的搜索时代,站内检索的需求也逐渐显露出来。下面列举需要站内检索的五大理由:
一、所寻即所得
信息量总在不断增长,而访问者的耐心却逐渐下降。据统计,每需要多点击一次鼠标,就有三分之一的用户选择放弃。这意味着100个访问者进入我们的网站,如果需要点击三次鼠标才能找到所需要的东西,那么就只剩下不到4个人了。根据第十一次中国互联网信息调查表明,53.1%的人上网是为了获取信息[3],大部分网站的目的是让外界了解自己,了解的人越多,效果就越好。把访问者最想要的返回给用户,就可让更多的用户了解自己,这样站内检索成为必然选择。
二、了解访问者的意图
全文检索
作者:baijl 日期:2010-03-31
有专家认为,无论对文献标引的质量如何,对用户检索的满足率都不可能百分之百。例如,用户想检索关于陈毅在抗日战争中活动的文献,采用对标引词(主题词、关键词)字段的检索就很难满足检索要求,只有全文检索才能满足这一检索目的。因此,无论对文献的标引和分类如何,全文检索的功能都是不可替代的。然而,由于全文检索是直接对“原文”的检索,检索时会产生误检,大量的检索垃圾降低了全文检索的查准率,同时由于作者用词的不统一,同义词繁多,全文检索的查全率也受到影响。所以,解决这些问题是刻不容缓的。
1.提高查全率
作者用词的不统一,影响了用户的查全。例如,查找“非典型肺炎”,由于不同的文献使用的词汇不同,如“非典型肺炎”、“SARS”、“非典”等,只用某一词查找就可能出现漏检,如果让用户去列举出所有同义词来检索,势必增加了用户的检索负担。因此,构造全文检索算法时应考虑到检索词的扩充,采用同义词词典无疑是一个好的方法。
同义词词典是把含义相同的词汇关联起来,在全文检索中的作用是,当用户使用某个词汇检索时,系统直接将同义词取出,构成“或”运算检索式,在全文中匹配查询,这样确保了具有高查全率的检索效果。对于同义词词典,应能够及时更新,或具有学习功能,为维护同义词词典提供帮助。






