搜索引擎

产品白皮书

(专业版)

 

 

 

 

 

 

 

 

 

 

 

二零零六年


 

一、系统概述

1.1公司介绍

北京线点科技是一家提供WEB应用系统解决方案的公司,在Web2.0开发应用方面具有丰富的开发经验,并且可以提供全面的搜索引擎解决方案,具有多名资深的搜索引擎专家,专注于行业/垂直搜索引擎开发。

在企业应用方面我们专注于企业WEB应用软件的开发、销售、安装和应用支持服务,包括办公自动化,供应链,人力资源管理,项目管理等各方面内容。

北京线点科技是一个优秀并且团结的团队,所有人员都是大学本科以上文凭,并且在企业应用软件行业都有2年以上的开发或服务经验,所使用和掌握的技术也处于行业领先地位。

线点科技经过自己的努力,建立了良好的客户关系,主要客户有摩托罗拉中国,宁夏联通,国家民航总局,厦门卷烟厂等等。

同时,公司也与业内多家公司保持着良好的合作伙伴关系,共同推动国内IT事业的发展。

线点科技执着的追求,力求做到"专业、专注、专精",让自己的服务最终落实到用户的信息管理工程系统化及自动化的成功。

公司以满足用户的需求为己任,为用户提供最先进实用的软件产品,为用户创造价值。我们跟用户一起在进步!共同发展!

 

1.2应用领域

本公司的搜索引擎产品是典型的垂直性搜索引擎,可以广大应用于以下领域

商业情报采集和分析,企业竞争情报系统CIS(Competitive Intelligence System)新闻监测和分析,情报采集和跟踪

网站门户,内外网信息发布,办公系统信息化建设

电子商务,信息分门归类及整合,

各种媒体和出版行业

档案管理系统

数字图书馆,电子书

各种应用系统数据信息的管理、分析和挖掘

 

1.3案例

厦门卷烟厂企业竞争情报采集系统


 

二、体系结构

搜索引擎是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能的产品,本产品提供了如下核心技术模块:

智能处理

自动分类

自动聚类

自动关键词提取

自动摘要

智能分析

主体检测/追踪

关联分析与趋势分析

自动消重(相关推荐)

智能检索

全文检索

、技术特点

本公司搜索引擎产品主要有以下特点。

3.1支持多种形式部署

根据客户实际需求,本产品可以部署在单机,集群,也可以部署在分布式系统之上,

3.2支持多平台

支持多种操作系统平台,目前经过测试的包括:Windows 2000及更高版本、Linux 7以上版本、Solaris 8以上版本,AIX等操作系统。

3.3可采用XML进行数据交换

XML是一种结构化置标语言,它针对文档的语义信息进行结构化的标注。XML文档相对于其它文档具有规范的结构、强大的数据描述能力与数据易扩展性、跨平台数据交换等特性。在内部和外部均采用XML进行交换数据的描述,有力地保证了系统的可扩展性与跨平台性,易于应用开发商的使用。

3.4支持多语种

文档信息的特征提取是智能信息挖掘的前提与基础,如:中文分词、词法语法规则、篇章分析等。在中文自然语言理解的理论基础上,本公司以多年积累的技术为文档特征提取的技术基础,为中文智能信息挖掘的有效性与准确性提供了有力的保证。实验表明,在处理中文文档方面,与不采用中文信息处理技术的国外相关软件在准确性方面具有明显优势。同时支持中文简体与繁体(GBKGB2312BIG5),也可支持英文及中英文混合文档。

3.5 分布式系统支持

 当信息数量超过一台计算机的负载能力,而无法达到要求的查询效率,或是系统需要承受更大的访问压力时,分布式系系统无疑是最好的解决方案。从标准版开始,本产品提供完全的分布式系统支持,这样您在理论上可以用我们的产品构建一个如同googlebaidu海量和强大的搜索引擎。

四、功能及特点

4.1自动分类

自动分类:通过对少量的样例文档的训练后,快速自动地对大量文档进行分类。

因特网的迅猛发展使得非结构、半结构化信息急速膨胀。海量信息给人们带来巨大财富的同时,也为信息处理工作带来了巨大的工作量,企业和个人急需一些智能处理技术,用来帮助完成信息自动处理,从而减轻人工劳动量。对海量信息分类是信息处理的重要手段,人工分类工作量巨大,且易受主观影响。通过学习训练文档,形成分类模型,可以将待处理文档自动分到对应类别中。

自动分类是通过对训练集的学习,获得每一分类的属性特征的模型,然后使用这一模型对未知分类情况的数据进行分类。

本公司的自动分类引擎具有国内领先优势的速度与准确性,以及具有专利技术的增量学习与反馈学习的能力。

在实际应用系统中,在该引擎核心上可实现对新闻稿件、图书资料、图片的自动分类,大大减少手工劳动的工作量,提高处理的准确性。

1.              4.1.1自动分类的特色

系统高效稳定:采用业界最先进的自动分类引擎,系统稳定、高效、实用,每天可处理上百万篇文档,适合于大型应用系统下的协同工作;

管理工具强大易用:提供强大而完善的训练管理工具,易于使用、维护以及进行分类效果分析;

特有的增量学习功能:系统可调整分类结构进行增量学习,有效解决了实际使用中分类树结构变化的难题;

独特的反馈学习功能:在概率统计的模型基础上,结合智能学习技术提高了学习模型的适应性,系统可通过反馈学习调整分类模型,“愈用愈聪明

2.              4.1.2自动分类的使用流程

系统使用流程分为三个阶段:

准备阶段:用户构造分类结构树,结构树里有多个分类,准备训练文档,每个类别放入200-500个文档。

训练阶段:调用引擎开始进行学习训练,分词词典作为后台词库存在,从而获取分类模型。

使用阶段:将待分类的文档提交给分类系统,分类系统进行特征提取后,把文档放到其对应的类别目录里。

自动分类的功能流程结构图如下所示:

3.              4.1.3性能指标

系统性能与硬件性能、分类结构的复杂性及测试文档有较大关系。

在普通PC机上(CPU1.7G,内存256M)

对经过分词等预处理过程之后的文档,核心算法能达到每秒分类200篇左右;

对结构简单的分类树,实现每秒50篇普通新闻稿件的分类(未预处理);

对结构复杂的分类树(5层,500节点),实现每秒10--20篇普通新闻稿件的分类;

能达到准确率与召回率同在85%左右(与训练情况与文档特征有关)。

分类模型为一层两个节点的简单模型,做分类训练时使用的的训练树也是一层两个节点。测试结果的准确率在85%左右(80%以上,与训练情况及对召回率的要求有关)。

文档集

文档量

总训练时间(s

单篇分类时间(ms

百级文档

225 0.536M

5

10.99

千级文档

1507 3.82M

36

11.78

万级文档

17475 40.8M

1454

12.75

 

4.2搜索引擎之爬虫

爬虫由以下模块组成:

A、网页读取模块

B、超链分析模块

C、内容分析模块

D、语言分析模块(分析网页语种)

由于我们是垂直性的搜索,因此我们比一般的全网搜索要多做一些事情。一般的内容分析模块只是将页面的里的垃圾信息或者超文本标记去除,但是垂直的全网搜索并不是这样,我们首先要建立一个垂直内容模型,在内容分析的时,同时还必须分析其是否和垂直内容模型相匹配,如果不匹配,则跳过。

A、在爬行时采取多线程抓取,线程无上限视服务器性能而定

B、支持广度爬行和深度爬行

C、超链分析要求不仅仅能分析绝对链接,相对链接也必须能分析(如先将其转换为绝对链接后总体分析)

D、实现在分布式架构上的爬虫自动伺服系统,能在无人干预的情况下自行爬行

E、各个线程具备独立与分词器和索引器交互的能力

F、具备故障恢复的能力

4.3搜索引擎之分词器

分词是搜索的核心之一,目前的分词技术基本有四种:

基于字符串匹配的分词算法

基于理解的分词方法

基于统计的分词方法

复方分词法

 

目前我们的分词算法采用第一种,基于字符串匹配的分词算法。并且可以根据用户具体需求采用其他算法来实现

 

技术特性:

有完善的通用词表和切分规范

歧义切分判断

未登录词(新词)识别

词库管理系统

在词条的组织上,我们具有一个高效的组织结构,即便当词条在达到百万级甚至千万级时也能有一个迅速的查询响应。词库组织方面采用动态的索引,因为静态的索引不利于于词库的变化,若有一新词出现,则需要重建整个词库的索引。

 

本公司的搜索引擎还具备分词训练功能,即,当某个关键字如果不在分词库中,且其达到一定的搜索频率(次数)后自动加入分词库。

4.              4.3.1自动关键词提取

自动关键词提取:在篇章分析与指代消解技术基础上,对文档自动提取关键词.

在各类信息中,尤以文字信息的数量最大。在这些海量的文字信息中快速、准确的寻找我们需要的信息,无疑是非常重要的。因此,人们提出了用几个词语来表述一篇文章主要内容的需求,这就是关键词。关键词是简要描述一片文章内容的重要元数据,用户可以通过关键词迅速了解文章的内容,从而判断文章是否是自己感兴趣的话题。但是以前的关键词都是以人力进行手工标注得到,效率低下且准确性不高。如何能够利用计算机快速准确地从文章中自动提取关键词,成为一个新的课题。关键词提取技术就是有效解决这一课题的最佳方案。自动关键词提取结构图如下。

 

5.              4.3.2性能指标

对于每篇文档提取十个关键词,每篇文档(2K左右)的关键词提取时间在10-15ms左右。

4.4搜索引擎之索引器

索引器是搜索引擎系统心须也是很关键的一个环节,它主要完成将切词形成的文档按照特定的索引算法排序存放以供快速查询。由于海量数据的需要,我们必须搭建分布式的索引系统,通过查询服务器和目录服务器实现对分布索引的查询。

 

技术特性:

支持多因子(甚至可达上百种)的排序

分布式索引系统

4.5搜索引擎之查询器

查询器分两个部分,一个是查询分析器,负责构建查询条件;另外一个是查询检索器,负责访问索引系统或者分布式索引查询服务器,并计算返回结果.查询分析器从用户角度来说,是用户接口进入搜索的第一个交互接口,分词再其之前,但分词对用户透明,查询分析器访问 检索接口,检索接口通过通过 RPC访问分布式文件查询服务器.检索结果通过分布式查询服务器的RPC管道返回,检索子系统合并返回结果,并进行筛选和排序(根据排序结果和用户访问页面请求,将检索结果分页,然后再次访问检索子系统获得页面摘要数据),之后将结果返回给用户界面。

 

技术特性:

排序精确,相关度较低的向后排

查询响应速度快,在百万数据量级中均值不能超过0.5秒,在千万数据量级中均值不能超过1秒,

摘要显示完备,

标题和摘要均可以高亮显示

suggest功能,通过不同于系统浏览器的suggest自动完成功能,可以帮助用户了解当前热门词,协助用户查询所需的信息

4.7关联分析与趋势分析

关联分析是从海量数据中挖掘信息之间的关联关系。

实际应用系统中,在该引擎核心上可实现通过对稿件库的关联分析,发现稿件之间的关联关系、稿件中词之间的关联关系,甚至新闻事件之间的关联关系。为稿件自动建立关联链接、提供新闻事件间关联分析参考。

趋势分析是实现与时间相关的分析。

实际应用系统中,在该引擎核心上可实现分析热点话题并判断其“热度”趋势等,通过趋势曲线来表达。

4.8产品总体性能

本公司产品可达到如下技术指标:

海量数据的处理能力:系统将能够顺利处理千万文档以上的数据集合,数据量在TB级以上;

在线功能的实时处理:如文档的自动摘要、自动分类等功能的响应时间在秒级以内;

离线分析功能的快速准确:对几万样例数据的分类训练等功能的运行时间在以小时为量级的时间范围内;

批量数据处理高速:对百万数据的批量处理,每天的数据处理量为百万量级;

对分词等基础功能其准确率达到99%以上,一般功能的准确性在90%左右,并均提供对可疑数据的人工确认与机器学习手段,以便不断提高准确度。


 

系统要求

硬件支持环境:P4 2G256M内存或更多

软件运行环境:

Windows 2000及其以上版本

Linux 7.0以上版本

支持的数据库:提供目前所有主流数据库的支持包括Sql Server,Mysql,Oracle,Postgresql,Access,DB2

应用服务器:IIS6.0Tomcatweblogicwebspherejobss 等等

提供的开发接口:Java.NetphpPythonPerl

六、联系方式

市场部: 010-82894756 / 010-82894756-1001  13911314277(7x24小时)

技术支持:010-82894756-1008/1009 传真:010-82894753

技术支持 E-mail: support@xd-tech.com.cn 市场 E-mail: market@xd-tech.com.cn

销售联系:QQ: 33054474 / 5834572 MSN:geniuscn@hotmail.com

北京市海淀区上地信息路2号 国际科技创业园 2-16B

邮编:100085;