搜索引擎

产品说明书

2007特别版)

 

 

 

 

 

 

 

 

 

 

 

二零零七年


一、系统概述. 3

1.1公司介绍. 3

1.2应用领域. 3

1.3典型案例. 4

二、体系结构. 5

、技术特点. 5

3.1支持多种形式部署. 5

3.2支持多平台. 5

3.3可采用XML进行数据交换. 6

3.4支持多语种. 6

四、功能及特点. 7

4.1自动分类. 7

4.2搜索引擎之爬虫. 7

4.3搜索引擎之分词器. 7

4.3.1性能指标. 8

4.4搜索引擎之索引器. 8

4.5搜索引擎之查询器. 9

4.8产品总体性能. 9

、系统要求. 10

六、联系方式. 10

 


 

一、系统概述

1.1公司介绍

北京线点科技是一家提供WEB应用系统解决方案的公司,在Web2.0开发应用方面具有丰富的开发经验,并且可以提供全面的搜索引擎解决方案,具有多名资深的搜索引擎专家,专注于行业/垂直搜索引擎开发。

在企业应用方面我们专注于企业WEB应用软件的开发、销售、安装和应用支持服务,包括办公自动化,供应链,人力资源管理,项目管理等各方面内容。

线点科技是一个优秀并且团结的团队,所有人员都是大学本科以上文凭,并且在企业应用软件行业都有2年以上的开发或服务经验,所使用和掌握的技术也处于行业领先地位。

线点科技经过自己的努力,建立了良好的客户关系,主要客户有摩托罗拉中国,宁夏联通,国家民航总局,厦门卷烟厂等等。

同时,公司也与业内多家公司保持着良好的合作伙伴关系,共同推动国内IT事业的发展。

线点科技执着的追求,力求做到"专业、专注、专精",让自己的服务最终落实到用户的信息管理工程系统化及自动化的成功。

公司以满足用户的需求为己任,为用户提供最先进实用的软件产品,为用户创造价值。我们跟用户一起在进步!共同发展!

 

1.2应用领域

本公司的搜索引擎产品是典型的垂直性搜索引擎,可以广大应用于以下领域

商业情报采集和分析,企业竞争情报系统CIS(Competitive Intelligence System)新闻监测和分析,情报采集和跟踪

网站门户,内外网信息发布,办公系统信息化建设

电子商务,信息分门归类及整合,

各种媒体和出版行业

档案管理系统

数字图书馆,电子书

各种应用系统数据信息的管理、分析和挖掘

 

1.3典型案例

114路况数据采集系统

奉新电力内网数据查询系统

中电领导查询系统

 

另有一些垂直搜索的用户因为签署了保密协议的,所以,我们也不方便向外公布。


 

二、体系结构

搜索引擎是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和数据处理处理为核心功能的产品,本产品提供了如下核心技术模块:

数据处理

n         自动分类

n         自动聚类

智能分析

n         自动消重(相关推荐)

智能检索

n         全文检索

、技术特点

本公司搜索引擎产品主要有以下特点。

3.1支持多种形式部署

根据客户实际需求,本产品可以部署在单机,集群,也可以部署在分布式系统之上,

3.2支持多平台

支持多种操作系统平台,目前经过测试的包括:Windows 2000及更高版本、Linux 7以上版本、Solaris 8以上版本,AIX等操作系统。

3.3可采用XML进行数据交换

XML是一种结构化置标语言,它针对文档的语义信息进行结构化的标注。XML文档相对于其它文档具有规范的结构、强大的数据描述能力与数据易扩展性、跨平台数据交换等特性。在内部和外部均采用XML进行交换数据的描述,有力地保证了系统的可扩展性与跨平台性,易于应用开发商的使用。

3.4支持多语种

文档信息的特征提取是智能信息挖掘的前提与基础,如:中文分词、词法语法规则、篇章分析等。在中文自然语言理解的理论基础上,本公司以多年积累的技术为文档特征提取的技术基础,为中文智能信息挖掘的有效性与准确性提供了有力的保证。实验表明,在处理中文文档方面,与不采用中文信息处理技术的国外相关软件在准确性方面具有明显优势。同时支持中文简体与繁体(GBKGB2312BIG5),也可支持英文及中英文混合文档。

四、功能及特点

4.1自动分类

    通过系统系统提供的管理后台配置,自动根据网址与分类的映射关系,将搜索的数据进行归类

4.2搜索引擎之爬虫

爬虫由以下模块组成:

A、网页读取模块

B、超链分析模块

C、内容分析模块

D、语言分析模块(分析网页语种)

由于我们是垂直性的搜索,因此我们比一般的全网搜索要多做一些事情。一般的内容分析模块只是将页面的里的垃圾信息或者超文本标记去除,但是垂直的全网搜索并不是这样,我们首先要建立一个垂直内容模型,在内容分析的时,同时还必须分析其是否和垂直内容模型相匹配,如果不匹配,则跳过。

A、在爬行时采取多线程抓取,线程无上限视服务器性能而定

B、支持广度爬行和深度爬行

C、超链分析要求不仅仅能分析绝对链接,相对链接也必须能分析(如先将其转换为绝对链接后总体分析)

D、实现在分布式架构上的爬虫自动伺服系统,能在无人干预的情况下自行爬行

E、各个线程具备独立与分词器和索引器交互的能力

F、具备故障恢复的能力

4.3搜索引擎之分词器

分词是搜索的核心之一,目前的分词技术基本有四种:

A、  基于字符串匹配的分词算法

B、  基于理解的分词方法

C、  基于统计的分词方法

D、  复方分词法

 

目前我们的分词算法采用第一种,基于字符串匹配的分词算法。并且可以根据用户具体需求采用其他算法来实现

 

技术特性:

A、  有完善的通用词表和切分规范

B、  歧义切分判断

C、  未登录词(新词)识别

D、  词库管理系统

在词条的组织上,我们具有一个高效的组织结构,即便当词条在达到百万级甚至千万级时也能有一个迅速的查询响应。词库组织方面采用动态的索引,因为静态的索引不利于于词库的变化,若有一新词出现,则需要重建整个词库的索引。

 

本公司的搜索引擎还具备分词训练功能,即,当某个关键字如果不在分词库中,且其达到一定的搜索频率(次数)后自动加入分词库。

4.3.1性能指标

对于每篇文档提取十个关键词,每篇文档(2K左右)的关键词提取时间在10-15ms左右。

4.4搜索引擎之索引器

索引器是搜索引擎系统心须也是很关键的一个环节,它主要完成将切词形成的文档按照特定的索引算法排序存放以供快速查询。由于海量数据的需要,我们必须搭建分布式的索引系统,通过查询服务器和目录服务器实现对分布索引的查询。

 

技术特性:

A、      支持多因子(甚至可达上百种)的排序

B、      分布式索引系统

4.5搜索引擎之查询器

查询器分两个部分,一个是查询分析器,负责构建查询条件;另外一个是查询检索器,负责访问索引系统或者分布式索引查询服务器,并计算返回结果.查询分析器从用户角度来说,是用户接口进入搜索的第一个交互接口,分词再其之前,但分词对用户透明,查询分析器访问 检索接口,检索接口通过通过 RPC访问分布式文件查询服务器.检索结果通过分布式查询服务器的RPC管道返回,检索子系统合并返回结果,并进行筛选和排序(根据排序结果和用户访问页面请求,将检索结果分页,然后再次访问检索子系统获得页面摘要数据),之后将结果返回给用户界面。

 

技术特性:

A、      排序精确,相关度较低的向后排

B、      查询响应速度快,在百万数据量级中均值不超过0.8

C、      摘要显示完备,

D、      标题和摘要均可以高亮显示

E、      suggest功能,通过不同于系统浏览器的suggest自动完成功能,可以帮助用户了解当前热门词,协助用户查询所需的信息

4.8产品总体性能

本公司产品可达到如下技术指标:

n         海量数据的处理能力:系统将能够顺利处理百万文档以上的数据集合,数据量在10G级以上;

n         离线分析功能的快速准确:对几万样例数据的分类训练等功能的运行时间在以小时为量级的时间范围内;

n         批量数据处理高速:对百万数据的批量处理,每天的数据处理量为百万量级;

n         对分词等基础功能其准确率达到98%以上,一般功能的准确性在90%左右,并均提供对可疑数据的人工确认与机器学习手段,以便不断提高准确度。


 

系统要求

Ø         硬件支持环境:P4 2G256M内存或更多

Ø         软件运行环境:

u       Windows 2000及其以上版本

u       Linux 7.0以上版本

Ø         支持的数据库:提供目前所有主流数据库的支持包括Sql Server,Mysql,Oracle,Postgresql,Access,DB2

Ø         应用服务器: Tomcatweblogicwebspherejobss 等等

Ø         提供的开发接口:Java.NetphpPythonPerl

六、联系方式

市场部: 010-82894756 / 010-82894756-1001  13911314277(7x24小时)

技术支持:010-82894756-1008/1009 传真:010-82894753

技术支持 E-mail: support@xd-tech.com.cn 市场 E-mail: market@xd-tech.com.cn

销售联系:QQ: 33054474 / 5834572 MSN:geniuscn@hotmail.com

北京市海淀区上地信息路2号 国际科技创业园 2-16B

邮编:100085;