

| 核心技术 | 功能特色 | |
| 搜索引擎是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能的产品,本公司产品基于如下核心技术模块: 智能处理 网络爬虫/Spider技术 自动分类 自动聚类 自动关键词提取 自动摘要 自动消重 信息指纹技术 自动索引、自动更新 自动正文抽取 智能分析 主体检测/追踪 关联分析与趋势分析 智能检索 全文检索 拼音检索 网页快照 同义词检索 文件编码自动识别 分布式检索系统,不限节点 支持亿级数据检索 |
本公司搜索引擎产品主要由网络爬虫,索引器,分词器,查询器四部分模块组成,相对市场相关产品,本公司产品具有以下功能特色。 网络爬虫 支持广度与深度搜索算法 支持用户名与密码自动登录 验证码处理 图片及其它相关文件自动下载 索引器 索引形式与格式自定义 支持从数据库直接索引 支持直接保存入数据库,自定义隐射关系 分词器 上百万精选词库 基于语义分析,词性、词频标注 人名、地名、单位名自动识别、未登录词识别 支持自定义词库 接口 提供查询、索引维护、应用开发接口 提供JAVA、ASP.NET、PHP、Perl多语言接口 其它特色 支持外部插件 |
| 特别版 | 普及版 | 标准版 | 专业版 | 大客户版 | |
| 网络爬虫 | √ | √ | √ | √ | √ |
| 网页块分析正文抽取 | √ | √ | √ | √ | √ |
| 用户定义分类 | √ | √ | √ | √ | √ |
| 网页非结构化信息抽取 | √ | √ | √ | √ | √ |
| 基于词库的中文切分词 | √ | √ | √ | √ | √ |
| url和标题去重 | √ | √ | √ | √ | √ |
| 多语言,编码格式自动识别 | √ | √ | √ | √ | √ |
| 多数据库支持 | √ | √ | √ | √ | √ |
| 网页快照 | √ | √ | √ | √ | √ |
| 采集数据保存进用户数据库 | √ | √ | √ | √ | |
| 直接从数据库建索引 | √ | √ | √ | √ | |
| 文件自动下载 | √ | √ | √ | √ | |
| 数据的自动二次加工 | √ | √ | √ | √ | |
| 自动登录 | √ | √ | √ | ||
| 同义词检索 | √ | √ | √ | ||
| 分布式支持 | √ | √ | √ | ||
| 自动正文抽取 | √ | √ | |||
| 基于语义的中文切分词 | √ | √ | |||
| 自动关键词提取,自动摘要 | √ | √ | |||
| 信息指纹技术 | √ | √ | |||
| 拼音检索 | √ | √ | |||
| 自动分类 | √ | ||||
| 报表与统计功能 | √ | ||||
| 广告系统 | 免费附送 | 免费附送 | 免费附送 | 免费附送 | |
| 竞价排名系统 | 免费附送 | 免费附送 | 免费附送 | ||
| 可部署服务器数量 | 1台 | 1台 | 多台 | 多台 | 多台 |
| 支持数据量 | 200万以内 | 500万以内 | 千万级 | 亿级 | 亿级 |
| 查询响应时间 | 0.8s以内 | 0.6s以内 | 0.5s以内 | 0.5s以内 | 0.3s以内 |
| 每天更新数据量 | 10万 | 30万 | 100万以上 | 100万以上 | 可配置 |
| 升级服务 | √ | √ | √ | √ | |
| 补丁服务 | √ | √ | √ | √ | √ |
| 售后服务时间 | 5x8 | 5x8 | 5x8 | 7x24 | 7x24 |
| 技术支持 | 一年免费 | 一年免费 | 一年免费 | 一年免费 | 二年免费 |