首页 > 方案案例 > 正文

搜索技术在企业门户中的应用

2008-01-25 10:26:31  来源:CIO时代网

摘要:搜索通过企业门户建设可以为员工整体更好的应用体验,但在应用过程中也需要合理地控制用户的期望,以提高搜索应用的投入产出比。
关键词: 企业门户

    互联网搜索(如Google、百度)已成为企业许多员工解决日常工作问题的一种工具,在企业建设信息门户(EIP)过程中,员工除希望解决单点登录、数据集成、应用集成等之外,更希望门户中能够提供类似互联网搜索工具,来帮助自己从企业内部海量的信息中找到所需的知识。

  虽然从表现层看企业门户中的搜索与互联网搜索没什么差别,但在实现方法和技术上还存在很多不同点,这也导致很多企业在门户建设中搜索功能没有或效果不好。

  企业门户搜索、互联网搜索及桌面搜索从技术实现的基本原理上基本相同,但由于搜索的数据源不同、服务的对象不同等,搜索的功能与特点也不相同,下面是简单的比较:

 

互联网搜索

企业门户搜索

搜索范围

整个互联网

企业内部所有的信息资源及部分外部资源(如Internet、专业情报网等)

搜索对象

网页、图像、MP3等部分类型的多媒体文件

企业知识库、目录、帮助文件、新闻等。包括网页、电子邮件、Office文件、PDF文件、图片、音视频多媒体文件、图表、公文、研究报告、解决方案等

信息及时性

更新周期长,静态缓存的索引,周期切换

信息更新比较及时,动态更新索引,保证数据一致性

准确性、相关性

不可能查全,相关重要性排序以PageRank等为主

更全面、更准确,支持字词索引,复合元数据查询、排序更加合理

安全性

公开信息,不存在安全考虑

访问权限控制非常重要

管理应用

找到信息后服务完成

需要更完备的整合和管理,支持各种分类、聚类手段,支持安全开放接口便于与其它系统整合

应用特点

大而全,旨在为用户提供更丰富的搜索结果

专业、定向的搜索,注重结果的准确性和高度匹配性,并且是一种具有安全控制的搜索

                                                                                                                                                                           1. 企业门户搜索的基本原理及技术

  企业门户搜索工具通常具有发现、组织、联系和响应四个层次的应用支持能力,帮助员工搜索、发现内部的各种数据、信息、知识和外在的各类知识;将信息进行有效的组织、整理,让人们了解信息之间的联系,从中挖掘新的知识;将人们相互联系起来,在他们之间传递和分享无形的知识。

  门户搜索技术的核心搜索引擎原理基本分为三步:

  第一步,从数据源抓取信息,利用自动采集程序,访问互联网(通过Spider程序)或企业各种应用数据库(如Domino采集网关、JDBC技术) 抓取所有相关信息(网页、信息、知识等);

  第二步,建立索引数据库,由分析索引系统程序对收集回来的信息进行分析,提取相关数据(包括数据所在URL或位置、编码类型、包含的所有关键词、关键词位置、生成时间、大小、与其它数据的链接关系等),根据一定的相关度算法进行大量复杂计算,得到各种数据的相关度(或重要性),然后用这些相关信息建立索引数据库;

  第三步,在索引数据库中搜索排序,当用户输入关键词搜索后,由搜索系统程序从索引数据库中找到符合该关键词的所有相关信息。

  最后,由页面生成系统根据用户的访问权限将搜索结果的链接地址和内容摘要等内容组织起来,通过搜索Portlet在门户中展现给用户。

  由于大量的企业应用系统都具有各自安全管理体系,不同的数据存储结构,因此在门户搜索中必须解决:

  实现与各应用系统的单点登录,保证搜索工具能够正确地获取应用系统的信息;

  不同的用户由于权限的不同,搜索相同的信息展现的结果则不同,因此必须实现搜索结果的权限过滤,保证信息安全。

企业门户层次结构

  2. 企业门户搜索工具的选择

  企业门户搜索工具有二大类,一类是门户产品自带,如IBM WebSphere Portal、Microsoft SharePoint等均内置搜索功能,其特点是与门户应用一体化,减少整合的工作量;另一类是独立的搜索工具,如Autonoy,这类产品专注在搜索应用上,具有很高的专业性。

  在选择门户搜索工具时应注意以下一些功能和要求:

  优秀的搜索引擎:除具备搜索企业信息外,还能够搜索人员,并建立信息与信息、人与信息、人与人之间的关系;

  强大的处理能力:支持TB级海量数据,在处理大规模的数据量和大量并发用户访问时,仍然可以提供理想的响应时间和处理能力;

  准确的分词处理:能够准确地分析信息内容,进行分词处理,特别是中文检索的准确性;

  丰富的数据格式支持:可以处理包括流行的XML、HTML、PDF、MSWord、MSExcel、MSPowerPoint等格式的文件,可以从这些格式的文件中提取其中包含的内容文本,实现全文搜索;

  跨数据源检索:支持从文件系统、WWW网站、关系型数据库管理系统、LotusNotes、MSExchange等系统中进行信息汇聚的数据网关(Gateway),并且提供便于进行二次开发的数据网关开发包;

  多语种支持:支持多种语言,尤其是中文处理能力;

  跨平台支持:支持所有主流的操作系统和硬件平台;

   良好的扩展能力,无论从系统层面还是功能层面,都可以方便地进行扩充,或增强服务性能,或增加功能,支持集群技术和分布式部署;

  完善的安全机制:提供完善而灵活的安全访问控制机制,包括权限控制、用户认证和用户授权,以保证系统内信息内容的安全,用户认证功能实现用户单一登录,提供系统级、索引库级、记录级和字段级的安全控制,只有用户有权访问的内容才显示在检索结果清单和分类视图中。

  3. 企业门户搜索的应用实践

  门户搜索是企业门户建设的一项重要内容,由于搜索的数据源多、数据量大、使用规模大,因此在实施中存在设备投入大、开发与实施工作量大等问题,制定合理的实施策略是搜索应用成功的保证:

  门户建设初期,建议搜索内容与范围定位在门户自身,这样资源投入不大,但也能产生一些应用效果;

  门户运行中,建议搜索范围扩展到企业非结构化数据,并实现常用文件的全文搜索,重点放在企业级搜索平台的构建上,避免过多的资源投入在对结构化数据搜索的处理上;

  门户发展过程,可将搜索范围拓展到全企业,并重点实现与关系型数据库的整合。

  总之,搜索通过企业门户建设可以为员工整体更好的应用体验,但在应用过程中也需要合理地控制用户的期望,以提高搜索应用的投入产出比。

 


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。