首页 > EA > 正文

企业级非结构化数据管理平台研究及实践

2013-01-31 10:33:10  来源:万方数据

摘要:非结构化数据管理平台不仅是企业内非结构化数据的存储中心。同时也是各项非结构化数据管理标准的制订者与实践者。
关键词: 非结构化数据

    在大型企业中。数据资产是最具价值的无形资产。按类型可以分为结构化数据和非结构化数据。其中,非结构化数据是指无法用二维表结构表示的一种数据类型,主要包括办公文档、文本、图片、XML、HTML、各类报表、图像和音频,视频等。在企业信息化建设过程中产生的数据中,能够采用关系型数据库处理的结构化数据约占企业数据总量的20%。而其他80%的非结构化数据无法完全采用关系型数据库来处理。科学管理和合理应用这些非结构化数据已经成为企业正确决策、增强核心竞争力的关键。Gartner在2006年6月的专项分析报告指出:“未来的十几年,有效的信息管理非常重要,它将把那些不堪信息爆炸之重负的企业与那些主导全球经济的企业区分开来”。Gartner、AIIM(美国图形与信息协会)、维基百科等权威机构将企业非结构化数据管理定义为一套运用于获取、管理、存储、保管和发布内容以及文档与组织、流程结合的战略、方法和工具,它管理着企业全局范围内各种形式的非结构化信息。

 

    中国建设银行、中国移动、英国BP石油公司、韩国伍里银行、美国好事达保险公司对非结构化数据集中管理开展了相关工作,取得良好成效。同时,中央政府高度重视央企对非结构化数据的管理规范T作。2010年,由中央办公厅、同务院办公厅联合下发《电子文件暂行管理办法》(2009年39号文),明确要求大型企业电子文件管理需要满足统一管理、全程管理、规范标准、便于利用、安全保密五大要求。

 

    因此,为了能够更大地获取企业信息化建设投资收益。增强企业自身核心竞争力,必须强化对非结构化数据的管理和应用。研究企业级的非结构化数据管理平台。

 

    1、需求分析

 

    根据对国内大型企业非结构化数据应用现状的调研结果,结合AIIM、Garnter等权威机构对内容管理业务领域的研究,综合分析出企业级非结构化数据管理平台需要重点满足非结构化数据集中存储、统一管理、对外提供非结构化数据公共服务、业务应用系统统一接人这4个关键需求,全面覆盖了内容获取、内容存储、内容管理、内容应用等4个业务领域。

 

    1.1数据统一存储需求

 

    针对大型企业内各业务应用系统基本采用分散存储各自非结构化数据的应用现状,需要通过建设非结构化数据管理平台,建立企业内部大数据量的非结构化数据存储中心,同时需要通过制订存储优化策略达到优化存储结构。提高存储资源利用率,从而达到将企业内的非结构化数据进行集中存储,简化企业内部的IT架构、减少数据安全控制点,提升企业核心业务系统总体性能。为企业内部非结构化数据高效利用奠定基础的目标。

 

    1.2数据集中管理需求

 

    非结构化数据管理平台不仅是企业内非结构化数据的存储中心。同时也是各项非结构化数据管理标准的制订者与实践者。通过制订各种非结构化数据管理标准,解决目前在非结构化数据管理上所存在的主要问题,满足企业内非结构化数据集中管理的需求。如通过建立内容元数据管理标准,统一企业内部内容元数据管理;通过建立数据全局访问标准,统一各业务应用系统间数据的共享与交换;通过建立数据归集标准。满足业务应用系统存储的数据实现归集的要求。

 

    总之。通过“标准制订一产品开发一成果实施”的方式提高企业信息化建设中所产生的大量文件档案。如规章制度、工程图纸、合同票据、统计报表等各类非结构化数据的集约化管理水平,实现非结构化数据管理规范化、流程化、自动化。

 

    1.3全生命周期管理需求

 

    全生命周期管理是指内容的创建、申请、审核、生效、分发、退休到销毁的全生命周期过程。全生命周期管理的最大价值是使内容的创建者和使用者能够在全生命周期中协同参与、共同维护,创建者可以完整地控制和管理内容生命周期过程。

 

    全生命周期管理的基础是统一的版本管理、统一的存储管理和统一的权限控制。实现方式一种是根据内容的状态来控制全生命周期过程,另外一种是结合工作流。通过工作流和版本管理、存储管理和权限管理的结合。实现更丰富多样的全生命周期管理过程。

 

    结合工作流技术。根据业务的需求。实现内容的全生命周期管理。实现数据在部门间的电子化无缝传输,实现数据在从创建、申请、审核、牛效、下发、退休和销毁的自动化过程控制,实现使用者的自动化推送。提高工作效率和部门间沟通效率。

 

    1.4统一对外服务需求

 

    目前企业内各业务应用系统针对非结构化数据管理都具有不少重复的功能。如内容存储、内容访问、内容检索等,造成“烟囱”现象严蕈。这不仅加大了企业的信息化建设费用,而且还使信息系统建设周期延长。作为专注服务于大型食业单位非结构化数据管理的基础信息平台。应能够对外提供基本公共服务(包括内容存储服务、内容访问服务、内容管理服务以及运行监控服务等)及各类工具(数据分析及挖掘工具等),能够对企业内部相关业务应用系统提供统一的非结构化数据利用服务,进一步提升非结构化数据管理平台的应用价值。

 

    1.5多类型应用系统接入需求

 

    目前,在大型企业内的业务系统存在业务逻辑多样性、所采用的开发技术多样性的特点。如基于SAP开发、基于J2EE开发等。为了能够提升业务价值,平台须具备对企业内多样化的业务系统有序、规范接人的能力。为此,平台需要为不同类型的业务应用系统提供整体接入解决方案以及与之配套的相关接人规范等。

 

    1.6数据加工和决策支持需求

 

    非结构数据的集中存储,为数据深加工提供了基础。需要平台根据决策需要。对数据进行文本分析、加工挖掘和信息抽取等技术手段。分析数据间的关联性等,最终提供全文检索和决策支持服务。非结构化平台与结构化数据中心的数据仓库产生的决策数据进行结合。并根据决策和日常办公需要。生成各种辅助性的文档(数据源来自于各个数据中心),最终提高公司的工作效率。非结构化数据管理平台在满足以上关键性需求后,平台将真正成为企业的非结构化数据存储的数据中心,真正成为企业相关联业务系统共享非结构化数据的通道。真正成为企业引入国际先进内容管理技术。提供创新性文档增值服务(如各种文档挖掘与决策支持工具)的容器。

 

[page]    2、建设目标

 

    2.1总体目标

 

    企业级非结构化数据管理平台作为是企业信息化基础设施的重要组成部分。其建设总体目标如下。

 

    1)非结构化数据管理平台是将大型企业所有包含非结构化数据的业务应用系统进行统一集成整合的数据中心。对各业务应用系统上传的所有非结构化数据进行集中存储、流转、管理以及综合应用。

 

    2)为大型企业其他业务应用系统提供公共服务及工具,实现非结构化数据全生命周期管理和综合利用,保证非结构化数据全方位安全。

 

    3)实现非结构化数据的规范化、流程化、自动化,提供业务深度融合、智能决策支持、离线数据安全等服务,充分实现企业信息价值。全面服务企业发展战略。为智能分析与决策支持提供支撑。

 

    2.2演进路线

 

    根据总体建设目标。以非结构化数据在企业效用提升为主线,企业级非结构化数据管理平台按照3个阶段建设、分步完成进行演进。

 

    1)第1阶段(集中化管理阶段):实现企业内非结构化数据集中化管理。制定统一标准、完成平台部署、初步数据利用、提供基本的非结构化数据服务。

 

    2)第2阶段(业务融合阶段):实现各业务应用非结构化数据融合,全面集中管理、初步业务融合、提供初步的内容加工挖掘和深化高级服务。

 

    3)第3阶段(决策支持阶段):提供非结构化数据高级应用服务。业务深度融合、智能决策支持、离线数据安全等服务。使非结构化数据管理平台真正成为公司信息化基础设施的重要组成部分。

 

    3、平台架构设计

 

    3.1设计原则

 

    企业级非结构化数据管理平台是信息化基础设施。作为非结构化数据集中存储、管理和应用的中心。在企业信息化建设过程中将起着至关重要的作用,平台设计应充分考虑并结合企业非结构化数据管理现状和未来发展趋势。

 

    1)可扩展性:优良的体系结构设计对于系统是否能够适应将来新业务的发展至关重要。在满足现有非结构化数据管理需求的基础上。系统应当有充分的可扩展性,以满足未来的业务发展。因此在方案设计中。必须考虑到应用逐步丰富、系统不断扩展的要求。以形成一个易于管理、可持续发展的体系结构。同时将应用系统进行完全模块化的设计,使系统具有良好的扩展性和高效性。

 

    2)先进性:设计方案中采用市场领先并且成熟的技术。使非结构化数据管理平台具备国内同业领先的地位。

 

    3)安全性:设计方案充分考虑到网络环境的安全性需求。防范国际互连网上的非法用户的侵入,防止合法用户对重要的不宜公开的数据的侵入。

 

    4)标准性和开放性:设计方案充分考虑系统的标准性和开放性。尽可能地遵循开放的标准。开放的系统平台便于将来扩展新的功能及与第三方的接口。

 

    5)系统集成性:预留与其他系统间的接口。增加适配层隔离不同系统,降低系统集成的风险。

 

    3.2业务架构

 

    业务架构描述平台的业务目标。根据中央办公厅2009发布的《电子文件暂行管理办法》(2009年39号文)以及非结构化数据管理平台的关键业务需求。设计如图1所示的非结构化数据管理平台业务架构。

 

    \

 

    非结构化数据管理平台对企业非结构化数据管理的业务能力至下而上划分为:统一存储、统一标准、统一管理、统一利用、统一运维。

 

    1)统一存储:是指平台具有能将非结构化数据进行集中存储的能力。该业务能力使平台能够对企业内大数据量的非结构化数据进行集中存储及存储优化能力,这是非结构化数据管理平台的基本业务能力。

 

    2)统一标准:是指平台作为企业信息基础设施的重要组成部分。必须担负企业内各项非结构化数据管理及应用标准的制订者与实践者的角色。通过制订各类且具可行性的非结构化数据的管理和利用标准。如平台管理办法、元数据标准、数据归集标准、业务应用接入标准等,指导平台各项建设工作开展。

 

    3)统一管理:是指平台提供对企业内非结构化数据统一管理的能力。如非结构化数据的全生命周期管理、数字资产管理、数据归集管理以及文档管理等。

 

[page]    4)统一利用:是指平台提供内容访问服务、内容处理服务、安全管控服务、高级应用服务。在实现非结构化数据统一存储与统一管理的基础上,实现非结构化数据安全、高效、增值利用。这是平台建设的最主要目的。这部分业务能力可细分如下。①提供对各个接人平台的业务应用对存储在平台的非结构化数据统一访问的能力,如基于平台实现跨库查询、在线浏览、在线编辑等方式。②提供一系列具有全局性的非结构化数据应用工具。如支持跨业务应用系统全文检索、数据全局访问等。从而打破业务系统间的系统界限与地域界限。使各类用户能够完备、实时地获取到相关数据。提高工作效率。③提供数据梳理及元数据管理工具,抽取、分析、展现公司非结构化数据的全局视图。提高企业领导对非结构化数据的全局驾驭能力。(蓟提供数据分析及挖掘工具,如文档聚类分析、文档专题分析等。实现非结构化数据增值应用,促进业务运行质量的提升。

 

    5)统一运维:是指平台提供各种能够支撑平台运维的工具(如健康度分析工具、集成管理工具等)来实现统一运维。

 

    3.3应用桨构

 

    应用架构描述非结构化数据管理平台的功能逻辑,描述平台各项功能间的层级关系。是业务架构的技术表现。非结构化数据管理平台的应用架构如图2所示。

 

    \

 

    非结构化数据管理平台应用架构划分为4个组成部分,分别是非结构化数据管理平台服务器(UDS-server)、非结构化数据管理系统(UDS-Administrator)、非结构化数据管理平台配套工具(UDS-Tools)、非结构化数据管理平台开发工具包(UDS-SDK)。

 

    1)UDS-Server:是非结构化数据管理服务器。为UDS-Administrator、UDS-SDK、UDS-Tools提供系统级服务。包括提供内容访问服务、内容传输服务、内容处理服务以及内容存储服务等功能。

 

    2)UDS-Admini3trator:是非结构化数据管理系统,是平台的后台管理模块。主要包括平台管理、应用管理、运行监控、集成管理与统计报表。

 

    3)UDS-Tools:是非结构化数据管理平台配套工具,提供数据服务工具。如历史数据迁移工具。

 

    4)UDS-SDK:是非结构化数据服务开发工具包,提供非结构化数据服务开发工具,目前主要是面向业务系统接入提供开发工具包。主要包括HTTP接口、Web Services接口、嵌入式控件接口、文件异步上传接口4种方式。

 

    平台的应用架构设计体现了平台以提供非结构化数据服务为中心。将人、信息、应用和流程端到端动态整合的一体化基础信息平台特征。平台的四大组件之间是松散耦合的。一个模块的变化(功能、数据、过程、技术环境等)不会影响到其他模块变化。确保了系统具有良好的可扩展性。

 

[page]    3.4集成架构

 

    非结构化数据管理平台的集成对象包括公司内的其他一体化信息平台以及业务应用系统2个部分。架构设计如图3所示。

 

   \

 

    1)与现有一体化平台的集成,

 

    如可以统一消息平台、统一权限平台以及企业门户。

 

    统一消息平台集成:在非结构化数据管理平台中有运行监控模块。可以捕获平台运行的状态及业务系统接人的信息,通过集成统一消息组件,将信息推送到统一消息平台进行展示。

 

    统一权限平台:通过集成统一权限。实现对资源的统一权限的认证。

 

    企业门户:通过企业门户可以将平台特有的信息进行展现。

 

    2)为业务系统接入提供集成。业务系统和平台的集成包括非结构化数据、结构化数据(公共元数据、业务元数据),业务系统通过请求接口服务实现非结构化数据的统一存储、统一访问、数据共享、数据交互等需求。平台为业务系统接人提供多样的接入方式。有数据流集成方式(包含HTTP/HTTPS、Web Service、JavaAPI、C#API等)和页面集成方式(包含嵌入式组件、JS包)。业务系统可根据不同的业务需求,选择对应的接口方式。调用平台提供的服务。以满足业务需求。

 

    3.5技术架构

 

    技术架构是基于功能和技术的需求。描述系统内模块间的关系以及与其他系统间的相互关系,同时描述平台开发、部署、运行所需的技术组件。非结构化数据管理平台技术架构设计如图4所示。

 

    \

 

[page]    非结构化数据管理平台技术架构分层及各层功能说明如下。

 

    1)数据存储层:对外提供数据存储服务,实现业务架构设计中统一存储的目标。该层主要由内容管理组件、分布式文件系统、存储设备(SAN、NAS等)组成,该层对外提供对外存储接口,支撑大数据量非结构化数据在平台的物理存储。

 

    2)逻辑资源层:用于各业务应用系统在非结构化数据平台的存储映射。支撑大数据量非结构化数据在平台上的逻辑存储。

 

    3)集成服务层:对外提供非结构化数据全生命周期管理服务。实现业务架构设计中统一标准、统一管理和统一运维的目标。该层主要由统一数据目录(业务元数据)。用户与权限管理、运行监控、运行策略配置、服务集成框架与服务插件组成。该层还能和企业内的业务流程管理、业务流程监控、企业服务注册中心、企业服务总线等一体化平台集成服务层进行整合,对外提供统一服务。

 

    4)业务系统层:业务应用系统既是非结构化数据资源的生产者,又是数据资源和数据服务的消费者。平台对业务系统提供各种非结构化数据访问和利用服务集中在该层。该层集中体现平台对业务应用系统提供的对非结构化数据统一访问和利用的业务能力。

 

    5)信息展现层:即用户界面层。主要是用于非结构化数据管理平台与用户的交互。并根据用户发出的平台请求,展现交互结果。平台基于B/S多层分布式技术架构开发。在内容管理组件采用Documetum,它是国际领先的内容管理软件提供商EMC公司的核心产品,性能高,稳定性好。由于整个平台基于SOA技术开发,提供的多样化的内容服务接口,可使业务系统通过企业服务总线来使用平台提供的非结构化数据服务,具有很强的灵活性。

 

    3.6部署架构

 

    为了使非结构化数据管理平台能够在大型企业业得以正确部署。能够充分利用公司现有信息网络资源。降低实施推广和运行维护成本。特设计如图5所示的平台部署架构。

 

    \

 

    1)逻辑节点1:用于部署非结构化数据管理平台的管理界面程序及目录用户同步程序,此节点以web应用的形式进行部署。

 

    2)逻辑节点2:用于部署全文搜索服务。主要包含数据抓取、索引管理、数据查询等服务,此节点以Web的形式进行部署。

 

    3)逻辑节点3:用于部署文件转换、信息抽取服务,主要是提供各种文档格式转换、图片格式转换及文件信息抽取等。

 

    4)逻辑节点4:用于部署平台非结构化数据纵向交换的服务。为业务应用提供网省与总部之间数据的纵向交换、分发、共享等功能,主要以web的形式进行部署。

 

    5)逻辑节点5:用于部署内容管理服务。提供对虚拟对象管理、版本管理、元数据管理等内容管理。

 

    6)逻辑节点6:用于存储结构化数据的服务器。

 

    7)逻辑节点7:用于部署平台为业务应用系统提供接人接口的服务器,接口主要以Web Sevice、HTTP/HTTPS、组件等形式,以Web的形式进行部署。

 

    8)逻辑节点8:用于部署实现系统安全控制的服务器。上述各个逻辑部署节点,在并发压力小的情况下能将以Web服务形式存在的非结构化数据服务归并到一台Web应用服务器上。在并发压力大时,各逻辑节点又可以独立部署。从而最有效地提升部署平台所需的各软硬件资源的利用率。

 

    平台单点部署分为以下部分(见图6)。

 

    \

 

[page]    1)数据库服务器集群:在Oracle 10g数据库服务器的RAC平台上新建非结构化的实例。主要是用于内容服务器的元数据管理及结构化数据管理,数据库存储采用SAN存储。

 

    2)内容管理服务器集群:在Linux平台上安装Documentum6.5,主要是内容管理服务及分布式缓存管理,并实现集群,可配置为积极主动(Active-Active)的高可用性模式,内容服务器存储采用SAN存储。

 

    3)扩展服务器单机:在Windows2008企业版(32位)上安装UDS扩展服务所需要的软件及组件。主要是为应用提供文件转换、文件信息抽取等服务。

 

    4)应用服务器I/O服务器集群:在Linux平台上安装WebLogic9.2,并实现集群,通过硬件负载均衡设备实现负载分担。在Linux平台上安装分布式文件系统服务端,主要用于实现分布式共享SAN存储,避免存储的单点故障及提高存储性能,为保证稳定性,需要进行集群部署。

 

    5)存储区:采用SAN的存储结构,既满足了数据库存储的高效性,叉满足了文件存储的共享性和扩展性;备份设备使用虚拟磁带库和物理磁带库结合的方式,实现“磁盘到磁盘到磁带”方式的二级备份。

 

    4、结语

 

    根据国家电网公司信息化SG—ERP建设规划。非结构化数据管理平台与结构化数据中心、海量历史/准实时数据管理平台、地理空间数据管理平台组成国家电网公司企业级数据中心平台。

 

    \

 

    \

 

    图7~图9是非结构化数据管理平台的用户界面。根据演进路线,2011年国家电网公司建成了企业级非结构化数据管理平台,制订了《非结构化数据平台管理办法》、《非结构化数据管理平台业务应用接人规范》等与平台相配套的管理和规范。设计、验证了基于各类不同开发平台(包括SAP、Ariba等)的业务应用系统接入非结构化数据管理平台技术,完成了试点建设,实现了档案管理、知识管理、综合管理等10多个业务系统接人,初步达到集中化管理阶段阶段建设目标。



第三十四届CIO班招生
北达软EXIN网络空间与IT安全基础认证培训
北达软EXIN DevOps Professional认证培训
责编:fanwei

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。