2010-10-20 14:49:42 来源:万方数据
本工作依据现有的运行数据库建立数据仓库,并在此基础上开展联机分析处理。
1 系统框架
采用微软的数据库服务器SQL Server 2000及微软的分析服务器建立联机分析系统(图1),系统主要分3部分:数据预处理、数据仓库的建立和实现联机分析,系统的性能很大程度上依赖于CPU和内存,因此,采用1台高性能的惠普服务器(HP ProLiant DL360 generation 3)。
1.1 数据预处理
数据预处理主要包括4个过程:数据清洗、数据集成、数据转换和数据消减。数据清洗是填补遗漏的数据、平滑噪声数据、识别和除去异常,常用的方法有Bin方法、回归方法;数据集成是将来自多个数据源的数据合并到一起,一方面使数据一致,另一方面消除数据的重复;数据转换是对数据进行规格化操作,即将数据限定在特定范围;数据消减是缩小数据的规模,包括数据聚合、数据压缩。
本工作设计的联机分析系统是一种通用的工具,但成型于HLS运行数据库。HLS运行数据库分为参数数据库和历史数据库。参数数据库包括控制系统参数、设备参数,一般物理常数也是参数数据库的一部分。历史数据库细分为以下子系统:真空、束流测量系统、主电源系统、校正铁电源系统、直线输运线电源系统、注入电源系统;辐射防护系统和运行日志。运行数据库结构示于图),数据仓库是面向主题的,运行数据库不能完全满足建立数据仓库和联机分析的要求,需从现有的数据中获取联机分析所关注的信息,并将它们重新组织在一起。故在建立数据仓库之前进行数据预处理,数据预处理过程在SQL Server 2000下完成。
例如:电源电流是一分析主题,每台电源设备对应B个或多个同类型的磁铁,运行数据库中电源电流按子系统分开保存,HLS的电子储存环是一个四重对称的TBA(trple bending archromat)结构,由12块二极铁、32块四极铁和16块六极铁构成,供给主电源系统有12台电源,对应Oracle数据库表结构列于表1。
该表具有5个字段,由于所采用的Oracle8i系统中时间只能精确到秒,这是不够的。所以增加一个字段msecond存储秒以下的时间值,用于机器研究过程中瞬态过程的跟踪。
中间数据库中电源电流表是对所有电源电流的汇总,表结构列于表2。
数据预处理经历了以上所有过程。例如:对于束流测量系统,机器实际运行发现,服务器程序可能会错误地发送束流微分寿命数据。在中间数据库中编制存储过程,用于清除这些错误数据。SQL Server 2000设置调度包,周期性地运行数据转换包(每小时1次),将新采集到的试验数据从运行数据库导入到中间数据库。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。