首页 > 大数据 > 正文

基于数据仓库的钢铁企业过程数据分析系统

2011-05-13 14:02:34  来源:万方数据

摘要:数据仓库已在国内外各大行业广泛应用,相比传统的SPC系统,基于数据仓库平台构建的过程数据分析系统,充分利用了平台上充足的数据和强大的数据处理和分析功能。
关键词: 数据仓库 DWPA系

  1 引言


  当前企业的规模越来越大,生产工艺、生产设备和生产过程越来越复杂,依据物理化学机理建立精确数学模型(机理建模)的方法已越来越困难。基于数据的控制、决策分析系统成为当前信息系统的研究热点。SPC和DW已在工业和服务行业得到广泛推广和应用,SPC是指用统计方式来分析过程及输出,通过适当的措施来达到并保持过程稳定,从而实现保证产品质量的目的。DW从企业信息系统数据库中抽取并保存历史数据,通过相关数据的整合和分析,以支持企业决策。


  DW为质量持续改进提供了有力的工具。它集成了企业质量标准数据,生产过程数据、产品质量成本数据,最大限度地利用业的现有信息资源,充分发挥了信息集成、数据处理效率高,分析手段多样的优点。统计过程控制分析一般只针对局部生产过程某些参数进行控制。基于数据仓库的过程数据分析(DWPA)系统结合了常用统计、人工智能和数据挖掘等方法,可以从历史数据中发现某些参数的变化趋势,并从大量相关因素分析中挖掘出某些参数不符合标准的原因,深入揭示了变量之间的关系。本文提出的DWPA统结合DW及SPC相关理论,已在国内多家钢铁企业实施,取得了显著的效益。


  2 基于钢铁企业的DWPA系统的基本架构


  DWPA系统以数据仓库为核心,按照数据仓库通用的设计思想,分为5层结构,即数据源层、操作数据层(ODS)、主题数据层、数据分析层以及分析结论应用部分。数据源层主要包括过程控制系统中的实时数据库,此外还包括制造执行系统(MES)中的生产实绩数据、检化验数据,企业资源计划(ERP)系统中的制造标准数据、成本数据、销售数据以及质量异议数据,如图1所示。

\

  各数据源的数据经过抽取、转化、装载(ETL)过程以统一的数据格式存储在数据仓库的ODS层,ODS层之后是主题数据层,主题数据层中包含了不同功能的主题数据集。主题数据集是按照特定的业务需求,将ODS中的相关的数据按照特定的键值组合在一起形成新的数据集合用以支持进一步的分析,主题数据集构成整个数据仓库平台数据分析的数据基础,接下来是数据分析层,包括各种分析模型,利用主题数据层的数据,输出相应的知识,用于支持管理决策,优化生产控制。


  3 DWPA系统在钢铁企业的应用


  数据仓库可以保存并集成大量相关的生产历史数据,通过建立不同的分析模型,利用合适的查询和分析工具,可以实现针对生产过程全方位的预测、故障原因分析,辅助管理者进行控制优化,提升产品质量,下面以牌号SS400 热轧带钢的力学性能分析为例,说明参数选择、预测建模以及判定规则生成的过程。[page]  3.1 相关参数的选择


  带钢的力学性能主要包括屈服强度、拉伸强度等,其决定因素主要包括PCS的控制参数,MES中的生产实绩及钢卷自身的化学成分数据。企业希望通过历史数据的分析,找到各种控制因素与性能之间的影响关系,进行性能优化和预测。目前,力学性能以及相关过程控制历史数据已整合在主题数据集中,下面的工作首先是进行参数的筛选。


  钢卷的相关数据包括生产班组、班次、板坯连铸机号等离散型数据以及钢卷的宽度、厚度、成分、过程温度等连续型数据。对于离散型变量的筛选可以采用方差分析,一般的,性能指标符合正态分布,假设某分类变量对其无影响,即在该分类变量下不同组的性能参数仍然符合原分布,则组间方差与组内方差的比值符合F 分布,对应a 值如果大于0.1则原假设成立,如果小于0.05则原假设不成立。不失一般性,这里以钢种SS400 的拉伸强度作为分析变量,选取一定时间段内的2099条记录作为分析样本。选择生产班组作为分类变量,得到统计值如表1。

\

  由表1可见,得到的F值为0.071,对应α=0:967≥0.1,则可认为生产班组对拉伸强度无影响。按此方法,可知连铸机号等离散型变量对拉伸强度也无影响。


  对于连续型变量,利用K近邻(KNN)算法的“弱点”来解决。已知,KNN 算法如果包括了与输出变量不相关的因素,会导致预测精度急剧下降。受此启发,可以首先引入全部因素,依次尝试删除KNN模型中的每个因素,如果预测精度提高则彻底删除该因素,精度降低则保留该因素,经过一次所有因素的遍历,保留下来的因素是下步所需要的。


  3.2 参数预测和未读分析


  维度分析主要针对离散型变量,可以将连续型变量经过聚类分析划分为不同区间,转为离散型变量,以粗轧温度为例,经过聚类得1003、1040、1082、1124四点为中心的区间。按此方法将以上16个连续变量转化为离散型的区间变量,作为拉伸强度的分析维度,如粗轧温度维、精轧宽度维等,生成数据立方,利用OLAP技术,可以从不同的维度组合计算拉伸强度的最值、均值、方差、极差等常用统计值。


  还可通过拉伸强度的实绩值与企业标准值进行比对,生成合格与不合格的二值决策变量。维度分析常用的算法有决策树、朴素贝叶斯分类、遗传算法、粗糙集等。这里采用粗糙集算法,它有着严密的数学基础,能在保留关键信息的前提下对数据进行化简并求得知识的最小表达。通过建立分类变量与决策变量的决策信息表,进行属性约简,提取出分类变量和决策变量之间的一系列规则。将拉伸强度是否符合标准作为决策变量,其余离散化后的维度作为属性变量。


  4 总结


  数据仓库已在国内外各大行业广泛应用,相比传统的SPC系统,基于数据仓库平台构建的过程数据分析系统,充分利用了平台上充足的数据和强大的数据处理和分析功能,可以全面整合相关数据,深入挖掘数据之间的关系,同时方便数据分析结果的保存和共享。由于过程数据分析系统构建基于数据仓库的数据和软硬件设备,实施过程周期短、投资少,其成果可迅速被企业利用。在国内各大企业特别是钢铁企业的应用中取得了显著效果。目前,在数据仓库平台上构建专用决策和分析系统已成为企业信息化的发展方向。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:fanwei

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。