首页 > 大数据 > 正文

油田生产决策支持中的数据挖掘研究及应用

2010-07-13 17:12:39  来源:万方数据

摘要:文中提出了基于油田生产数据采用数据抽取、转换和加载技术的数据仓库的构建策略以及基于多维数据集的数据挖掘的实施方案,并对包括数据仓库体系结构的设计、数据仓库的构建、多维
关键词: 数据挖掘

    随着油气勘探开发工作的不断深入,经常需要处理、使用大量的信息数据,而在这一过程中往往出现以下问题:管理人员的操作日趋复杂、用户分散、相互联系程度低、信息共享程度低;信息加工、处理手段差,无法直接从各级各类业务信息系统采集数据并加以综合利用,业务系统产生的大量数据无法及时提供给决策部门。作为油田管理人员,仍需在查询多个基于各种异构数据源的业务系统和外部系统,并进行大量的数据分析后才能做出决策。工作量大,且容易出现人为差错,从而影响决策的质量。

    在油田生产过程中,积累了大量的生产管理历史数据和成果数据,从事务型数据中得到有价值的决策信息越来越困难。因此,通过建立有兴趣的模型,提取和挖掘出大量数据后面的“知识”,探索出油田生产中的规律性,可以预测油藏开发指标、未来的生产情况等,从而更有效地进行生产调整和优化,并为参与市场竞争做出重要的决策。数据挖掘是实现油田的智能化决策的现代化油藏管理的重要技术,因此,在合理构建数据仓库平台的基础上,开展在线分析处理与数据挖掘技术的决策支持系统的研究工作是有意义的,并为决策人员研究油田生产的发展走势提供可靠的技术支持。

    1 数据仓库体系结构的分析与设计

    数据仓库的数据来源广泛,使用要求多变,查询要求复杂,传统的数据库系统结构无法提供足够的灵活性来满足这种复杂多变的使用要求。因此,从用户角度来分析与设计数据仓库的体系结构,首先应根据数据仓库的使用要求确定分析的主题和各种分析指标,数据在进人数据仓库的存储之前,必须经过数据抽取、清洗和转换等预处理过程。然后,选择合适的存储模型,将它们进行有效的组织,并存储在数据仓库之中,继而从中分析并挖掘出潜在的、隐藏的有用知识,为决策支持提供可靠信息。

    一般数据仓库系统的体系结构可设计3个独立的数据层次:信息获取层、数据管理层和应用服务层。而考虑到油田生产数据信息的特点,本文提出的油田生产决策支持系统是由源数据层、数据获取层、数据管理层、数据分析层和数据展示层共5层构成的系统体系结构。如图1所示。

图1 油田生产决策支持系统数据仓库体系结构

    图1 油田生产决策支持系统数据仓库体系结构

    数据源层主要存放着油田生产过程中的大量历史数据和在分析决策时需要用的外部数据。数据获取层从源数据层中抽取分析决策所必须的相关数据,然后将净化和转换后的数据集成到油田生产数据仓库中。通过数据管理层对数据仓库中的数据和数据源进行存储和管理,根据不同的主题建立数据集市来减少数据处理量。针对不同主题的数据集市,数据分析层中进行在线分析处理与数据挖掘,实现数据的多层次的分析和挖掘。然后数据挖掘工具将数据仓库中挖掘的知识放入专家系统的知识库中,通过知识推理达到定性分析辅助决策。而模型库则实现多个模型的综合决策。最后数据展示层将分析结果通过图件或表格的形式提供给相关决策人员,辅助决策。

    2 油田生产数据仓库的构建

    数据仓库的构建过程中首先需要进行数据建模,确定系统主题域。以井组生产为例确定的系统主题为:不同层位注采工艺和注水量的不同对油井生产的影响。

    主题域一经确定,就可以对每个主题的内容进行较明确的描述,通过分析所需使用的数据包括:生产时间、油井属性数据、油井生产数据、注水井属性数据、注水井生产数据及层位属性数据,进而可以确定每个主题的事实和维度,并使用多维数据模型建立数据仓库的概念模型。对于井组生产主题来说,决策者所关心的事实数据为日产液量、日产气量、气油比、含水和日配注水量等。传统的概念模型注重的是数据的结构,对于分析型应用是不合适的,而多维数据模型注重的是数据的含义,能够清楚地表达分析领域的数据模型,因此,数据仓库的概念模型可采用多维数据模型来建模。如图2所示。

图2 井组生产的多维数据模型

    图2 井组生产的多维数据模型

    根据上面的概念模型还不能直接建立数据仓库的物理模型。必须先建立逻辑模型,由逻辑模型来指导数据仓库的物理实施。在数据仓库逻辑模型的设计主要包括粒度层次的划分,关系模式的定义,数据源及数据抽取模型的确定等。而关系模式的确定与粒度层次的划分有关,关于粒度的大小则遵循在充分考虑数据仓库的分析能力的前提下,也要兼顾数据量的大小和查询分析效率。

    数据源中的数据在数据的组织方式、数据格式等许多方面与数据仓库对数据的要求有很大差别,因此在进入数据仓库之前,必须进行数据的抽取与清理工作。

    数据抽取包括对数据源的说明、数据抽取规则、数据源的列与数据仓库列的对应关系等,并不是所有的数据源中的数据都需要抽取到准备区,抽取的数据必须满足一定的条件。在很多情况下,需抽取的数据可能分散在不同的表中,这时还需要指定表的连接条件。抽取后的数据还不能直接加载到数据仓库中去,还需要对数据进行各种清理工作,包括格式转换、类型转换、统一单位,或将数据按照划分的粒度层次进行汇总、聚集等。经过抽取和清理的数据,才能从数据准备区加载到数据仓库中去。

    3 数据存储模式的选择策略

    由于存在MOLAP和ROLAP两种在线分析的处理技术,在应用OLAP时,必然面临选择哪种数据存储模式的问题。这里分别从查询性能、数据加载性能、空间占用、分析能力、维的管理以及维护能力等方面来分析这两种模式的特点,以帮助针对具体的应用,选择合适的数据存储模型。

    (1)查询性能:由于MOLAP直接处理存放在多维数组总的数据,因此一般而言,MOLAP的查询性能要优于ROLAP,查询响应速度较快且较稳定。而ROLAP的查询响应速度这不够稳定,有时很快,有时这比较慢。

    (2)数据加载性能:在数据加载的操作中,MOIAP除要完成数据的装载外,还需要对所有立方体中的所有值进行计算。这样MOIAP所需要的数据加载时间就比较长。而对于ROLAP来说,在数据加载过程中所要完成的操作是数据加载、索引和概要表的创建。由于在ROIAP中所进行的概要表创建量一般较少,因此ROIAP的加载时间要比MOIAP的短。

    (3)空间占用:如果所有的维成员组合都存在相应的度量值,则采用MOLAP时比较节省存储空间。但在实际应用中,许多维成员的组合不存在相应的度量值,从而形成稀疏矩阵,此时采用MOI.AP,就造成了空间的大量浪费。随着维数的增加,这种空间的浪费呈爆炸性的增长。

    (4)分析能力:MOLAP在分析过程中的精度较高,具有分析的优势;而ROLAP的分析结果往往由于SQL语言的约束,使ROLAP的分析效果往往不如MOLAP。

    究竟选择MOLAP还是ROLAP主要看应用的规模。如果要建立功能复杂、规模较大的企业级数据仓库,则一般选择ROIAP方式;而如果是建立功能单一、小型的数据集市则更宜采用MOIAP方式。

    4 决策分析及应用

    4.1 在线分析处理

    建立数据仓库的目的是为了对数据仓库中的数据进行灵活多样的查询分析。数据仓库中数据的组织方式为进行这种查询分析提供了可能,但是仅仅依靠数据仓库本身并不能完成这种复杂的数据查询分析。为了对数据仓库中数据进行多角度、多视图的查询,方便地获得概括性的或详细的信息,需要采用在线分析处理技术,用于辅助决策。

    在进行在线分析处理技术过程中,使用基于维表和事实表的多维数据模型,通过对井组的多维数据进行切片,切块、旋转、钻取等分析性处理,可以从多个角度、多个侧面观察油田生产的各类数据(如气油比、含水量、日配注水量等),从而更加深入地了解包含在数据中的信息。如图3所示。

图3 井组多维数据集在线分析

    图3 井组多维数据集在线分析

    另外,往往有些有意义的生产参数在构建的多维数据集中是隐含的,可以通过在线分析技术以度量值或维度成员(统称计算成员)的形式创建这些参数。如井组多维数据集中并没有每口油井的日产油量的数据,若想获取这类数据可以借助参数关系公式:日产油量=日产气量*(1/气油比)来进行创建该计算成员,如图4所示。如此便可以使用计算成员将原始数据建模为有意义的业务指示符来增加分析的价值。

图4 增加系统分析参数

    图4 增加系统分析参数

    综合运用上述方法,可以从不同角度、不同的层次观察分析数据,有助于获得有价值的信息,从而起到辅助决策的作用。

    4.2 数据挖掘及应用

    数据挖掘采用基于人工智能来分析数据的技术,通过对数据仓库中数据的分析去发现隐含的模式和数据关系。有效构建高效的数据挖掘模型,是成功实施数据挖掘任务的关键。主要建模方法包括:关联规则、决策树、粗糙集、统计分析、神经网络、支持向量机、聚类、贝叶斯预测等。而在实际建模过程中,需要结合具体问题对多种建模方法进行综合比较和分析。因此,结合油田生产的实际情况,这里采用基于井组生产数据仓库的聚类分析算法来建立数据挖掘模型。

    在n维空间中应用聚类数据挖掘时,采用明考斯基距离:

    d(i,j)=(︱xi1-xj1︱q+︱xi2-xj2︱q+…+︱xip-xjp︱q)1/q

    其中i=(xi1,xi2,…,xip),j=(xj1,xj2,…,xjp)是两个p维的数据对象,即数据库中有p个字段的第i条记录与第j条记录。在聚类分析中,有的生产参数数据值根据聚类需要给予较大的权重。此时加权明考斯基距离计算公式为:

    d(i,j)=(w1︱xi1-xj1︱q+w2︱xi2-xj2︱q+…+wp︱xip-xjp︱q)1/q

    其中的wp为对应的︱xip-xjp︱权重,其值在0.1之间,但是所有的权重之和应为1。

    由于传统的聚类技术是无监督学习过程,因而易产生两种极端情况:一种情况是把数据库中的每一条记录看作一个类,这样当然达到了把记录分类的目的,但是却与聚类技术是为了可以更清楚地理解数据库中的记录这个最终目的相违背。另一种极端情况是把所有的记录归入一个类,虽然实现了概括数据库内容的目的,但是不能提供任何有用的信息。因此,这里采用分层聚类的方法实现,该技术的一个优点就是允许最终用户指定最后生成的类的数目。把分层聚类技术生成的目录结构建立成树型结构,由此就可以决定合适的类的数目,既概括了数据库内容,同时又能提供有用的信息。并且这棵树的生成过程可以是从上到下分裂而成,也可以是从下往上逐步合并而成。

    由此,可获得油田井组生产决策系统的挖掘模型,如图5所示。

图5 油田井组生产决策系统挖掘模型

    图5 油田井组生产决策系统挖掘模型

    系统的软件方案是利用Analysis Services构建油田生产数据仓库,利用DTS(数据转换服务)把需要的数据(油井生产信息、注水井生产信息及层位信息等)从油田企业数据源(如ERP等)导入到油田生产数据仓库,进而针对油田生产多维数据模型开展联机分析和数据挖掘,以便识别各类井组的特征,根据井组的不同参数属性,为后续生产方案的制定提供有力的决策支持。

    这里使用聚类算法将研究对象的井组划分为6个类别。油井、注水井和层位是要调查的维度。然后选择想要在算法中表示各个井组类别特性的统计特征列表,然后训练此模型,最终使其能够浏览受训练数据并从中分析六种井组类别。根据每种井组类别的统计属性,就可以选择调整合适的井组生产参数。

    经过挖掘分析发现,随着层位、采油方式以及注水方式等生产参数的不同,对于油田生产关键指标参数(如日产量、含水量以及日配注水量等)的影响可以获得定量的认识,并且还可以分别进行单参数和多参数的分析评价,这对于油田生产调整和优化具有重要的指导意义,并为实现油田的智能化决策提供了可靠的技术支持。

    5 总 结

    数据挖掘是实现油田生产智能化决策的现代化油藏管理必不可少的技术。在建立油田企业生产数据仓库的基础上,采用多种分析挖掘策略并实施多主题的数据挖掘是比较有意义的,可以为油田企业决策分析提供强有力的技术支持,并进一步提高油田的市场竞争力。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。