文献来源:[1]李爱华,续维佳,石勇.基于数据融合的商务智能与分析架构研究[J].计算机科学,2022,49(12):185-194.
早期信息融合的定义指出,其主要任务是综合分析若干传感器观测到的信息[9,10],随着研究的深入及应用的拓展,其定义也由狭窄变得宽泛。总体上,信息融合较通用的含义是:为了某一目的对来自多源的数据和信息进行组合和综合处理,以得到比单一信息更准确、可靠的估计或决策[17]。通过信息融合,能够使多源信息优势互补、排除噪声、化解矛盾,提高信息的完整性、一致性和可信度[11],进而增强系统的推理认知能力,提升系统的工作决策性能。
信息融合的模型主要包括结构模型[18,19]和功能模型[20,21,22]。
图1 改进JDL模型
无论是结构模型还是功能模型,都可以从信息融合的过程中抽象出3个层次,即数据级(或信号级、像素级)融合、特征级融合和决策级融合。数据级融合是对原始数据进行融合,是低层次的融合,能够保留最多的信息,具有较高的准确性。在多传感器融合中,数据级融合表示对相同介质的传感器接收的信号进行融合,常用的方法有Kalman滤波法、小波分解法等。特征级融合是对从原始数据中提取的特征信息进行融合,它是中层数据融合,常用的方法有加权平均法、熵值法,以及各种分类和聚类方法等。决策级融合是对特征或若干子决策进行融合,产生最终决策或更高层次的决策,是最高层次的融合,常用的方法有D-S证据推理、贝叶斯网络、结合多种算法的智能计算等。Wang等[25]总结了不同融合层次常用的方法,如表1所列。随着融合水平的逐渐提高,信息损失增大,计算量和精度降低,但容错性、抗干扰性和灵活性越来越高。信息融合无论实现什么功能,都涉及3个层次或者侧重某一层次。例如,JDL模型中第1级目标评估、OODA模型中的“观察”、多功能模型中的信号和模式处理主要为数据级、特征级的低层次融合,而JDL中的态势和影响评估、OODA中的“决策”和“行动”、多功能模型中的“决策”则主要涉及更高层次的融合。
表1 不同融合级别的数据融合方法
Pixel level |
Feature level | Decision level |
Algebraic method |
Bayesian | Knowledge-based fusion |
HIS transform |
Dempster_shafer | Dempster_shafer |
High-pass filtering |
Entropy method | Fuzzy set theory |
Regression model |
Weighted average | Reliability theory |
Best variable substitution |
Neural network | Bayesian |
Kalman filter |
Clustering | Neural network |
Wavelet transform |
Voting | Logical template |
数据挖掘是商务智能分析必不可少的技术。根据CRISP数据挖掘参考模型指南[47],数据挖掘过程包含理解问题、理解数据、数据准备、建模、评估和部署6个阶段,它们的依赖关系和主要任务如图2所示。由图2可知,仅在数据理解与准备阶段包括了数据的合成,其含义主要指将多个来源不同的结构化数据进行关联、合并和组合。
图2 CRISP-DM模型的流程
商务智能和分析的过程可以归纳为3个层次,即数据、信息和知识。数据是未经加工的,可以直接从各个存储空间获取的资源;信息是利用一定的方法和技术,对数据进行初步的统计和分析获得的潜在规律和特征;知识是信息中有价值的部分,能够为决策提供支持。
综合分析传统的商务智能和信息融合的层次结构可知,前者的数据、信息和知识3个层次可与后者中像素级、特征级和决策级3个抽象层次相关联,如图3所示。3个层次均由低到高,像素级融合是对原始数据的直接融合,特征级融合是对从数据中提取的特征信息进行融合,决策级融合是对数据分析得到的较为低级的判断结果进行融合。将信息融合与商务智能分析相关联,为数据融合视角下BI&A的“数据-信息-知识”架构的构建提供了理论基础和支持。表2列出了信息融合和商务智能分析的主要内容,二者的含义明显不同,信息融合强调对多样化信息的综合利用,而商务智能与分析强调从原始数据中挖掘有价值信息的过程,但是二者的3个抽象层次具有一定的关联。另外,信息融合和商务智能分析在数据源和应用方面也存在较显著的差异。
图3 信息融合与BI&A
利用数据挖掘技术为决策提供支持并最终形成系统,构成了完整的商务智能与分析过程。在多源异构大数据背景下,对于利用更广泛的数据来源,综合异质数据解决复杂问题的需求更加强烈,因此数据融合的地位和作用变得越来越重要,对融合的需求不仅在于数据挖掘中数据收集和准备的初始阶段,很多时候融合需要贯穿商务智能分析从数据到信息再到知识的整个过程。基于数据融合的商务智能与分析将不同层次的融合嵌入到整个BI&A分析过程中,使不同层次的融合成为联系密切、逐级深入的统一整体。
表2 信息融合和商务智能与分析的比较
Information fusion | BI& A | |
Level |
Pixel level, feature level, decision level | Data, information, know-ledge |
Data source |
Wireless sensors, machines and equipment, etc | RDBMS,Internet, smartphones, tablets, etc |
Application |
Military, communications and information enginee-ring, automatic control, etc | E-commerce, smart market, smart government, public security, etc |
“物理-事理-人理”系统科学方法论(简称WSR方法论)是对客观世界、组织和人的因素进行动态统一研究的系统方法,由系统科学家顾基发和朱志昌提出[48],基于物质世界、系统组织和人[49]并将其视为统一整体对系统进行研究。“物理”研究的是现实世界本身的属性和客观的规律,如获得的科学知识和构成系统的客观组成部分。研究“物理”主要是运用自然科学知识以及“硬”模型与技术工具[50]。“事理”回答“怎么做”的问题,是基于现实世界和社会的概念规律产生的干预、指导人类认识和改造世界的方法[51],体现了人与世界的互动[52],具有一定的主观性。“人理”是对人的研究,包括研究所处外界环境如何影响人的思想行为;研究如何发挥人的创造力和潜能,将人的理性思维的定性和阶序性及形象思维的综合性和灵活性相结合,结合已有的“物理”“事理”,实现最优的综合动态活动,以获得最大的效益和效率。人是认识和改造世界的活动主体,对事物的发展变化有很大影响,因此人与客观世界是一个整体,不应将其分隔开。“人理”涉及价值取向、文化、心理、情感、行为、目的及利益等与“人”有关的各个方面,强调了考虑问题应该将“人”的因素、人与人之间的关系纳入其中[53]。
WSR方法论具有综合集成的特点,在方法上(也即“事理”)是包含许多方法的方法群,而不是单一的模型和工具;在决策中,需要发挥专家群体及决策者的综合作用;在实践中,强调了协调人与人的关系,以及统筹物理、事理与人理之间的关系[49]。作为系统科学方法论,WSR已经广泛应用于项目管理、交通运输、企业管理、电子商务开发、供应链管理、军事、安全等多个领域[54,55,56,57]。
商务智能和信息融合既有相似之处,又有各自的特点,综合二者的思想,我们给出了多源异构大数据背景下基于数据融合的BI&A的含义[58]:基于不同领域的问题和专家经验,融合多源异构的数据并结合多种数据挖掘方法挖掘其中的信息,进一步对信息进行融合和分析,形成辅助决策的知识。数据融合视角下的商务智能与分析的核心是知识发现和辅助决策,其融合架构包含数据层融合、信息层融合和知识层融合,如图4所示。从原始数据资源出发,通过对数据层的融合来得到信息,在信息层融合部分对信息融合建模以得到更深层次的信息、模式、判断等,通过知识层融合对这些结果进行进一步的综合分析,以获得更高层次的决策和知识。
图4 基于数据融合的BI&A“数据-信息-知识”架构
将数据融合贯穿应用于商务智能和分析的过程使得数据融合具有了更广泛的含义,本文将其定义为:综合运用多种方法,对多源异构的原始数据、挖掘得到的内涵、模式、决策,以及其他“软因素”等进行综合、全面的处理和分析。
基于数据融合视角的BI&A与传统BI&A最主要的区别在于,前者强调了广义的数据融合在整个BI&A分析过程中的作用,使得原有商务智能问题的决策在多源异构大数据背景下更加有效。
异质数据的转化和信息的提取是BI&A数据层融合的另一个重要任务。在传统信息融合的像素级融合中,相同介质传感器的数据可以直接融合。然而在很多BI&A的问题中,不同来源的数据形式不同,例如不同表中的结构化数据,不同粒度的时间序列数据,以及政策文件、媒体新闻、网络舆论等非结构化文本、图像数据等。对于形态各异的数据,很难直接对它们进行建模和分析,因此需要将不同形态的数据通过组合、聚合、关联、文本挖掘等技术转化为相同形式的、能合并分析的信息。异质数据转化和信息提取与信息融合中的“特征提取”不完全相同,特征提取的目的主要在于学习原始数据中的特征,而BI&A数据层融合中信息提取的目的在于处理不同来源、形态、粒度的数据,为信息层的融合和模型构建提供输入,它不仅是表征学习,更强调所提取信息的可理解性和实际意义。此外,信息提取还包括根据领域知识,综合利用原始数据构建新的综合性的变量和指标,以反映更全面、更深入的信息,对信息的提取需要充分考虑其实际含义和解释。例如,利用公司原始财务数据构建反映盈利能力、偿债能力、成长能力等的新指标;通过对文本数据的挖掘和分析,构建反映文本可读性、一致性、真实性等具有现实意义的表征向量。虽然有时深度挖掘深层次特征能够提高结果的准确性,但同时也丧失了特征的可解释性,降低了结果的说服力。
商务智能与分析的信息层融合是将数据层融合得到的信息通过构建模型进行合并分析。信息层融合的“物理”是上一阶段数据层融合得到的综合性的信息,“事理”是融合模型的构建,可能用到的技术有关联规则挖掘、分类聚类算法、机器学习、异常检测算法等,以及多种模型的集成与组合,如模糊神经网络、遗传神经网络以及各种集成算法等。经济、管理等领域模型的构建不能脱离领域知识和基本原理,如何将数据挖掘及信息融合的技术与传统的计量、统计分析等方法有机结合,仍然是新兴的研究问题和难点。信息层融合的“人理”在于人们对模型的选择和理解,信息的含义和模型的底层逻辑不可忽视,因此在解决实际问题时需要提高有关主体的参与度,构建领域知识库,增强模型的可解释性和可理解性。在社会和经济活动的问题中,结果的准确性并非唯一追求的目标,对其原因的分析以及与现实情况的联系对领域专家而言十分重要。
商务智能与分析的知识层融合是最高层次的融合,是对信息层融合得到的有价值的模式、判断等结果,综合专家意见等更多因素进行再融合,以得到更高层次的知识,为决策提供支持。知识层融合是将低层次阶段融合得到的笼统的知识转化为可领悟的知识,通过对表层知识的推理、归纳得到显示或隐式的深度关系和知识,面向需求和决策提供知识服务[60]。知识层融合的灵活度和容错性高,抗干扰能力强,常用方法有结合D-S证据推理的专家意见综合评估、投票系统、区分矩阵、产生式规则,以及管理学中的方法等。由于最终的决策和知识的认知都离不开“人”,如专家意见能够为最终决策提供有效参考,决策者偏好可能对决策造成影响,不同社会文化环境和法律背景等可能导致决策产生偏差等,因此在知识层融合中需要综合考虑与“人”有关的多方面因素,将其与所获分析结果相结合,为决策提供更有力的支持。例如,在金融欺诈检测中,首先可以通过数据融合、人工智能的方式进行初步筛查和判断,而最后的罚没情况需要进一步结合法律法规、被告人申诉内容、情节轻重等进行判决。与数据层融合和模型层融合相比,知识层融合的层次更高,适用范围更广,能够通过挖掘初级层面的知识来得到更深层次的内涵,其对多决策结果的综合也能进一步提高结果的准确性和稳定性。
总体上,基于数据融合的商务智能与分析中,数据层、信息层和知识层的融合层次越来越高。在“数据-信息-知识”框架中每个融合层次都需要综合考虑“物理”“事理”和“人理”3个方面,各层次中3方面因素有其各自的含义与内容。“数据-信息-知识”商务智能和分析的3个融合层次与传统信息融合抽象得到的数据级、特征级和决策级3个融合级别主要有以下不同:首先,商务智能与分析中3个融合层次的含义和适用性更广,特别是对于解决经济、金融、管理等领域的问题,各层次的融合相比传统信息融合增添了新的内涵和特征,特别是与“人理”有关的新内容。另外,基于数据融合的商务智能与分析强调数据层融合、信息层融合和知识层融合的连续性、统一性和实践中的递进性。相比之下,信息融合的3个层次相对独立,有些问题的解决仅运用数据级(像素级)融合,将原始数据融合之后提取特征并构建模型;有些则仅运用特征级融合,先对数据提取特征然后建立模型。然而,由于商务智能与分析所解决的社会活动中的问题较为复杂和系统,综合运用3个融合层次,先对形态各异的数据进行融合,再对特征构建集成模型,最后将专家经验、领域知识等与结果相结合,使融合贯穿分析的全过程,以更好地提供决策支持。