人工智能技术与咨询

【无标题】

大数据智能决策人工智能技术与咨询

来源：《自动化学报》，作者于洪等

摘要在全球信息化快速发展的背景下,大数据已经成为一种战略资源.各行各业的决策活动在频度、广度及复杂性上较以往有着本质的不同.决策过程中的不确定性因素增多,决策分析的难度不断加大.传统的数据分析方法以及基于人工经验的决策已难以满足大数据时代的决策需求,大数据驱动的智能决策将成为决策研究的主旋律.该文结合大数据特性,对大数据决策的特点进行了归纳,并从智能决策支持系统、不确定性处理、信息融合、关联分析和增量分析等方面综述了大数据智能决策的研究与发展现状,讨论了大数据智能决策依然面临的挑战,并对一些潜在的研究方向进行了展望分析.

关键词大数据,智能决策,不确定性,信息融合,关联分析,增量式学习

当今社会处于一个信息技术高速发展时期,数据信息的交互、共享与开放程度持续加快,使得各行业领域的数据信息呈爆炸式增长.“大数据时代” 如约而至,并成为当今社会的代名词.大数据以其蕴藏巨大的经济、社会和科研价值受到社会各界的广泛关注[1].2012 年1 月,达沃斯世界经济论坛发布的大数据报告“Big data,big impact:new possibilities for international development” 将大数据列为和货币与黄金同等重要的新经济资产[2].2012 年5 月,联合国发布的Big Data for Development:Challenges& Opportunities 白皮书指出,大数据是联合国和各国政府的一个历史性机遇,利用大数据进行决策,是提升国家治理能力,实现治理能力现代化的必然要求,可以帮助政府更好地参与经济社会的运行与发展[3].在科研领域,大数据正引领数据密集型科学(Data-intensive science) 的到来,形成继实验科学、理论科学以及计算科学之后的第四科学范式[4],有望推动传统科学的假设驱动模式向基于大数据探索的数据密集型方法转变.在全球信息化快速发展的背景下,大数据已逐渐成为世界各国的基础性战略资源,运用大数据推动社会经济发展正成为趋势.

现阶段加快发展智能经济、智能服务和智能制造是我国经济增长的内在需求和必然选择.目前我国处于工业化和信息化的深度融合时期,我国制造业正处于从价值链的低端向中高端、从中国制造向中国创造转变的关键历史时期,发展基于大数据的人工智能新技术是实现从制造大国向制造强国迈进的战略举措.在此背景之下,国家相继出台了“‘互联网+’ 行动计划” 和“中国制造2025” 战略规划,特别是国务院颁布的“促进大数据发展行动纲要” 和“新一代人工智能发展规划” 都将大数据智能作为重点发展方向,大数据的战略资源地位进一步凸显.近年来,以大数据与人工智能技术为基础的“智能制造[5]” 成为推动大数据从概念到落地的重要模式和手段.从大数据的供给需求来看,智能制造的核心要义便是在两化融合的基础上构建智能分析优化系统“工业大脑”,对大数据进行智能化分析进而实现智能决策.

决策存在于人类一切实践活动当中.小到一台机器的操作,大到一个国家的治理,都离不开决策.例如,工业领域的操作优化与资源分配、商业领域的个性化推荐与供应商选择、交通领域的车流控制与路径导航、医疗领域的疾病诊断与治疗策略等都属于决策范畴.随着社会节奏的持续加快,来自各领域行业的决策活动在频度、广度及复杂性上较以往都有着本质的提高.决策问题的不确定性程度随着决策环境的开放程度以及决策资源的变化程度而越来越大.传统的基于人工经验、直觉及少量数据分析的决策方式已经远不能满足日益个性化、多样化、复杂化的决策需求.在当前信息开放与交互的经营环境下,机遇与挑战并存.如何把握机遇,这就需要企业或组织具备出色的决策能力.在这个过程中大数据正扮演着越来越重要的角色.

大数据作为一种重要的信息资产,可望为人们提供全面的、精准的、实时的商业洞察和决策指导.杨善林院士等指出,大数据的价值在于其“决策有用性”,通过分析、挖掘来发现其中蕴藏的知识,可以为各种实际应用提供其他资源难以提供的决策支持[6].美国应用信息经济学家Hubbard 认为“一切皆可量化”,并积极倡导数据化决策[7].纽约大学Provost教授等认为数据科学的终极目标就是改善决策[8].从数据到知识,从知识到决策,是当前大数据智能的计算范式[9],研究大数据的意义就是不断提高“从数据到决策的能力”.随着大数据技术的发展,人们传统的决策模式与思维方式正在发生着变革,基于大数据的决策方式正逐渐成为决策应用与研究领域的主旋律,大数据决策时代已经到来.大数据能够突破事物之间隐性因素无法被量化的瓶颈,充分阐述生产的主客体和生产全过程、全时段的客观状态,通过智能化分析和预测判断来提高企业的决策能力[10].在商业领域,利用大数据相关分析,可以更加精准地了解客户的消费行为,帮助决策者挖掘新的商业模式,制定商品价格,实现供应商协同工作,缓和供需之间的矛盾,控制预算开支.例如,全球零售巨头沃尔玛(Wal-Mart),通过对销售交易大数据的知识获取,成功用于价格策略和推荐活动中的决策支持[11].而在工业领域,为实现智能制造,每个影响生产决策的因素都可以经过工业大数据的预测,以直观明了的量化信息形式加以呈现,方便决策者对制造能力进行整体评估,进而快速有效地制定各项生产决策,优化劳动力投入,避免产能过剩[10].目前,百度的工业大数据监测平台已经应用到汽车、日化等制造行业.三一重工则利用大数据分析技术为智能工程机械物联网提供决策支持,推进了制造服务化的步伐.Google 公司旗下的AlphaGo 以4:1 的总比分战胜世界围棋冠军李世石同样是大数据决策颇具代表性的案例.

基于大数据的科学决策,是公共管理、工业制造、医疗健康、金融服务等众多行业领域未来发展的方向和目标.如何进行大数据的智能分析与科学决策,实现由数据优势向决策优势的转化,仍然是当前大数据应用研究中的关键问题.然而,对大数据的分析和处理在不同行业和领域均存在着巨大的挑战,大数据的大体量、高通量、多源异构性和不确定性等对传统的数据处理硬件设备和软件处理方法均构成前所未有的挑战.目前,机器学习、数据挖掘及统计理论等传统理论方法已经广泛地应用于大数据分析,但多数方法是建立在“独立同分布” 的假设之上,难以应对大数据的不确定性显著、关联复杂、动态增长、来源和分布广泛等问题,多数只能挖掘到底层的数据特征,而对于挖掘高层次的符合人类认知的知识依然无法取得较好的效果,难以高效地将大数据转化为决策价值.基于大数据的智能决策是一门集应用性和科研性于一体的学科领域,目前还存在众多待研究的问题.大数据智能决策在内涵外延、模型理论、技术方法及实施策略等方面还需要人们继续投入更多的研究与实践.

本文旨在综述大数据决策的特点以及大数据决策技术的发展现状,分析大数据智能决策面临的问题与挑战,并对一些潜在研究方向进行展望.文章结构如下:第1 节介绍了大数据的概念及特性,总结了大数据决策的特点; 第2 节从智能决策支持系统、基于不确定性分析的智能决策、基于信息融合的智能决策、基于关联分析的智能决策和基于增量分析的智能决策五个方面综述了大数据智能决策的研究与发展现状; 第3 节讨论了大数据智能决策面临的挑战与发展趋势; 第4 节为结束语.

1 大数据决策

1.1 大数据的概念及特性

由于不同领域的大数据在特性上存在差异,并且人们分析大数据的背景和应用大数据的目的不同,因此不同的领域专家对大数据的定义也各不相同.高德纳咨询公司、维基百科、美国国家科学基金会分别从不同的角度给出了大数据的定义.我国的《工业大数据白皮书(2019 版)》还对工业大数据进行了定义[12].简言之,大数据就是无法在合理时间内利用现有的数据处理手段进行诸如存储、管理、抓取等分析和处理的数据集合[13].

有关大数据的特性,业界普遍将其归纳为4V 特性:一是数据体量(Volume) 大,如一些电商企业日常处理PB 级别的数据已经常态化; 二是数据类型多样(Variety),如在工业大数据中数据类型包含了数值、文本、图片、音频、视频以及传感器信号等;三是大数据的价值(Value) 巨大,但价值密度稀疏,需要通过分析和挖掘来获取数据当中有价值的信息;四是大数据的高通量(Velocity),它除了指数据高速产生以外,还意味着数据的采集与分析过程必须迅速及时,以满足用户“及时、实时” 的决策需求.

在特定领域,大数据还有着特有的性质.如在工业领域,人们还强调大数据的实时性、闭环性、强关联性、多层面不规则采样性、多时空时间序列性等[14]; 在管理与商业领域,人们更关注大数据的商用价值,并提出大数据应用的5R 模型,即相关性(Relevant)、实时性(Real-time)、真实性(Realistic)、可靠性(Reliable)、投资回报(ROI)[13].在科研领域,Wang 等着重分析了大数据的不确定性特征[15].Wu等则从大数据的异构(Heterogeneous)、自治(Autonomous)、复杂(Complex)、演化(Evolving) 四个角度提出了描述大数据特性的HACE 定理[16].

1.2 大数据决策及其特点

决策是人们为实现某一特定的目标,在占有一定的信息和经验(知识) 的基础上,根据主客观条件的可能性,提出各种可行方案,采用一定的科学方法和手段,对解决问题的方案进行比较、分析和评价,并最终进行方案选择的全过程.从本质上来讲,决策通常是目标驱动的行为,是目标导向下的问题求解过程,该过程也广泛地被认为是人类的认知过程.大数据决策便是以大数据为主要驱动的决策方式.随着大数据技术的发展,大数据逐渐成为人们获取对事物和问题更深层次认知的决策资源,特别是人工智能技术与大数据的深度融合,为复杂决策的建模和分析提供了强有力的工具.

随着大数据应用越来越多地服务于人们的日常生活,基于大数据的决策方式将形成其固有的特性和潜在的趋势,在此我们将它们一并归纳为大数据决策的特点.在固有特性方面:大数据的实时产生及动态变化决定了大数据决策的动态性; 大数据的多方位感知意味着通过多源数据的整合可以实现更加全面的决策; 大数据潜在的不确定性也使得决策问题的求解过程呈现不确定性特征.在潜在趋势方面:相关分析或将代替因果分析,成为获取大数据隐含知识更有效的手段; 用户的兴趣偏好在大数据时代将更受关注,更多的商业决策向满足个性化需求转变.基于以上理解,本文对大数据决策的特点进行如下总结:

1) 大数据决策的动态特性

大数据是对事物客观表象和演化规律的抽象表达,其动态性和增量性是对事物状态的持续反映.不可否认的是,人们在决策过程中的每一步行动都将影响事物的发展进程,并全程由大数据所反映.此时决策问题的描述以及决策求解的策略都需要跟随动态数据给予及时调整,通过面向大数据的增量式学习方法实现知识的动态演化与有效积累,进而反馈到决策执行当中.大数据决策的动态特性决定了问题的求解过程应该是一个集描述、预测、引导为一体的迭代过程,该过程须形成一个完整的、闭环的、动态的体系结构.简要来说,大数据环境下的决策模型将是一种具备实时反馈的闭环模型,决策模式将更多地由相对静态的模式或多步骤模式转变为对决策问题动态描述的渐进式求解模式.

2) 大数据决策的全局特性

截至目前,人们已经开发出多种多样的决策支持系统,但多数是面向具体领域中的单一生产环节或特定目标下的局部决策问题,往往无法较好地实现全局决策优化与多目标任务协同.在信息开放与交互的大数据时代,大数据的跨视角、跨媒介、跨行业等多源特性创造了信息的交叉、互补与综合运用的条件,这促使了人们进一步提升问题求解的关联意识和全局意识.在大数据环境下决策分析会更加注重数据的全方位性,生产流程的系统性、业务各环节的交互性、多目标问题的协同性.通过多源异构信息的融合分析,可以实现不同信源信息对全局决策问题求解的有效协同.基于大数据的决策系统,对每个单一问题的决策,都将以优先考虑整体决策的优化作为前提,进而为决策者提供企业级、全局性的决策支持.

3) 大数据决策的不确定性特征

一般而言,决策的不确定性来源于三个方面:一是决策信息不完整、不确定而导致的决策不确定性;二是决策信息分析能力不足而导致的决策不确定性[17]; 三是决策问题过于复杂而难以建模导致的不确定性.大数据决策的不确定性不外乎以上三个方面.在信息不完整和不确定方面,首先,大数据具有来源和分布广泛、关联关系复杂等特性,对于多数企业而言,即便借助各种先进的数据收集手段尽可能地将各种信源数据进行整合,但仍难以保证信息的全面性和完整性; 其次,大数据固有的动态特性决定了大数据的分布存在随时间变化的不确定性; 另外,大数据中普遍存在的噪声与数据缺失现象决定了大数据的不完备、不精确性.在大数据分析能力方面,显然现有的大数据分析处理技术还存在着不足,诸如多源异构数据融合分析、不确定性知识发现及大数据关联分析等方面仍是当前颇具挑战的研究方向.在决策问题建模方面,在一些非稳态、强耦合的系统环境下,建立精确的动态决策模型往往异常困难,比如流程工业中的操作优化决策.现阶段面向大数据的决策问题求解,人们通常使用满意近似解代替精确解,以此保证问题求解的经济性和高效性.这种近似求解方式实际上也反映了大数据决策的不确定性特征.

4) 从因果分析向相关分析转变

在过往的数据分析中,人们往往假设数据的精确性,并通过反复试验的手段探索事物之间的因果关系.但在大数据环境下,数据的精确性难以保证,数据总体对价值获取的完备性异常重要,此时用于发现因果关系的反复尝试方法变得异常困难.从统计学角度看,变量之间的关系大体可以分两种类型:函数关系和相关关系,一般情况下,数据很难严格地满足函数关系,而相关关系的要求较为宽松,在大数据环境下更加容易被接受[18],并能满足人类的众多决策需求.该方面的成功案例有Google 公司的流感预测[19]、啤酒与尿布关联规则的挖掘等.在面向大数据智能化分析的决策应用中,相关性分析技术可为正确数据的选择提供必要的判定与依据,同时将其与其他智能分析方法相结合,可有效避免对数据独立同分布的假设,提高数据分析的合理性和认可度.

5) 决策向满足个性化需求转变

在商业和制造业领域,对用户进行精准营销,满足用户的个性化需求是提升客户价值和实现企业竞争力的经营准则.在大数据背景下,产品和服务的提供以及价值的创造有望更加贴近社会大众的个性化需求.以互联网大数据为基础,企业通过舆情分析、情感挖掘等以用户为中心的数据驱动方法,可以精准挖掘消费者的兴趣与偏好,做出有针对性的个性化需求预测,进而为消费者提供专属的个性化产品与服务.宏观上讲,大数据可以打通企业和消费者之间的信息主动反馈机制.社会大众通过意见的表达,可以迅速转化为商业经营的决策依据,反向指导产品的设计和制造环节,实现生产与市场需求的有效对接.以Netflix[20] 为代表的推荐系统正是一个基于个性化需求的大数据决策系统.随着社会化媒体应用的深入,多元主体参与决策有了更多的便捷性和可能性,决策过程中价值多元的作用更加明显,由此传统自上而下的精英决策模型将会改变,并逐渐形成面向公众与满足用户个性化需求的决策模式.

通过以上有关大数据决策特点的总结,我们不难发现大数据决策有着相较于传统基于小数据分析决策的诸多不同之处.更进一步,大数据决策的特点反应了当前大数据智能决策的研究重点与需求.大数据决策的不确定性、动态性、全局性以及向相关性分析的转变,决定了面向大数据的关联分析、不确定性分析、对增量与多源数据的有效利用都将是大数据智能决策研究中的关键内容.

2 大数据智能决策研究现状分析

从静态决策到动态决策、从单人决策到群体决策、从基于小规模数据分析的决策到基于大数据知识发现的决策,决策理论与方法已经发生了巨大的变化[21],基于大数据的智能决策逐渐成为新时代决策应用及研究的新生力量.大数据智能决策就是用智能计算方法对大数据进行智能化分析与处理,从中抽取结构化的知识,进而对问题进行求解或对未来做出最优判断的过程.该过程需要满足大数据决策在不确定性、动态性、全局性以及关联性上的分析需求.

在面向大数据的决策应用中,关联分析为问题假设的初步分析以及正确数据选择提供必要的判定与依据,它既是一个重要前提也是一种必要的分析手段; 不确定性是大数据决策的显著特征,同时也是大数据智能决策研究的重点与难点; 大数据决策的动态性决定了大数据知识动态演化的重要性,如何有效利用数据的增量性同样是大数据智能决策研究的关键点; 大数据决策追求的全局性,要求大数据智能决策能够将多源信息进行融合与协同以消除信息孤岛.需要指出的是,大数据的关联性、不确定性、增量性和多源性不是相互独立的因素,四者之间存在着潜在的联系,在实际应用中可能并发存在,但从研究的角度出发,一般很难将上述四种因素的分析同时讨论.此外,智能决策支持系统是智能决策分析方法的载体,随着大数据应用的普及,智能决策支持系统的发展也是大数据决策领域备受人们关注的研究方向.结合以上讨论,本节将从智能决策支持系统、基于不确定性分析的智能决策、基于信息融合的智能决策、基于关联分析的智能决策和基于增量分析的智能决策五个方面展开对大数据智能决策研究与发展现状的综述分析.

2.1 智能决策支持系统

决策支持是在管理科学和运筹学的基础上发展而来的一门学科,20 世纪70 年代,Scott-Morton 提出了决策支持系统(Decision support system,DSS)的概念[22].DSS 是以提高决策有效性为目的,综合利用大量数据,有机地结合各种模型,通过人机交互的方式,辅助各级决策者实现科学决策的计算机系统.1980 年,Sprague[23] 将DSS 设计为由用户接口、数据库管理系统、模型库管理系统三部件集成的两库(数据库和模型库) 框架.随着人们对DSS研究和应用的深入,DSS 相继引入方法库管理系统、知识库管理系统和推理机并形成四库(数据库、模型库、方法库和知识库) 框架.经过几十年的发展,DSS 不断与新技术、新学科相互交叉融合,并在体系结构、问题处理模式、功能模块集成等方面发生了巨大变化,其应用也被推广到诸多领域.

智能决策支持系统(Intelligent decision support system,IDSS) 是由DSS 不断升级和演化得来.20 世纪80 年代,专家系统(Expert system,ES)广泛流行,Bonczek 等[24] 将决策支持系统与专家系统相结合,充分发挥DSS 的数值分析能力和ES 的符号知识的处理能力,用于解决定量与定性问题以及半结构化、非结构化问题,有效扩大了DSS 处理问题的范围.这种DSS 与ES 结合的思想即构成智能决策支持系统的初期模型.智能决策支持系统利用人工智能和专家系统技术在定性分析和不确定推理上的优势,以及人类在问题求解中的经验和知识,为决策问题的求解提供了更加广阔的思路.近年来,几乎所有有关决策支持系统的研究都是围绕着人工智能技术的应用而展开的.人工智能方法已经逐渐渗透到IDSS 的体系结构、问题求解方法等各个方面.综合来看,智能决策系统的研究逐渐由过去的决策部件功能的扩展发展到部件的综合集成,由过去的定量模型发展到基于知识的智能决策方法[25].

和许多正在发展中的事物一样,智能决策支持系统是一个发展中的概念.随着社会的发展,信息量的激增,管理、决策日趋复杂,单纯依靠某一个决策者做出的决策往往不够完善,于是Gray 将群决策理论引入DSS,提出了群决策支持系统(Group decision support system,GDSS) 的概念[26],旨在吸收群体的经验和智慧,实现群体对决策问题的共同求解.GDSS 为企业的组织决策提供一种开放与协同的决策环境,达到提高决策质量的目的.GDSS是智能决策支持系统的一个重要研究方向,目前分布式环境下的GDSS 和基于人工智能的群决策方法仍然是该领域的研究热点[27].

传统的DSS 多采用静态模型,决策过程需要用户自主选择方法和模型,系统缺乏主动决策机制.针对该问题,Manheim 等[28] 最早提出了主动决策支持系统(Active DSS,ADSS) 的概念,并给出了相应框架.ADSS 通过建立人类认知模型,在决策问题求解的不同阶段,给决策者提供不同的方法选择,从而形成不同的问题求解路径.ADSS 是基于人类先验知识的,但其前提假设是系统运行在静态的决策环境下,因此在实际应用中ADSS 仍然存在适应性较差的局限性.不过人们对ADSS 的研究为自适应决策支持的提出奠定了基础.为了适应决策环境的变化,Shaw[29] 于1993 年提出了自适应决策支持系统(Adaptive decision support system,Ad DSS)框架,并尝试用机器学习和案例推理等方法从大量历史数据和过往经验中发现与决策问题相关的知识,以此来使系统具有随时间和决策过程变化调整自身行为的能力.在此基础之上,人们对AdDSS 展开了大量的研究,包括系统结构自适应、领域知识自适应、用户接口自适应等,自适应性和自学习能力已经成为智能决策支持系统的一个主要标志.

互联网技术在决策支持领域的应用,使得决策环境出现了新特点,即决策分析中的数据不再集中于一个物理位置,而是分散在不同部门或地区.在此环境下许多大规模的管理决策活动已不可能或者不便于用集中方式进行,而分布式决策支持系统(Distribute decision support system,DDSS) 正是为适应这类决策问题而建立的信息系统.DDSS 将传统集中式DSS 发展为网络环境下的分布式并行处理的方式[30],通过网络连接工作平台和分布式数据库、模型库等,支持分布在各地的DSS 彼此交互,从而使他们共同为决策问题求解提供高效及时的决策支持.在大数据环境下分布式决策支持系统将得到更加广泛的关注,分布式数据仓库、分布式人工智能、分布式并行化决策已经成为当下决策支持领域的重要研究方向.

随着智能体(Agent) 在人工智能领域的深入研究,相关学者将Agent 技术引入了智能决策支持系统,特别是多Agent 理论与技术为分布式决策支持系统的分析、设计和实现提供了新的途径.Bui 和Lee[31] 将决策支持系统中的Agent 应具备的能力归纳为:独立能力、学习能力、协作能力、推理能力、智能性等.目前,多Agent 智能决策支持系统已经成为趋势,通过加入诸如人机交互Agent、模型选择Agent、模型求解Agent 等可以使决策系统减少对专家的依赖,实现系统由“模型驱动” 转为“问题驱动”,提高决策系统的整体智能性.Ghadimi 等[32]提出一种面向供应链可持续供应商选择和订单分配的多Agent 系统方法,通过设计数据库Agent、供应商Agent、决策者Agent 和订单分配Agent,有效提高供应商选择和订单分配质量.

随着云计算(Cloud computing) 技术兴起,基于云计算的智能决策支持系统成为大数据智能决策支持的一个研究方向.云计算通过互联网将虚拟化的数据中心和智能用户终端有机地联系起来,为用户提供了便捷的信息服务环境.在大数据环境下,云计算平台可以为大数据的决策分析提供庞大的存储空间和强大的分布式并行计算能力.决策环境的开放性、决策资源的虚拟化、问题求解的分布式协作性将使得基于云计算的智能决策有着与传统智能决策不同的特征[21].随着移动智能设备和移动互联网的普及,分布式移动云计算环境下智能决策方法成为当前的一个研究热点[33].

随着社会节奏的加快,企业或组织所面临的内外部环境更加复杂,业务问题呈现非线性、不确定性、多维化和实时性等特点,此时继续使用传统IDSS 工具和利用局部数据进行决策分析的方法已经难以获取高质量的决策效果.在大数据环境下,智能决策支持系统应具备大数据的分析处理能力.通过综合运用互联网、云平台和人工智能技术,将大数据的采集、存储、管理、分析、共享、可视化等一系列知识发现技术与现有的智能决策支持技术深度融合,构建形成基于大数据的智能决策支持系统是智能决策应用领域的发展方向.未来基于大数据的决策支持系统有望具备海量数据汇聚融合能力、快速感知和认知能力、强大的分析与推理能力、自适应与自优化能力,可以实现复杂业务的自动识别、判断,并做出前沿性和实时性的决策支持.

2.2 基于不确定性分析的智能决策

不确定性是指客观事物联系与发展过程中无序的、随机的、偶然的、模糊的、粗糙的、近似的属性[34].现实世界的多样性、随机性、运动性,以及人类对事物描述和信息表达的不精确性、模糊性决定了人们所能获取的数据本身存在着较多的不确定性.而在大数据环境下,数据的多源、多样、增量及不完备等特点,加之人们对数据分析处理需求的多样性(如数据融合等),使得大数据从宏观上有着相较于传统数据更多的不确定性.正如Wang 等指出,大数据的不确定性不仅存在于大数据本身,还体现在大数据的处理过程当中[15].因此,关于大数据不确定性信息的表示与处理成为大数据智能决策理论方法研究中不可缺少的一部分.在不确定性理论方法中模糊集、粗糙集、贝叶斯理论、证据理论等在智能决策方法中都起到了关键作用.随着大数据应用的增多,以上方法也逐渐被用于面向大数据不确定性处理的智能决策当中.本小节将从大数据不确定性处理的角度对相关方法进行回顾和综述.

模糊集于上世纪60 年代由Zadeh 提出,通过隶属度函数表达模糊性概念,其本身是一种有效的不确定性信息表示与处理方法.目前模糊集方法已经形成一整套较为完整的理论体系,包括模糊集、模糊逻辑、模糊系统以及它们的扩展形式[35].由于模糊集方法可以在不同信息粒度层次上对不确定性数据进行表示与处理,因此具有较强的可解释性和可理解性.模糊集在大数据中的应用,形成对大数据不确定性的表示与处理的有效手段.在面向大数据的聚类应用中,模糊C-means 算法(FCM) 已经成为一种常用的软聚类方法.文献[36] 将FCM 应用于机器人触觉感知数据的分析,解决机器人触觉识别问题.Chang 等[37] 针对高维度数据聚类问题,提出稀疏正则化FCM 算法.Di Martino 等[38] 将FCM扩展应用于超大型事件数据集中的热点检测,并进一步提出了一种时空FCM 方法,用于面向时空大数据的热点检测与预测问题[39].模糊规则分类系统广泛地应用于模式识别和分类任务,可以为用户提供带有语义标签的可解释分类规则,降低决策失误的风险.Jindal 等[40] 设计了云环境下的模糊规则分类器,用于处理多源异构的远程医疗大数据,实现对病人的远程实时诊断决策.针对面向大数据的模糊分类,Segatori 等[41] 提出了基于Map Reduce 的分布式模糊决策树(FDTs) 计算模型.模糊推理系统还常与神经网络相结合,以提高决策问题求解的自适应性.在电力系统控制领域,文献[42] 将神经网络与模糊推理系统相结合,提出三种自适应神经模糊推理系统,用于太阳能发电企业控制决策中的短时电力预测问题.Jindal 等[43] 针对疾病诊断决策中的分类问题,提出了用于医疗大数据维度约简的模糊神经分类器方法,有效提高疾病诊断准确率.更多有关模糊集在大数据决策方面的研究可以参见文献[35].从现有的基于模糊集方法的大数据决策文献来看,模糊集方法是适用于大数据不确定性分析的有力工具,其数据表示的多粒度特性符合人类的认知习惯,可以满足更多特定领域的大数据决策需求.

粗糙集由波兰数学家Pawlak 于1982 年提出.粗糙集使用具有精确概念的上近似集和下近似集对一个不精确概念/知识进行近似表示与度量,其独特之处在于不需要主观先验知识,可以直接对数据进行分析与推理,并揭示潜在规律.目前,粗糙集及其扩展理论已经成为处理不精确、不一致、不完备信息的有力工具,并广泛用于数据挖掘、知识获取以及各类决策问题的求解.为满足粗糙集方法的大数据决策分析需求,已有较多学者从粗糙集的并行化开展了研究.基于粗糙集的多粒度思想,Qian 等[44] 提出基于MapReduce 的粗糙集的并行化层次属性约简方法.Li 等[45] 设计了并行化优势粗糙集近似计算方法.针对大数据常见的不完备特性,Abdel-Basset等提出将中性集(Neutrosophic sets) 和粗糙集相结合的方法来处理智慧城市大数据的不完备性问题[46].El-Alfy 等基于遗传算法研究了面向决策粗糙集的大规模数据集的并行化属性约简方法,并成功用于网络入侵检测[47].Banerjee 等通过粗糙集理论和蚁群算法解决大数据中的不确定性和最优特征抽取分析问题,提出了面向移动大数据的评价决策分析方法[48].针对大规模多模态数据的属性约简问题,Hu 等给出了多核模糊粗糙集方法[49].为降低多粒度决策粗糙集在大数据分析中的时间复杂度,同时使其满足大数据的半监督特性,Qian 等提出了局部多粒度粗糙集方法[50-51].

近年来,由决策粗糙集发展而来的三支决策理论[52] 成为一种更为一般化且符合人类认知的不确定性决策工具,正受到越来越多的关注.在基于Web 的医疗决策支持系统中,Yao 等将博弈论粗糙集(GTRS) 用于面向医疗数据的不确定性分析,通过生成三支决策规则,提高系统整体决策质量[53].Yu 等研究了面向多视图数据的不确定性聚类问题,并提出一种主动三支聚类方法[54].Zhang 和Yang等[55] 基于区间值决策粗糙集提出一种三支群决策模型.针对现实中有用信息随时间不断增长,Li等[56] 提出了代价敏感序贯三支决策,并将其应用于人脸识别.Qian 等[57] 基于多粒度思想,提出一种更为一般化的多粒度序贯三支决策模型.

基于贝叶斯理论的方法已经在人工智能领域中的不确定性推理、计算机学习等方面取得了许多成果.对于不同规模大小的贝叶斯网络,可以分别采用精确推理和近似推理算法进行分析,并提供决策支持.Lake 等[58] 通过一个基于贝叶斯的BPL(Bayesian program learning) 模型来建模实现人类层次的概念学习.Sturlaugson 和Sheppard[59] 研究了连续时间贝叶斯网络中的不确定推理.Abadpour[60] 利用贝叶斯推理构造了模糊可能性聚类算法的目标函数.胡支军等[61] 研究发现对项目价值事前估计不确定性的贝叶斯建模可以在风险项目投资组合决策中给出更加精确的价值估计.Hao 等[62] 研究了不确定性环境下动态决策中的信息权重确定问题,提出基于直觉模糊贝叶斯网络的动态属性权重确定方法,同时构建了面向风险决策问题的动态直觉模糊决策概念框架.贝叶斯网络同样适用于不完备数据的处理,Feng 等先后提出了不完备数据环境下基于贝叶斯网络的岩爆灾难预测方法[63] 和隧道挤压预测方法[64].

证据理论(Dempster-shafer theory) 通过引入信任函数,把不确定与不知道区分开来,能够在先验概率未知的情况下,以简单的推理形式,得到较好的结果.例如,Zhang 等[65] 采用证据推理方法研究了不确定环境下的多属性决策分析问题.Sun 和Wang[66] 针对基于属性描述的知识,通过组合证据来解决多属性融合问题.Troiano 等[67] 应用D-S 证据理论挖掘用户的偏好信息用于推荐决策.杜元伟等[68] 将头脑风暴方法中的基本原则引入到主观证据的提取过程之中,并在此基础上结合证据理论提出了主观证据融合决策方法.

由于专家知识总是有限的,并且能够以符号逻辑表示并用来推理的知识更为有限,所以许多专家知识并不是一开始就已经具备,更多的还是在决策过程中学习得到的.因此,人们将人工智能中的仿生方法引入到决策过程中,并取得了很好的效果.仿生方法是一类重要的人工智能方法,能够适应现实环境中普遍的不确定性,解决那些无法精确定义或建模的决策问题.神经网络、进化算法、蚁群算法等均被用于对存在大量不确定性信息的学习,并得到较好的决策效果.例如,Bukharov 等[69] 基于神经网络和遗传算法构建了一个决策支持系统,该系统采用区间神经网络来处理不确定数据,使用遗传算法来选择最重要的输入.Yu 等[70] 结合与或图和粗糙集等方法将蚁群优化算法应用于属性约简、约简选择以及Web 服务选择中.

此外,概率推理、赋值代数、连接分析、聚类分析等方法也常常应用于不确定性决策分析中.上述理论与方法为智能决策问题的求解提供了有力的支持,但是有关不确定环境下面向复杂大群体决策等方面的求解方法仍然有待进一步的研究.

2.3 基于信息融合的智能决策

多源信息融合是人类所固有的一种基本功能.人类可以本能地将各种感知器官所探测的信息与先验知识进行综合,进而对周围的环境和正在发生的事件做出准确的估计.“盲人摸象” 的故事告知我们,单凭一种感官获得的感知信息,难以获得对客观事物的全面认知,而通过对不同度量特征的融合处理可以将多源信息转化成对环境有价值的解释.多源信息融合就是对人脑综合处理多源信息功能的模拟[71],以实现自动的或半自动的将不同来源和不同时间点的信息转化为统一表示形式,进而为人们提供有效决策支持的一系列技术方法[72].

在大数据环境下,数据的分布式存储与交互式共享会更加普遍,而具有分布式和分散控制的自治数据源是大数据应用的主要特征之一[16].此时,多源信息融合是提升大数据价值不可或缺的技术手段.从决策应用的角度来看,社会经济活动中的企业或组织在决策时需要收集大量的数据,汇集不同的观点,才能制定出符合客观规律的决策.随着数据获取便利性的增加,信息的全面性和多源信息的协同作用将更多地被人们关注,而越来越多的决策任务的开展,将寻求多源数据甚至是跨平台、跨区域、跨领域数据的参与.例如,在城市规划决策中,政府部门需要结合路网结构、交通流量、城市人口分布以及POIs 数据进行综合分析[73]; 在医疗诊断中,有时专家需要将多家医疗机构的诊断结果进行融合分析;在工业生产过程中,可以借助火眼图像、槽音频以及其他监控数据来综合判断铝电解槽过热度状态[74].多源信息融合对于大数据决策的意义可以归纳为两方面:一方面,信息融合有利于进一步挖掘数据价值,从众多分散、异构的数据源获取隐含价值信息,丰富决策的内涵; 另一方面,通过多源数据的交叉引证,可以降低大数据潜在的噪音、数据缺失、信息不一致和语义模糊等不确定性因素[72],提高决策的置信度.

简单来说,信息融合是一种概念框架.在不同需求和应用场景下,信息融合所面对的问题不同,人们提出的模型方法与技术手段也各不相同.信息融合技术最早以多传感器数据融合(Multi-sensor data fusion) 的概念出现在军事领域.上世纪70 年代美国国防部联合指挥实验室(Joint Directors of Laboratories) 提出了颇具代表性的JDL 模型[72],旨在将来自不同源的数据信息进行多层面的融合处理,来提高目标识别、身份评估、战况评估和威胁评估的准确性.在此之后,信息融合技术不断地被丰富和拓展,并发展成为涉及信号处理、信息理论、统计学、人工智能、机器学习的多学科研究领域.

从信源之间的关系来看,学者们把信息融合的类型划分为互补型、竞争型及合作型[75-76].互补型中的各信源互不依赖,各信源感知目标/场景的不同方面,通过信源融合来获取目标的全局信息; 竞争型中的各信源描述相同目标/场景的同一方面,多源信息融合用于冗余校准和增强信任; 合作型中各信源之间相互依赖,从不同角度感知目标,多源信息融合用于获得全新的信息.从信息融合的抽象层次来看,人们常把融合划分为数据层融合、特征层融合及决策层融合[75].数据层融合也称作像素层或信号层融合.由于数据层融合一般面向等价信源的数据[75],因此其常用融合机制为竞争型.数据层融合因尽可能多的保持了现场数据,其具有信息损失小的优点,但由于要对现场数据进行整体传输和集中处理,导致其有通信负载大、计算代价高、处理时间长、抗干扰能力差的缺点.决策层融合也称作语义层融合,其操作对象是规则或知识.决策层融合依赖于人们对数据特征意义和关系的理解,是一种高层次的和更符合人类认知的融合方式.由于决策层融合不受信源数据形式差异的限制,使其融合机制也更加灵活,它可以面向竞争型、合作型和互补型的融合需求.由于决策层融合传输和处理的是规模较小的知识,因此其具有通信负载小,抗干扰能力强,融合中心计算代价低的优点,不过在各信源的知识获取阶段仍需花费一定的计算代价且产生一定的信息损失,使得决策层融合存在信息损失相对较大且整体计算代价不一定会低的问题.特征层融合的操作对象是从数据中抽取的特征属性,常用融合机制有竞争型、互补型及合作型,其优缺点介于数据层融合和决策层融合之间.Gravina 等[75] 总结了不同层次下数据融合对比情况,见表1.

表1 不同层次下数据融合对比情况表
Table 1 Comparison of data fusion under different levels

在大数据时代,信息来源更加广泛,数据交互更加频繁,大数据的多源分布现象普遍存在.随着社会媒体网络、躯体传感网络、智能推荐系统、城市计算等新兴技术领域的崛起,人们对数据融合技术的需求进一步加大.然而复杂的大数据环境对信息融合任务的开展构成诸多挑战.覃雄派等[77] 指出随着大数据的增长,对大数据进行分析的基本策略是把计算推向数据,而不是移动大量的数据.吴信东指出大数据应用的自治数据源和分布式控制的特点使得整合多源数据进而集中式挖掘的方法会因传输代价高昂以及隐私暴露等问题而不可取[16].为实现对城市大规模人群聚集事件的有效预测,Huang 等[78] 通过对多源大数据的知识融合,提出一种基于大数据融合的人群聚集预警方法.Lin 等[79] 基于邻域粒化的方法,提出一种多信源决策规则表示方法,进而通过一致性度量原则计算各信源权重,实现多源决策规则的融合.Zheng[73] 指出大数据时代的信息融合任务会更多地面向跨领域数据.然而跨领域数据在表示、分布、尺度上普遍存在的模态差异,这对传统数据层融合方法构成巨大挑战.虽然已有相关研究工作将深度神经网络(Deep neural network,DNN)用于多模态数据的统一特征表示[80-81],并在一定程度上解决了多源数据特征层融合问题,但是基于DNN 的融合方法的效果取决于参数调整的好坏,最优参数的寻找依然是一项耗时耗力的过程.另外,对于DNN 中间层特征表示依然存在可解释性问题.针对上述问题,Zheng[73] 提出跨领域大数据融合范式(如图1 所示),即对各个数据源分别进行知识提取,在知识层面实现多源信息语义融合.语义层的信息融合可以大体分为基于多视图的数据融合、基于相似性的数据融合、基于概率依赖的数据融合以及基于迁移学习的数据融合[73].

图1 跨领域大数据融合范式[73]
Fig.1 The paradigm of cross-domain big data fusion[73]

在大数据多源信息融合任务中,如何对信源进行评价与选择同样是一项挑战性问题.Xu 等首次提出了使用内部信任度和外部信任度两个指标来评估信源的可靠性方法,实现对冗余和不可靠信源的过滤,并通过将原始数据转换为三角模糊信息粒,实现基于粒计算的多源数据融合[82].但上述方法仅适用于多源同构数据集,难以适应多源异构数据环境.目前对信源的评价选择问题依然是信息融合领域的一个开放性研究课题.多源数据信息潜在的不完备、不一致、冲突、语义模糊等不确定性是多源信息融合所要解决的最根本问题,相关学者已尝试将概率论、粗糙集、模糊集、可能性理论以及D-S 证据理论等应用到数据融合当中,并分别在特定领域取得了较好的效果.Khaleghi 等对以上各种融合方法的优缺点做了详细分析,读者可以参阅文献[72].

2.4 基于关联分析的智能决策

在现实世界中,诸多看似没有关系的事物之间其实存在有普遍关联,而这些普遍关联往往在一些问题求解中起到关键作用.相关分析便是一种发掘事物之间普遍关联的数据驱动方法.自19 世纪80 年代Galton 通过研究人类身高遗传问题首次提出“相关” 概念以来[83],相关分析便引起人们的关注,并逐渐成为一种决策分析的重要手段.作为度量事物之间协同关系和关联关系的有效方法,大数据的相关分析能够满足人类的众多决策需求.例如,Google 公司的趋势系统,通过对互联网搜索数据的关联分析,实时预测了2009 年美国H1N1 流感的爆发[19].沃尔玛通过对用户消费数据的关联分析,发现啤酒与尿布间的关联关系.需要特别指出的是,相关关系有别于因果关系.在大数据时代基于相关关系挖掘的数据分析具有重要的价值.李国杰院士等指出,对于简单封闭的系统,基于小数据的因果关系分析是可行的,但对于开放复杂的巨系统(大数据环境),传统的因果关系分析难以奏效[84].首先,大数据环境下数据结构、数据关系错综复杂且存在很多噪音,人们很难在变量间建立精确的函数关系并在此基础上探讨因果关系,寻找因果关系的代价高昂;其次,大数据的动态与演化特性,决定了变量间的因果关系具有时效性,环境状态稍有变化,探寻到的因果关系或已失效.然而相关关系的要求较为宽松,可以帮助人们更加快捷、高效地发现事物之间的内在关联.

从决策应用的角度来看,大数据相关性分析对大数据智能决策的推动作用主要体现于以下两个方面.一方面,相关性分析技术不仅用于发现变量之间的潜在关联,而且还用于判定分析变量之间伪相关、假关联.试想,通过对一组数据的回归分析,可以学到一个精度较高的回归模型,但如果数据之间是伪相关的,那么学到的模型将导致错误的科学推断及毫无价值的预测结果.在面向大数据智能化分析的决策应用中,由于数据混杂且体量大,如何选择与问题相关且正确的数据来开展分析是一项极为重要的问题.在该环节,相关性分析可以为问题假设的初步分析以及正确数据的选择,提供必要的判定与依据.在这一方面,牛津大学Mayer-Schonberger 教授等也给出了相同的观点:“建立在相关分析法基础上的预测才是大数据的核心”[85].另一方面,在实际应用中,相关性分析不是一个独立的环节,而是需要将其与其他模型方法进行有机结合,进而提高数据分析过程的合理性以及分析结果的认可度.目前,较多的数据挖掘与机器学习方法仍建立在数据的独立同分布假设之上,显然独立同分布只是一种理想假设,这样的分析结果存在较大的局限性且不能充分反映数据中蕴含的真实知识.近年来,为提高数据分析的合理性和准确性,越来越多的学者将相关分析纳入到智能信息处理当中,诸如多准则/属性决策[86-87]、分类[88]、聚类[89-90]、多标签学习[91-92] 等,均取得了较好的效果.综合来看,大数据相关分析已经成为大数据智能决策中的一项关键应用技术.

传统相关分析中的相关系数法往往会忽视很多变量间隐含的逻辑关系,难以对非线性相关关系和非函数相关关系进行准确测量,这些局限性限制了传统相关分析法在处理大数据问题时的应用范围.近年来,相关学者从典型相关分析、基于互信息的相关分析、基于距离的相关分析展开了对非线性相关关系的研究,此外在伪相关以及时序数据延迟相关方面也取得了较多研究成果.以上几个方面对大数据相关性分析提供了理论依据,下述内容是以上几点代表性研究成果的介绍.

目前典型相关分析(Canonical correlation analysis,CCA)已经较多地应用在大数据分析当中,它不仅可以揭示大数据间的关联关系,还可以提取大数据中的低维特征.具有代表性的应用有数据降维[93]、特征融合[94]、数据流挖掘[95]、跨模态检索[96]等.在典型相关分析的非线性拓展方面,Yin[97] 基于互信息对CCA 进行了扩展.Lai 和Fyfe[98] 基于核方法提出了非线性CCA.Hardoon 等[99] 使用Kernel 典型相关分析方法来学习图片和问题描述之间的语义表示.针对传统典型相关分析在大数据PB级数据规模时不再适应的情况,杨静等[100] 提出一种基于云模型的大数据CCA 方法.

互信息作为相关分析的度量,其优势在于能有效地刻画变量之间的非线性关系[18],能够有效探测数据的内在结构和规律,因此在大数据相关分析中日益受到重视.Reshef 等[101] 通过互信息定义了最大信息系数(Maximal information coefficient,MIC) 用来衡量两个变量间的相关性,可以对变量间的非函数相关关系进行有效识别.MIC 被认为具有通用性和均等性,并适用于大规模的数据集,但由于其仅针对两个随机变量的相关分析,因此在实际应用中还存在一定的局限性.Nguyen 等[102] 根据MIC 方法,提出了更为一般化的相关分析方法,即最大相关分析(Maximal correlation analysis,MAC),扩展了MIC 的应用范围,实现对两组变量之间的非线性相关关系的准确测量.

基于距离的相关系数(Distance correlation coefficient) 由Sz´ekely 等于2007 年提出[103],可以提供比皮尔逊相关系数更多的信息.基于距离的相关系数从特征函数的距离视角考察了两个随机向量之间的非线性相关关系,为高维数据的非线性相关分析提供了有效的度量准则.Mart´ınez-G´omez 等[104]将基于距离的相关系数应用于高维巨量的天体物理数据集中,用于发现变量之间的非线性关联关系,从而实现特征的提取,增强分类及模式识别的效果.Davis 等将基于距离的相关系数用于时间序列分析当中[105].基于距离的相关系数从特征函数视角构造相关性度量方法,不但可以度量非线性相关性,而且可以度量任意两个不同维度的随机向量的相关性.但是,距离相关系数涉及高维向量间的距离计算及矩阵点乘运算,具有较高的时间复杂度.如何提高计算效率是基于距离相关系数分析方法的未来研究方向[18].

时序数据的延迟相关性(Lagged correlation)是时间序列数据挖掘领域的一个重要研究内容.延迟相关是时序数据之间普遍存在的现象.例如,国际原油价格走势常常会影响到国内成品油的价格行情,但是这种相关性并不会立即表现出来,而是存在一定的延迟.在时间序列的相关性判定中,既要判断数据之间是否存在时差(也称作“时间弯曲”),又要考虑数据之间是否具有真实的相关性.曲线排齐法(Curve registration) 是对延迟序列进行矫正的常用方法.经典的曲线排齐方法包括位移排齐法、特征点排齐法、连续单调排齐法等.针对BRAID方法(一种位移排齐法) 在最大延迟相关点较大时准确率不高的问题,林子雨等[106] 提出了三点预测探查法(TPFP),该方法可有效处理最大延迟相关点位置较大的情形,并可应对延迟突变问题.姜高霞和王文剑[107] 构造了基于时间序列相关系数特征的相关性判定方法,并基于光滑广义期望最大化算法提出一种基于相关系数最大化的曲线排齐模型.针对基于采样的曲线排齐法中均匀采样存在的缺陷,张文凯等[108] 提出了基于非均匀采样的相关系数最大化曲线排齐方法.此外动态时间弯曲法(Dynamic time warping) 也是时下较为流行的时移序列排齐方法[109].

伪相关(Spurious correlation)是指不具有相关关系的两组数据却具有较高样本相关系数的一种统计现象.该现象将产生误导性的统计推断.关于伪相关的产生原因,学界普遍认为是由其他未见因素(共有因素) 的影响而产生.伪相关的判定问题和如何降低潜在伪相关的影响是相关分析应用中的重要问题,并且多需要结合数据的背景知识来分析.在生态系统研究当中,Baldocchi 等[110] 针对冠层光合作用和生态系统呼吸之间可能存在的潜在伪相关性,通过改变数据汇总和集成的采样方法和时间尺度,来验证不同采样方法对以上两者之间伪相关度的影响.在基于元社区结构的物种分类研究当中,Clappe等[111] 分析了由空间自相关(独立发生) 引起的物种分布和空间环境之间的伪相关问题,并基于空间约束空模型(Spatially-constrained null model) 提出一种新的方差分解方法,用于从环境数据中校准空间自相关带来的伪相关贡献.Gao 等[112] 提出一种新的两个非独立变量之间伪相关性的判定方法,通过引入一个“纯” 伪相关指标,并将其与伪相关指标进行回归分析,实现对区域径流悬沙年产量与径流深度之间伪相关性判定,并进一步分析表明伪相关性受变量易变性的显著影响.在大数据环境下,数据的海量性、高维性、动态及不确定性等增加了发现伪相关的难度,特别是大数据的高维特征将显著增加伪相关的可能性[113],因此面向大数据的相关分析,不可一味地追求对数据相关性探寻,而忽略了对伪相关的分析与判断.

2.5 基于增量分析的智能决策

增量性是大数据的固有特性之一.现实生活中广泛分布的传感与监控设备、实时互联的社会媒体等都构成了大数据动态增长的在线场景.基于大数据决策的数据分析,不单要从历史大数据中获取知识,更多的是要对新增数据进行动态知识发现.传统机器学习方法对历史大数据的挖掘与分析往往是建立在数据隐含规律对未来预测有效性的假设之上,或假定决策状态始终处于决策模型的闭环之内.显然现实世界的复杂多变性决定了从历史数据中获取的知识多数只具备历史有效性,在实用性较强的决策应用领域,特别是对决策时效性要求较高的工业控制领域和智能交通领域等,实时动态的增量式知识获取是保证决策质量的必要条件.近年来随着大数据应用的普及,更多专家学者开始关注大数据的增量式学习问题.分类或聚类也是实现决策分析任务的常见方法.在这类典型的基于机器学习的决策应用中,增量性主要体现于三个方面:一是数据样本的增量; 二是样本特征描述信息的增量; 三是类别的增量与数据分布的变化.

在数据样本增量方面.针对以往增量式学习均假设新增样本是独立且同分布的,Xu 等[114] 研究了依赖采样方法对增量式支持向量机算法的影响,并提出了一种基于马尔科夫重采样的增量式支持向量机算法(MR-ISVM),实现ISVM 学习效率的显著提高.Gu 等[115] 基于代价敏感铰链损失的支持向量机(CSHL-SVM) 构建了数据块增量式学习算法,实现在线场景下的分类模型的快速更新.粗糙集方法是处理不确定性数据的有效决策工具.目前已经有专家学者基于粗糙集的决策方法进行了有关增量式知识发现的研究.Chen 等[116] 将变精度粗糙集方法引入集值序信息系统,研究了变精度集值序信息系统下的近似集增量更新方法.为应对决策信息系统中数据对象的动态增加问题,Li 等[117] 提出基于优势粗糙集的增量式近似集更新方法,该方法可以有效解决多准则决策中的动态增量问题.针对数据样本的增量以及数据中潜在的不确定性,Yu[118] 提出了三支聚类计算框架,并进一步提出了基于树的增量式三支聚类模型,该模型为不确定性大数据的增量式聚类计算提供了新思路.Hu 等[119] 通过粗糙集表示聚类问题中数据的不确定性,形成一套基于粗糙集的增量式模糊聚类集成方法,实现对不确定性数据的增量式聚类计算.

在样本特征描述信息的增量方面.Hu 等[120] 基于互信息的差异生成策略和特征增量树生长机制提出一种特征增量随机森林(FIRF) 学习方法,解决老年人健康护理中因传感器增加形成的数据特征增量问题.Huang 等[121] 在分布式信息系统下基于属性一般化提出了增量式粗糙近似集更新方法.Jing等[122] 研究了多粒度视角下的知识粒表示方法,针对大规模动态增量决策信息系统,提出了多粒度增量式属性约简方法,有效避免数据增加过程中对等价类的重复计算.针对层次化多准则分类问题中属性值在不同粒度层次上的动态更新,Luo 等[123] 通过属性值分类对知识粒进行细化和粗化,实现知识粒的动态特性的形式化表示,并在此基础上提出了层次化多准则决策系统下的优势粗糙集增量式学习方法.面向属性增量的聚类算法可以为基于无监督数据的决策活动提供有益帮助,不过现阶段面向属性增量的聚类研究依然较少.

在类别的增量与数据分布的变化方面.传统的增量式机器学习方法常假设训练数据和新增数据符合相同的模式,却较少考虑新数据所属类别的增加与数据分布变化情况,这使得传统增量式机器学习方法难以适应实际生产中的大数据环境.现实中的诸多因素会导致模型在学习阶段只能接触到有限的数据类别,而在测试和实际应用阶段的数据却包含了在学习阶段未曾出现的类别.该类场景下的学习问题被称作开集学习(Open-set learning) 问题,意在寻求对已知类识别的同时,能有效识别未知新类.Da 等[124] 尝试从无标签数据中获取更多分类信息,并基于支持向量机的大边缘准则和半监督学习中的低密度分离器技术,提出了基于无标签数据增广类学习框架及相应的支持向量机方法,用于开放空间下的样本预测.Ristin 等[125-126] 基于随机森林算法提出了最近类平均森林算法和支持向量机森林算法,研究了大规模图像分类中数据类别增加的增量式学习问题.J´unior 等[127] 将最近邻分类器扩展应用到开集学习当中,提出一种开集最近邻方法.在基于神经网络的图形识别领域,使用数据集增广技术是应对开集识别问题的一种方法,Neal 等[128] 提出一种反事实图像生成的数据增广方法,并通过训练后的生成对抗网络生成开集训练样本,用于对开集图像识别任务的学习.通过在深度网络中引入新的模型层OpenMax 并结合元识别(Meta-recognition)算法来估计未知新类的概率,Bendale 和Boult[129]提出一种深度网络开集识别方法,实现深度网络对高置信度欺骗图像以及相似于训练样本的对抗图像的识别.分布外图像检测问题同样可看作是一类特殊的开集学习问题.Liang 等[130] 针对基于神经网络的分布外图像检测问题,提出了基于神经网络的分布外检测器,通过控制温度标定并结合添加输入扰动的方法,增加分布内图像与分布外图像之间的Softmax 分数间隔,在无需重新训练网络的情况下,有效降低分布外样本的误判率.目前已有的开集学习的研究主要关注了如何检测到新类,然而如何进一步区分新类同样具有重要的实际意义和研究价值,目前该方面的研究还较少.

在流式数据和时间序列数据的实时处理任务中,如何将新增数据的分布变化纳入学习任务当中是一项极其重要的研究工作.基于概念漂移(Concept drift) 的增量式学习方法是应对上述问题的有效途径之一.Ahmad 等[131] 将概念漂移方法用于流式数据的非监督学习当中,有效提高了在线异常检测的精度.针对传统DSS 中的静态数据分析方法在发生概念漂移时无法做出正确决策的问题,Dong 等[132]研究了数据驱动决策支持系统中的概念漂移问题,提出一种基于数据分布的概念漂移检测方法,为数据流提供更好、更精细的经验分布,使得DSS 可以在适当的时间调整决策知识以适应不断变化的环境.Lobo 等[133] 使用核密度估计构建了一种进化多样化生成方法,用于在线学习中概念漂移后学习策略的快速适应.

3 挑战问题与发展趋势

诚然大数据可以为人们带来更加科学全面的决策支持,但大数据智能决策的应用研究还处于初期阶段,并仍面临诸多挑战.在此,我们讨论大数据智能决策面临的一些问题挑战,并指出潜在的应对方法或未来的发展趋势.

3.1 大数据多样性带来的挑战

多样性是构成大数据复杂性的主要因素之一,也是大数据智能决策面临的主要困难.当一项综合决策需要整合多方面数据时,不同来源的大数据在类型、分布、频率及密度上可能各不相同,这对多源大数据融合分析、多源信息协同决策等构成巨大的挑战.现阶段对于处理大数据的多源异构性,已经有一些研究成果,但多数还是面向具体场景和特定一些类型的大数据.解决多源异构大数据的协同分析问题,消除信息孤岛进而实现通用性、鲁棒性更好的大数据智能决策,是目前大数据智能决策的一个关键性研究课题.

多源大数据之间的关系普遍为互补型或合作型,通过数据层面的融合决策不一定那么有效.目前在特征层实现异构数据的融合方法中,有很多基于DNN 的优秀成果.然而,基于DNN 的方法只克服了多样性中的数据类型多样,而对于分布、频率等多样性还无法应对.需要指出的是,任何决策都是有风险代价的,数据分析过程的可解释性对于决策者而言至关重要,然而可解释性却是DNN 的短板.基于粒计算的DNN 可解释性研究可望成为大数据智能分析的一个潜在研究方向.

通过语义层/决策层实现多源数据的综合利用是解决数据异质性较好的方法,可以有效避免各种异质性问题.在大数据环境下,分布式自治数据源是大数据应用的一大特点[16],去中心化将成为一大趋势.通过分布式知识获取与协同的方法可以有效实现多源异构数据的协同感知与交互.所谓协同,可解释为对不一致信息的冲突分析.研究基于粗糙集、模糊集和群体智能决策的冲突分析方法如何应用到大数据决策是未来的一个发展方向.

3.2 大数据动态性带来的挑战

日益加快的人、机、物之间的交互活动,使得数据的快速增长成为大数据显著特性之一.从决策需求的及时性和准确性来看,大数据的动态性对现有的增量式机器学习方法构成巨大的挑战.例如,在流式数据处理中,如何在发生概念漂移时及时调整数据分析策略并实现知识库的自适应更新,仍是一项挑战性的研究任务.

针对大数据动态增量问题,可以考虑形成一个训练学习、执行预测、漂移检测、漂移理解、漂移自适应的多步骤自适应学习模型.这类模型的重点和难点在于漂移理解与漂移自适应.在漂移理解方面可以融入高层次的、符合认知的方法,可以采用粗糙集、模糊集、商空间等粒计算方法建立不同粒度层次下的漂移认知模型,实现符合人类认知的层次化概念漂移理解.针对漂移自适应问题,可以通过构建有效的知识距离度量方法来度量概念漂移距离与方向,同时综合运用进化计算与神经网络等方法构建与问题相符的参数自适应模型,实现对学习模型的演化更新.

3.3 大数据极弱监督性带来的挑战

大数据的快速增长性也决定了大数据的极弱监督性甚至是非监督性.大数据分类学习中的极弱监督性带来的问题通常表现在两个方面:一是因标记稀缺而不能正确详尽地反映出整体数据集的特点,导致学到的学习器泛化能力弱.二是标记稀缺使得构造多分类器时多样性不足,导致集成学习不能奏效.大数据的极弱监督性决定了以聚类算法为特点的无监督学习方法在大数据增量问题上的研究具有巨大的决策应用价值.不过大数据的增量性不仅体现于数据样本的增加,还体现于属性的增加.针对大数据属性增量式聚类问题仍然缺乏有效的方法.

针对大数据的极弱监督性,可以充分利用多视角信息、相似领域信息、先验知识等,采用大数据耦合与关联分析、大数据与经验知识相融合等技术增加额外的监督信息.三支决策[134] 体现了一种渐进决策的思想.我们可以设计三支聚类模型逐步地、有效地利用少量标签信息或者领域专家知识.根据数据类型与问题求解需求,采用合适的粒计算方法构建多粒度聚类分析算法模型,也可望为大数据属性增量式聚类带来新的解决思路.

3.4 大数据不确定性带来的挑战

不确定性是当前人工智能技术研究中的关键问题,同时也是贯穿于大数据智能决策整个过程的核心问题.目前研究较多的就是获取大数据中的不确定性知识.然而不确定性的形式众多,难以用统一的形式化方法表达,也无法凭单一的技术手段来获取大数据中的不确定性知识.不确定性知识发现的研究难度大、价值高,一直是各领域知识发现研究所面临的核心困难问题.

要实现复杂数据中不确定性知识的高效获取,需要为描述不确定性概念知识提供合适的数学模型,建立不确定性知识空间中的计算模型,实现对不确定性知识空间的认知和理解,进而从数据中高效动态获取满足约束要求的知识.粒计算[135-136] 是一种基于认知科学的智能信息计算范式,它适用于近似求解具有不确定性和层次结构的问题,可以达到对问题的简化、提高问题求解效率等目的.从多粒度计算的角度来看,不确定性和确定性是信息在不同粒度层面上的不同表示形式,在某一层次上的不确定性问题可能是其他层次上的确定性问题[34].通过研究大数据在不同粒度层次上的粒度寻优与粒度切换方法可望实现对不确定性信息的有效处理.此外,粒计算往往从实际问题的需求出发,用可行的满意近似解替代精确解,提高问题求解效率.

3.5 大数据隐私问题带来的挑战

目前大数据隐私保护问题已经被广泛关注[16].诸如企业供应链数据、银行交易数据、患者医疗数据、导航用户轨迹数据等均构成了隐私保护的敏感信息范畴.大数据的应用过程中往往不可避免地触及到敏感数据的传输、交互与分析处理,特别是在跨平台、跨企业、跨领域数据的决策分析中,用户隐私数据暴露问题显得尤为突出.现阶段,由于缺乏有效的隐私保护手段,多数拥有数据的企业不愿或不能将数据公开,这在很大程度上放慢了大数据研究与应用的落地.目前,有关大数据应用中的隐私保护还没有标准化的处理手段,在技术层面和管理层面数据隐私都面临严峻的挑战.有学者提出通过制定数据访问与分享的隐私保护策略,比如设置一定的访问资格和权限,或采用匿名数据的方法[137].对于设置数据访问权限的方法,难点在于对安全认证和访问控制机制的设计以及对用户信用的把握; 而采用匿名数据的方法,将显著增加数据的不确定性,为数据分析带来更多困难[7,16].

隐私信息一般是以最细粒度原始数据的形式存在的[136].根据粒计算的观点,数据是知识在最细粒度上的表现,知识是数据在不同粒度层次上的抽象[138-139].面对复杂大数据,数据、信息、知识都可以被粒化,并映射到不同的粒度层次上.此时的计算单元从原有的最细粒度的“数据” 转变为具有认知特征的、规模较小的“知识粒”,经过粒化后的知识粒隐藏了细节信息,从而可以实现大数据隐私信息有效保护.

3.6 特例状况带来的挑战

众所周知,基于机器学习的大数据智能化分析处理方法本质上是建立在对大数据的统计分析基础之上的.在完全信息环境下,通过对大数据的智能化分析可以很好地预测、判断大数据已经覆盖的事物状态,但现实中的决策环境多是开放性的,事物的状态是千变万化的,因此即便是经过长期积累的大数据也无法保证信息的完全性.比如在航天领域中的故障、交通行业中的事故等多数都是特例.并且由于现实条件的约束人们往往无法通过反复试验的方法来获取覆盖各种特例的大数据进行学习预测,因此对特例状况的预测和判断是实际应用中的一大挑战.

对于特例状况的学习,有望借助平行系统和平行学习的方法进行解决.平行系统的概念是由中科院自动化所王飞跃研究员于2004 年提出[140],通过利用大型计算模拟、预测并诱发引导复杂系统现象,构建一种软件定义的人工系统[141].平行学习利用计算实验方法进行预测学习,通过人工系统,依据原始“小数据” 生成大量的人工合成数据.将人工合成数据与原始的小数据一起构成解决问题的所需的“大数据”,通过学习提取,得到应用于某些具体场景或任务的知识,进而用于平行控制和平行决策.平行系统和平行学习可以满足人们对特例状况模拟与预测学习的需求,在一定程度上可能会解决特例对大数据智能决策带来的挑战.

3.7 大数据认知困难带来的挑战

从本质上讲,决策活动是人类的一种认知活动,认知过程是所有决策过程的共性.现阶段的人工智能技术与机器学习方法对于大数据的处理以及知识的获取多数还处于对事物的感知层面,如特征提取,模式识别、预测、回归、聚类等,它们在实质上都是对事物的分类认知.然而分类仅是人类的一种低层次认知,其功能本质在于对事物的区分、辨别与归类.单纯依靠对事物的分类还不足以构成一项完整的决策.决策是任务和需求驱动的问题求解过程,需要决策者在的分类认知的基础之上,继续赋予研究对象以价值尺度认知或功能偏好认知,并最终做出选择的全过程.让机器拥有意识和理解能力才是人工智能最根本的目标,在这方面人工智能刚走出了决策认知的第一步(即分类认知),而偏好认知还多依赖于人的参与.在实际应用中,只有不断提高对大数据快速的、完整的认知能力,才能实现高效及时的大数据智能决策.

陈纯院士指出,当前大数据智能正从规则的学习推理方法,到数据驱动的知识挖掘方法,迈向数据驱动与知识引导的新时代.将数据驱动的机器学习方法与人类的常识先验与隐式直觉相结合,可以实现可解释、更鲁棒和更通用的人工智能[9].郑南宁院士指出,由于人类生活环境的高度不确定性和脆弱性以及面临问题的开放性,任何智能程度的机器都无法完全取代人类,因此有必要将人类的认知能力或类人认知模型引入人工智能系统,形成混合增强智能形态[142].张钹院士指出,人类在问题求解中具有天生的知识驱动能力、对不确定性问题的处理优势和对全局整体的感知能力; 传统机器学习具有在数据分析处理中的数据驱动能力、高速计算能力,二者结合是未来信息处理的发展趋势[143].因此,人机结合的智能形态有望构造出更加有效的认知计算方法.在今后的大数据智能决策的应用与研究中,人机结合的增强智能有望实现对大数据更加有效的处理,并创造出更好的结果.

4 结束语

在全球信息化快速发展的背景下,大数据以其蕴含的巨大价值正受到社会各界的广泛关注.发展基于大数据的人工智能新技术,实现基于大数据的智能决策是推动发展智能经济、智能服务、智能制造的关键手段.现阶段,智能决策理论方法在大数据驱动的模式下快速发展,并逐渐形成一系列围绕多源异构大数据智能化处理的新方法和新趋势.为了深入了解大数据智能决策的发展现状,文章对大数据的特性以及大数据决策的特点进行了归纳总结,并着重从智能决策支持系统的发展、不确定性信息处理、信息融合、关联分析以及增量分析五个方面综述了当前大数据智能决策的发展现状.最后文章讨论了大数据智能决策仍然面临的问题与挑战,展望了一些潜在的方法及研究方向.作为一门快速发展的开放性学科领域,大数据智能决策在内涵外延、模型理论、技术方法及实施策略等方面还需要人们继续投入更多的研究与实践.希望本文对大数据智能决策的相关介绍与探讨能够对读者提供有益的借鉴和帮助.

我们的服务类型

公开课程

人工智能、大数据、嵌入式

内训课程

普通内训、定制内训

项目咨询

技术路线设计、算法设计与实现（图像处理、自然语言处理、语音识别）

关注微信公众号：人工智能技术与咨询。了解更多咨询！

你可能感兴趣的:(big,data,人工智能,大数据)

WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
使用datepicker和uploadify的冲突解决（IE双击才能打开附件上传对话框） zhanglb12
在开发的过程当中，IE的兼容无疑是我们的一块绊脚石，在我们使用的如期的datepicker插件和使用上传附件的uploadify插件的时候，两者就产生冲突，只要点击过时间的插件，uploadify上传框要双才能打开ie浏览器提示错误Missinginstancedataforthisdatepicker解决方案//if(.browser.msie&&'9.0'===.browser.version
golang获取用户输入的几种方式余生逆风飞翔 golang 开发语言后端
一、定义结构体typeUserInfostruct{Namestring`json:"name"`Ageint`json:"age"`Addstring`json:"add"`}typeReturnDatastruct{Messagestring`json:"message"`Statusstring`json:"status"`DataUserInfo`json:"data"`}二、get请求的
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【Java】已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException 屿小夏 java 开发语言
文章目录一、分析问题背景问题背景描述出现问题的场景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException在使用Spring框架进行开发时，数据源的配置和使用是非常关键的一环。然而，有时候我们可能会遇到org.springframewo
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt