商务智能(Business Intelligence,简称BI)是一种基于数据分析的决策支持系统,旨在帮助企业或组织更好地理解和利用自身数据,发现其中的模式和趋势,并提供基于数据的洞察和决策。商务智能主要研究如何从大量数据中挖掘知识和价值,以帮助企业做出更明智、更有效的决策。
商务智能的研究方法主要包括数据挖掘、机器学习、统计分析等。这些方法通过对数据进行分类、回归、聚类、关联规则挖掘等技术处理,让企业或组织能够更好地理解和利用自身数据。此外,商务智能也需要依托于数据库、数据仓库等技术工具。
从素质上来说,商务智能研究人员需要具备较强的数据分析能力、逻辑思考能力、沟通协调能力,以及对商业运作和管理规律的敏锐洞察力。同时,还需要具备良好的编程能力,熟悉数据挖掘和机器学习算法,以及了解数据库、数据仓库等技术工具的使用和管理。
社会计算(Social Computing)是一种涉及到人类社会互动和通讯的计算机科学。其主要研究社交网络、社区发展、信息传播等方面的问题,旨在探究数字化时代下人与人之间的交互和影响。
社会计算的研究方法主要包括数据挖掘、机器学习、统计分析、网络分析、自然语言处理等。这些方法可以帮助研究者从海量的社交网络数据中提取有用的信息和知识,如发现社交网络中的领袖、群体结构、话题演化等。同时,社会计算也需要借助于社交网络平台、在线社区等技术工具。
社会计算研究人员需要具备较强的计算机科学、数学和统计学知识,熟悉数据挖掘和机器学习等算法,同时也需要具备对社会科学领域和现代社会的深刻理解。此外,社会计算研究人员还需要具备良好的沟通协调能力和跨学科合作能力,以便能够在不同领域的专家之间进行交流和合作。
文献来源:[1]熊志正,官思发,朝乐门.计算机辅助信息分析的技术框架及其发展趋势[J].图书情报工作,2015,59(03):19-25.DOI:10.13266/j.issn.0252-3116.2015.03.003.
资源获取链接:https://pan.baidu.com/s/1YfuLMuD1G4AgTIwJFjy6WQ
提取码:9pi0
信息分析是一种人机合作的协同处理过程。从分析任务和过程看,人类不仅利用自身的逻辑推理能力,而且通过设计和使用计算机来弥补自身的不足。因此,计算机辅助信息分析逐渐产生并快速发展。在一定程度上,人和计算机通过密切合作和精细化地分工,各自对其所擅长的领域和任务进行分析处理,如人类发挥其逻辑思维和主观能动性,对难于通过计算机程序化处理的任务进行合理的资源分配,完成必须由人而无法由计算机完成的分析任务; 而计算机可以对海量的结构化、程序化或重复性的问题进行计算处理。通过对分析人员和分析工具进行合理部署,可充分发挥人和机器在信息分析中的最大效用。
依据信息分析中计算机技术所处的应用层次,可以将信息分析技术的发展历程分为4个主要阶段:
随着信息分析过程中需要处理的数据量以及所分析任务的复杂度的增加,信息分析所涉及的数据规模和任务复杂度已经超出了人类的能力范围,计算机技术在信息分析中的重要地位越来越凸显。人们必须借助机器的存储、计算、挖掘能力,进一步完善其自学习和自适应能力。
计算机技术的快速发展,为计算机辅助信息分析提供了技术上的支持,大幅提高了信息分析工作的效率和水平。 信息化社会,计算机辅助信息分析主要表现为利用各种计算机平台或工具对所需处理的各个领域的信息进行加工处理,其得到了前所未有的普及和发展。总的来看,随着大数据时代的来临,计算机辅助信息分析的相关内容得到了空前的重视和发展,云计算、移动计算、社会计算和社会网络分析等相关领域已经有不少成果,但专门针对计算机辅助信息分析的研究还较少,需要构建顶层架构体系,对其当前和今后一段时间的发展趋势和技术框架体系进行搭建和规划,从而更好地引导计算机辅助信息分析的发展。
上图给出了计算机辅助信息分析的主要技术框架。文件系统是基于操作系统、将数据存放在存储设备上的管理软件,数据库中数据的组织和存储是通过文件系统管理来实现的。数据库和数据仓库是计算机辅助信息分析中常用的数据管理工具。数据库的结构适合于处理联机交易产生的直接业务数据,称为联机事务处理( on-line transaction processing,OLTP) 。在此之上分类、汇总数据,形成关键指标仪表盘,建立决策支持系统( decision support system,DSS) ; 数据仓库以分析主题为核心,从关联的数据源( 数据库、文件) ,经过抽取、清洗、转换、汇聚环节,将数据形成分析主题相关的报表、图形,称为联机分析处理 ( on-line analyticalprocessing,OLAP) 。在此之上按主题展现分析结论,实现商务智能分析( business intelligence,BI) 。商务智能通过收集数据、整理数据和分析数据,将数据转化为围绕主题的信息,它跨越数据仓库理念、数据挖掘技术、联机分析处理的三大关键领域。这些计算机技术是逐步发展的,已成功运用在信息分析领域。近些年,大数据分析成为计算机辅助信息分析的新兴技术之一。
传统、成熟的数据管理手段主要用于事务处理,数据仓库技术是为构建分析处理环境而出现的数据存储和组织技术,由早期以单一数据库为中心的数据环境发展成为体系化的数据处理环境,数据存储的核心系统具体由各种面向应用的数据库及各种面向分析的数据仓库共同构成。随着数据环境的改变,分布式数据库、并行数据库、MapReduce编程模型以及No SQL数据库也得到了快速发展和应用,丰富了数据库和数据仓库的实践内容。对应于数据库和数据仓库处理技术的实际需要,OLTP对数据库进行操作,OLAP进行数据仓库中数据的分析挖掘,通过数据挖掘和知识发现技术,对数据进行深度分析,实现商务智能和决策支持的目标。而信息技术的变革与具体技术的革新,只是对信息分析的具体技术带来更替,不会根本改变计算机辅助信息分析的技术框架。因此,计算机辅助信息分析技术框架对信息分析的主要内容进行了顶层设计与宏观架构,这也是本框架的价值所在。
OLAP是由关系型数据库之父E. F. Codd于1993年提出的,它用于满足用户对复杂查询的快速响应需求,提供直观的数据操作界面,后台使用特有的数据综合引擎,是决策支持系统的关键技术,面向验证性领域应用的信息分析。
OLAP基于3种不同的技术,分为3种实现方式:ROLAP技术是基于关系型数据库的实现,MOLAP技术是基于多维数据库的实现,HOLAP技术是基于关系型数据库与多维数据库的混合实现。
目前,可用于联机在线分析处理的工具有很多,传统关系型数据库厂家提供的有: Oracle公司的Express、Hyperion Essbase、Brio; IBM公司的DB2 OLAP Server、Cognos、Informix Metacube; Microsoft公司的Plato; 在数据仓库领域享有盛名的SAP公司的Sybase Power di-mension、Business Object; 专注于BI领域的Micro Strate-gy公司以及Teradata公司的相应工具等。
“数据挖掘( data mining,DM) ”中的“数据”是为实现挖掘的“目的”而被挖掘的“对象”。数据挖掘的目的“并不是挖掘出数据”,而是“从数据中挖掘出隐含的信息、知识、模式和规律”。数据挖掘的定义方法有很多种,但是其内涵是一致的,即从大量数据中抽取和发现有意义的规律和模式。来源于数据库的知识发现( knowledge discovery in databases,KDD) 从海量的基础数据中总结、提炼出上层的知识,它根据不同的需求从各种信息中获得知识。信息分析人员通过KDD可以屏蔽或筛选原始数据的细节,从而汇聚、提升出简洁而富有意义的知识。
数据挖掘理论目前主要涉及多个学科领域: 数据库技术、人工智能、机器学习、统计学、系统论、可视化技术、模式识别等,是一门综合性较强的新兴学科。随着数据挖掘理论与实践的不断深入,其所涉及的学科领域可能不断增多。常用的数据挖掘方法有:
( 1) 按照数据集分类: 关系型数据挖掘、面向对象数据挖掘、多媒体数据挖掘和事务型数据挖掘等。
( 2) 按照所采用的技术和方法分类: 统计分析类数据挖掘、机器学习类数据挖掘、发现驱动式数据挖掘、交互式数据挖掘等。
( 3) 按照挖掘规则和目的分类: 关联规则挖掘、分类规则挖掘、聚类规则挖掘、特征规则挖掘和孤立点挖掘等。
( 4) 按照应用领域分类: 通信领域的数据挖掘、金融领域的数据挖掘、零售领域的数据挖掘、互联网领域的数据挖掘等。
目前,常用于数 据挖掘的 工具有IBM公司的SPSS、DB2 Intelligent Miner,SAS公司的Enterprise Min-er,Oracle公司的Data Mining,Microsoft公司的SQLServer Data Mining,Angoss公司的Knowledge Studio,以及DBMiner和Weka等。随着数据挖掘与知识发现领域技术的不断成熟,其应用与日俱增。空间数据挖掘成为新的研究方向和应用领域,而伴随着大数据的发展,Wang Shuliang和Yuan Hanning将二者进行关联,提出空间数据挖掘是大数据的一个新的研究视角,认为基于空间大数据的知识发现就是将基本技术应用于实现大数据的价值,并对数据集进行重置。在科学研究方面,而随着开放的网络环境成为科学研究的主流,加速了知识发现和交流的过程,科学知识发现的这一转变必然要求科学家之间进行知识协同,也使得科学知识发现的本质正在发生改变。
社会网络分析中的“社会网络”是指社会行动成员及成员间 关系的集 合,可分为个 体网 ( ego net-works) 、部分网 ( partial network ) 、整体网 ( whole net-work) 3种。社会网络分析形成了一整套的规范和方法[18],用于分析社会关系结构及其属性。虽然此类信息分析技术最初出现在社会关系结构的分析之中,但是目前已经发展成为分析社会、行为、经济、营销、市场、通讯等不同领域数据集的重要工具。通过社会网络分析,不仅可以发现目标数据集的整体结构特征,而且还可以分析特定观测变量在整个数据集中的角色和位置以及数据变量之间的内在联系。
在国外,社会网络分析应用主要集中在合著网络分析、引文网络分析上,并侧重实例研究; 在国内,社会网络分析还应用于竞争情报分析领域,以及如何应用社会网络理论和社会网络分析法共同促进组织中的知识共享,尤其是隐性知识的共享更多地偏重于理论研究[19]。当前经常使用的社会网络分析工具软件有Pa-jek、Net Miner、和UCINET。
大数据的规模性、多样性、高速性和价值性等基本特征要求其分析技术必须进行优化和不断创新。文本挖掘和机器学习是一般信息分析中常用的两种技术。文本挖掘主要研究以文本形态存储的数据,如电子邮件、网页、系统日志、微博、论坛信息等。机器学习是指通过训练数据,学习算法,从不确定的数据中找到人们尚不知道的信息,如语音识别、字符识别、市场分析等。但是,目前的文本挖掘和机器学习技术无法适应大数据时代信息分析带来的挑战。
在大数据环境下,信息分析的方法优化与创新主要涉及3个重要问题: 一是算法本身的优化与创新。数据挖掘中常用的算法无法支持大数据分析任务,需要对已有算法进行优化或提出新的算法。二是算法部署方法的创新与运行环境的优化。大数据环境下的信息分析将在云计算平台上进行,从而实现运行环境的优化。三是数据质量的控制与数据溯源。为确保分析结果的知识含量和高价值性,必须严格检验数据的含金量和有效性。因此,大数据分析应具备一定的质量控制和数据溯源能力。
通过计算机辅助信息分析在人类社会中的应用,基于计算分析的创新不断涌现,基于大数据分析的计算机辅助创新系统成为待解决的一大科学问题。任工昌、李平平和鲁麒等人通过从专利及各个学科的科技文献资料中获取深度知识进行知识库扩充和更新方法的研究,构建了CAI深度知识数据库的扩充功能和相应的运用机制。
在大数据和云计算相关技术日益成熟的情况下,计算机辅助信息分析将在本文构建的技术框架下,借助新兴的技术手段更快更准地开展信息分析工作,极大地提高信息分析的质量和效率,助推信息分析在大数据时代向前发展。