这是我的博士研究课题,其实研究内容和方向我是有概念的,但是总找不到合适的术语。
数据集成已经发展很久了,虽然仍然有很多值得研究的问题。但是百度上都是应用步骤,应用方法,甚至有阿里、微软的广告
定义:数据集成是要将互相关联的分布式异构数据源集成到一起, 使用户能够以透明的方式访问这些数据源。
集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;
透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。
数据集成难点:
( 1 ) 异构性: 被集成的数据源通常是独立开发的, 数据模型异构, 给集成带来很大困难。这些异构性主要表现在: 数据语义、相同语义数据的表达形式、数据源的使用环境等。
( 2 ) 分布性: 数据源是异地分布的, 依赖网络传输数据, 这就存在网络传输的性能和安全性等问题。
( 3 ) 自治性: 各个数据源有很强的自治性, 它们可以在不通知集成系统的前提下改变自身的结构和数据, 给数据集成系统的鲁棒性提出挑战。
---------------------
作者:raymond_lan
来源:CSDN
原文:https://blog.csdn.net/raymond_lan/article/details/80302870
版权声明:本文为博主原创文章,转载请附上博文链接!
在数据预处理的过程当中往往需要将多个数据集合中的数据整合到一个数据仓库中,即:需要对数据库进行集成。与此同时,为了更好地对数据仓库中的数据进行挖掘,对数据仓库中的数据进行变换也在所难免。本文主要针对数据集成以及数据变化两个问题展开论述。
数据集成在将多个数据库整合为一个数据库过程中存在需要着重解决三个问题:模式匹配、数据冗余以及数据值冲突。来自多个数据集合的数据由于在命名上存在差异导致等价的实体具有不同的名称,这给数据集成带来了挑战。怎样才能更好地对来源不同的多个实体进行匹配是摆在数据集成面前的第一个问题,涉及到实体识别问题,主要利用元数据来进行区分。
数据冗余可能来源于数据属性命名的不一致,在解决数据冗余的过程中对于数值属性可以利用皮尔逊积矩Ra,b来衡量,它是一个位于[-1,1]之间的数值,大于零那么属性之间呈现正相关,否则为反相关。绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。
在数据集成中最后一个重要问题便是数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。
数据整合是共享或者合并来自于两个或者更多应用的数据,创建一个具有更多功能的企业应用的过程。传统的商业应用有很强的面向对象性——即他们依靠持续的数据结构为商业实体和过程建模。当这种情况发生时,逻辑方式是通过数据共享或合并进行整合,而其他情况下,来自于一个应用的数据可能是重新构造才能和另一个应用的数据结构匹配,然后被直接写进另一个数据库。 [2]
我国信息化经过多年的发展 [4] ,已开发了众多计算机信息系统和数据库系统,并积累了大量的基础数据。然而,丰富的数据资源由于建设时期不同,开发部门不同、使用设备不同、技术发展阶段不同和能力水平的不同等,数据存储管理极为分散,造成了过量的数据冗余和数据不一致性,使得数据资源难于查询访问,管理层无法获得有效的决策数据支持。往往管理者要了解所管辖不同部门的信息,需要进入众多不同的系统,而且数据不能直接比较分析。
一些信息系统集成度低、互联性差、信息管理分散,数据的完整性、准确性、及时性等方面存在较大差距 [1] 。有些单位已经建立了内部网和互联网,但多年来分散开发或引进的信息系统,对于大量的数据不能提供一个统一的数据接口,不能采用一种通用的标准和规范,无法获得共享通用的数据源,于是不同的应用系统之间必然会形成彼此隔离的信息孤岛。缺乏共享的、网络化的可用度高的信息资源体系。
同时,随着计算机业务数量的增加,管理人员的操作也越来越多,越来越复杂 [4] ,许多日趋复杂的中间业务处理环节依然或多或少地依靠手工处理进行流转;信息加工分析手段差,无法直接从各级各类业务信息系统采集数据并加以综合利用,无法对外部信息进行及时、准确的收集反馈,业务系统产生的大量数据无法提炼升华为有用的信息,并及时提供给管理决策部门;已有的业务信息系统平台及开发工具互不兼容,无法在大范围内应用等。
数据的共享度达不到单位对信息资源的整体开发利用的要求。简单的应用多,交叉重复也多,能支持管理和决策的应用少,能利用网络开展经营活动的应用更少。数据中蕴藏着巨大信息资源,但是没有通过有效工具充分挖掘利用,信息资源的增值作用还没有在管理决策过程中充分发挥。
二、 为什么需要数据融合?
其中最重要原因是用户数据的割裂性,无法全面勾勒用户全貌。比如你的购物数据在京东天猫、通话数据在移动电信、交易数据在银行金融、社交数据在腾讯微信、搜索数据在百度等等。
数据的割裂性导致对用户的认识比较片面,可能做出错误的决策。比如:现在京东与头条的“京条计划”就是数据合作的一个案例,就是你在京东搜索的物品,会不定时在浏览今日头条中呈现,增加购买率。这里有个缺陷是如果已经在淘宝购买的物品,但还是会出现页面,导致用户体验感知下降。
数据融合的另一个价值就是新规律新价值的发现。比如以前用户信用主要基于是否有历史借贷违约,但很多人无借贷关系数据,如何评定。芝麻信用就创新的融合上网数据、身份特征、行为偏好、社交关系等生活属性数据,来侧面刻画用户的信用。这就是数据融合价值。
不同行业数据的融合,具有互补性和完整性,将有效提升数据内涵价值。
引用:https://baijiahao.baidu.com/s?id=1569437547573684&wfr=spider&for=pc
数据融合技术,包括对各种信息源给出的有用信息的采集、传输、综合、过滤、相关及合成,以便辅助人们进行态势/环境判定、规划、探测、验证、诊断。这对战场上及时准确地获取各种有用的信息,对战场情况和威胁及其重要程度进行适时的完整评价,实施战术、战略辅助决策与对作战部队的指挥控制,是极其重要的。未来战场瞬息万变,且影响决策的因素更多更复杂,要求指挥员在最短的时间内,对战场态势作出最准确的判断,对作战部队实施最有效的指挥控制。而这一系列“最”的实现,必须有最先进的数据处理技术做基本保证。否则再高明的军事领导人和指挥官也会被浩如烟海的数据所淹没,或导致判断失误,或延误决策丧失战机而造成灾难性后果。
它是直接在采集到的原始数据层上进行的融合,在各种传感器的原始测报未经预处理之前就进行数据的综合与分析。数据层融合一般采用集中式融合体系进行融合处理过程。这是低层次的融合,如成像传感器中通过对包含若一像素的模糊图像进行图像处理来确认目标属性的过程就属于数据层融合。
特征层融合属于中间层次的融合,它先对来自传感器的原始信息进行特征提取(特征可以是目标的边缘、方向、速度等),然后对特征信息进行综合分析和处理。特征层融合的优点在于实现了可观的信息压缩,有利于实时处理,并且由于所提取的特征直接与决策分析有关,因而融合结果能最大限度的给出决策分析所需要的特征信息。特征层融合一般采用分布式或集中式的融合体系。特征层融合可分为两大类:一类是目标状态融合;另一类是目标特性融合。
决策层融合通过不同类型的传感器观测同一个目标,每个传感器在本地完成基本的处理,其中包括预处理、特征抽取、识别或判决,以建立对所观察目标的初步结论。然后通过关联处理进行决策层融合判决,最终获得联合推断结果。
数据融合概念来源于军事领域,目前是传感器数据融合应用最多。但是我想做的并不是这个。
而且百度出来的内容都是偏应用方向,对于科学研究这个方向是不能靠百度来帮忙了,反正博士学习和硕士学习也不一样,还是靠自己.
堆砌了概念之后,最后说说我要研究的,应该是在数据集成基础上深入的数据融合,以提升数据价值为目的,以社交网络或管理数据等静态数据为处理对象,主要解决数据异构、数据映射、实体识别、特征识别、可信度判断等问题。
先拼凑这些吧,我得赶紧把博士入学考试准备下。