初识大数据

初识大数据

  • 摘要
  • 写在前面
    • 书本导读
    • 聊聊
  • 0.序
  • 1.绪论
    • 1.1大数据
    • 1.2大数据分析
  • 2.大数据分析模型
    • 2.1大数据分析模型的建立方法
    • 2.2基本统计量
    • 2.3推断统计
  • 3.关联分析模型
    • 3.1回归分析
    • 3.2关联规则分析
    • 3.3相关分析
  • 4.分类分析模型
    • 4.1判别分析
    • 4.2基于机器学习的分类模型
  • 5.聚类分析模型
  • 6.结构分析模型
  • 7.文本分析模型
  • 8.大数据分析的数据预处理
  • 9.降维
    • 9.1特征工程
    • 9.2降维算法
  • 10.面向大数据的数据仓库
    • 10.1概述
    • 10.2分布式数据仓库系统
    • 10.3内存数据仓库系统
  • 11.大数据分析算法
  • 12.大数据计算平台
  • 13.流式计算平台
  • 14.大图计算平台
  • 15.社交网络
  • 16.推荐系统
    • 16.1概述
    • 16.2一些推荐算法

摘要

本篇博客参考哈尔滨工程大学王宏志老师于2017年出版的《大数据分析原理与实践》一书,对大数据的概念进行简略地总结。

由于阅读该书的目的仅是快速了解大数据所涉及的理论和技术,再加之其中包含的许多原理已在先前学习的机器学习、数据库、数理统计等科目中熟悉,因而未作详细记录,仅用4天完成。

写在前面

书本导读

《大数据分析原理与实践》一书从大数据分析的概述、模型、分析过程与技术、算法、平台、应用多维度地对大数据分析进行了全面、基础、理论实践并行的介绍,这几个维度也为深入研究大数据提供了指引和入口,是入门大数据的绝佳教材。

该书是教育部与阿里云产学结合的产物之一,书中的分析示例均通过阿里云的大数据分析平台,商业气息十分浓重。

初识大数据_第1张图片

聊聊

大数据的概念在早年IT行业、信息数字化上升的初期被提出,并随着行业的繁荣发展得到了同样的热度,成为家喻户晓的名词。大数据客观上见证了IT行业和数字化的繁荣,主观上更多受到了媒体和工学业界的鼓吹,近两年也逐渐随着IT行业的凛冬而逐渐淡化。

从个人观点来看,大数据涵盖的思想并不新颖,无论从理论上“含有较多人工干预的传统数据分析”、“融入更多自动化的机器学习”,到技术上“数据库技术的发展应用”、“行业垄断带来的软硬件资源集约造成的云计算”、“数字化、信息化规模扩大带来的分布式、大规模数据”,以及“围绕着垄断行业和电商、中介平台行业带来的如推荐系统、关系推理等应用”。

实际上,大数据更多地是IT垄断企业为了搏得更多政府支持、公众眼球,统计应用学者跟逐时代浪潮进行转型发展的一次契机。当然,大数据客观上也带来了一些新的技术、产业增长点和应用。

这里给出阮一峰244期的科技爱好者周刊,表达了他对大数据的一些观点。

0.序

1)阿里云总裁——胡晓明序

从IT领域讲,第四次科技革命的主角是IT技术,主要包括:云计算、大数据、人工智能、物联网。
①云计算特别是公有云作为基础设施,作为这场科技革命的承载平台,将全面支撑各类新技术、新应用。
②云计算相比于传统IT计算资源具有:硬件集约化、人才集约化、安全集约化、服务普惠化四个优点。
③云计算是“数据在线”的主要承载,“在线”是当前时代最重要的本能,它让互联网变成了最具渗透力的基础设施,数据变成了最具共享性的生产资料,计算变成了随时随地的公共服务。
④云计算不仅承载数据本身,同时也承载数据应用所需的计算资源。云计算是“智能”与“智慧”的重要支撑。
⑤智慧的两大支撑是网络(负责收集与共享数据)与大数据(“原材料”是各类智慧应用的基础),云计算是支撑网络和大数据的平台。
⑥云计算是企业享受平等IT应用与创新环境的有力保障,打破了小微企业和创业企业面临的IT技术和IT技术成本方面的壁垒,方便企业更加聚焦于擅长的领域进行创新。
⑦除了发挥基础设施平台的支撑作用,2.0时代的云计算将影响产业从量变到质变,云计算将重塑整个ICT生态,向下定义数据中心、IT设备,向上定义软件与应用,横向承载数据与安全,纵向支撑人工智能技术的演进与创新。

从国家层面讲,发展云计算产业的战略意义重大:
①云计算不仅是“IT基础设施”,还应像电网、移动通信网、互联网和交通网一样,成为“国家基础设施”,全面服务国家多项重大战略的实施与落地。
②云计算是网络强国建设的重要基石,发展云计算产业有利于我国实现IT全产业链的自主可控,提高信息安全保障水平,并推动大数据和人工智能的发展。
③云计算是提升国家治理能力的重要工具,助力于大数据、人工智能、物联网等技术应用到智慧城市、智慧政务等建设中,助于提高国家及各城市的治理水平和服务能力。
④云计算将全面推动国家产业转型升级,支持“中国制造2025”、“互联网+”,推动“两创”深度融合,为创新创业提供优质土壤。
⑤在DT时代,计算及计算能力是衡量一个国家科技实力和创新能力的重要指标,只有掌握计算能力,才具备全面支撑创新的基础,才有能力挖掘数据的价值,才能在重塑ICT生态过程中掌握主导权。
⑥云计算将成为接下来几年全球科技和产业竞争的焦点,我国云计算产业目前具备和发达国家抗衡的能力,我们对数据的认知、驾驭能力和对资源、人力的利用开发也与发达国家等同,因而正处于一个“黄金窗口期”。

人才是支撑技术进步和产业发展的最主要力量,未来世界各国在IT领域的竞争在某种程度上会转变为人才之争,加强专业人才培养是推动云计算、大数据产业发展的重要抓手。

2)作者序

对“大数据分析”的解读:①分析:可看作统计分析的延申;②数据:可看作数据管理与挖掘的扩展;③大:数据密集高性能计算的具体化

所需知识:①分析:统计学、数据分析、机器学习;②处理:数据库、数据挖掘;③计算平台:并行系统、并行计算

涉及内容:①模型:大数据分析模型的描述方法,不考虑实现下针对应用需求建立大数据分析模型,可用R语言、阿里云可视化工具描述;②技术:解决大数据分析的效率和可扩展性;③实现平台;④应用

未涉及内容:①数据流分析算法;②神经网络/深度学习;③大数据可视化;④大图分析算法;⑤医疗、社会安全、教育、工业领域应用

阅读人员:数据科学家;大数据算法研究、开发人员;大数据系统工程师

其他推荐书目:《大数据算法》、《复杂数据统计分析方法》、《多元统计分析导论》、《模式分类》

大数据分析平台:阿里云大数据开发治理平台DataWorks

1.绪论

1.1大数据

1)大数据时代(大数据的起源与背景)

起源:08年《Nature》杂志刊登的"Big Data"专题,11年《Science》杂志刊登了"Dealing with Data"

背景:①由(移动)互联网的发展,带来社会的信息化,信息量激增;②数据作为一种生产资料具有高可挖掘价值,对于海量数据的分析和开发受到国家级重视

2)大数据的定义

①wiki:大数据是指无法在可承受的时间范围内用常规工具进行捕捉、管理和处理的数据集合
②《大数据时代》:大数据是指不用随机分析法(抽样调查)这样的捷径,采用全量数据进行分析处理
③大数据研究机构“Gartner”:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

3)大数据的特点(4V)

①Volume:规模大,数据的存储和计算都需要耗费海量规模的资源。数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据的分析结果也具有代表性,这两者难以用线性进行表达
②Velocity:高速性,数据增长速度快,需要及时处理,让对数据分析处理的速度跟上数据产生和失效的时间
③Variety:多样性,数据来源多样(网络、企事业单位、政府、媒体);形式多样,多为非结构化或多模态的半结构化数据(位置、图片、音频、视频)
④Value:高价值,大数据的价值总量大,但价值稀疏,即知识密度低。不同数据集的知识密度不同,大多数据是重复的,忽略部分数据对整体的分析和处理结果几乎没有影响

大数据不仅是一种资源,还作为一种思维方法,伴随大数据产生的数据密集型科学,有学者称为第四种科学模式,其特点在于:①不在于数据的杂乱,但强调数据的规模;②不要求数据的精准,但看重其代表性;③不刻意追求因果关系,但重视规律总结;这一思维成为复杂现象中透视本质的重要工具

1.2大数据分析

大数据分析是大数据到信息,再到知识的关键步骤

1)数据分析的定义:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析、提取有用信息、形成结论的详细研究和概括总结的过程

2)数据分析的层次

①描述分析:探索历史数据并描述发生了什么(对历史数据的总结),如聚类、相关规则挖掘、模式发现和描述数据规律的可视化分析
②预测分析:预测未来的概率和趋势,如逻辑回归、基于分类器的预测
③规范分析:根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议,如基于模拟的复杂系统分析和基于给定约束的优化解生成

3)大数据分析的过程

①业务理解:理解项目目标和业务需求,将业务知识转化为数据分析问题的定义和实现目标的初步计划上(需求分析)
②数据理解:从初始数据的收集开始经过一些处理,熟悉数据、识别数据的质量问题、首次发现数据的内部属性、探测引起兴趣的子集去形成隐含信息的假设(在正式进行数据清洗、建立数据模型、开发部署之前进行一些尝试,以理解数据,便于采用合适的方法分析处理)
③数据准备:从未处理数据中构造最终数据集的所有活动,准备后的数据是模型的输入值,包括数据结构选择与转换、数据清洗
④建模:模型选择与调参
⑤评估:评估模型的质量和项目目标需求是否完成
⑥部署:将数据中的知识以便于用户使用的方式重新组织和展现,如产生简单的报告等

4)大数据分析涉及的技术

①数据采集:利用数据库接收终端数据,该步骤的主要挑战是高并发,ETL工具负责将分布式的,异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后导入到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础

②数据管理:使大数据“存得下,查的出”,关键是数据的组织,NoSQL(键值对、文档型、图数据库)NewSQL(可扩展高性能还满足ACID)

③基础架构:高性能的计算架构和存储系统,如用于分布式计算的MapReduce计算框架、Spark计算框架,用于大规模数据协同工作的分布式文件存储HDFS等

④数据理解和提取:从结果、语义多样的数据中提取出可以直接进行分析、处理的数据,包括NLP、信息抽取(将非结构化数据进行结构化处理)

⑤统计分析:运用统计方法和分析对象的有关知识,从定量和定性结合上进行的研究活动,是继统计设计、统计调查、统计整理后的工作,如假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步分析、回归预测与残差分析、岭回归、逻辑回归、曲线估计、因子分析、聚类分析、PCA、快速聚类分析与聚类法、判别分析、对应分析、多元对应分析(最有尺度分析)、bootstrap技术等,常用的工具有R语言、SPSS等

⑥数据挖掘:通过算法搜索海量数据中隐藏信息的过程,包括分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘。相比于统计分析,数据挖掘一般没有事先预定好的主题,而是基于现有数据进行各种计算,以达到预测的效果,实现一些高级别的数据分析需求。

⑦数据可视化:关于数据视觉表示形式的科学技术研究,将数据表示成人能够直接读取的形式,根据可视化的原理可分为:基于几何的技术、基于像素的技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术,根据数据类型可分为:文本可视化、图可视化、时空数据可视化、多维数据可视化,其工具包括:报表类工具、BI分析工具和专用的可视化工具

5)大数据分析的难点

①可扩展性:使得分析算法能够适应大规模数据,在大规模数据上能够在时间约束内得到结果
②可用性:分析结果高质量;分析结果适用于实际的需求
③领域知识结合:需要与领域紧密结合
④结果的检验:分析结果需要一定检验

2.大数据分析模型

尽管大数据分析的方法林林总总,但面对具体的应用,大数据分析非常依赖于想象力,即分析的目标(通过分析从大数据中发现什么知识、得到什么规律,进而产生什么样的价值)

1)何为大数据分析模型:大数据分析模型用于描述数据之间的关系,讨论要从大数据中发现什么

2)大数据分析模型的分类:①按数据类型:面向结构化多维数据的多元分析、图分析、非结构化的文本分析;②按输入与输出的关系:回归、分类、聚类、关联性分析;③按输入的特征:监督学习、无监督学习、半监督学习

面向具体应用的大数据分析模型往往是分析方法、模型的扩展或叠加

大数据分析与统计分析、机器学习、数据挖掘、数据仓库等学科都存在关系,因而有学者建议使用数据科学来覆盖整个领域

2.1大数据分析模型的建立方法

1)传统数据建模方法与大数据建模方法的比较

首先以大数据分析为结点,将数据分析方法分为传统建模方法大数据建模方法,这两者的异同自大数据分析的概念提出开始就争辩不休

①传统分析是”因果分析“,大数据分析是”关联分析“
②传统分析是”假设→检验“形式的分析,大数据分析是”探索→关联“形式的分析
③大数据分析并无新颖之处,只是将传统分析方法扩展到了更大规模的数据上,需要的只是一些大规模数据处理技术而不是更新的建模方法
④作者观点:两者并非割裂或对立,无需可以区别,应该重于应用

2)大数据分析模型的建立方法

业务调研 → 准备数据 → 浏览数据 → 变量选择 → 定义(发现)模型的模式 → 计算模型参数(调参) → 分析模型的解释和评估

2.2基本统计量

基本统计量:通过对数据进行基本的统计计算得到的统计量,简单但有效

1)全表统计量
①反应数据集中趋势:均值:受极端值影响大;中位数:不能充分利用所有数据信息;众数:当各个数据的重复次数相当时失效
②反应数据的波动大小:极差:不能充分利用全部数据;方差(标准差):计算繁琐,单位与原数据单位不一致

2)相关系数
相关系数:用于衡量变量之间关联关系的统计量

①皮尔森相关系数: ρ X , Y = c o n v ( X , Y ) σ X × σ Y ∈ [ − 1 , 1 ] ρ_{X,Y} = \frac {conv(X,Y)} {σ_X × σ_Y} ∈ [-1,1] ρX,Y=σX×σYconv(X,Y)[1,1] ,两变量协方差与标准差的商,0表示两变量无关,正表示正相关,负表示负相关,绝对值越大关联性越强

2.3推断统计

推断统计:研究如何利用样本数据来推断总体特征的统计方法

1)参数估计
利用样本推断总体特征,实际问题中所研究的总体分布类型是已知的(经验或假设),但分布依赖于几个未知的参数,此时求总体分布的问题就归结为求其未知参数的问题

①点估计:寻求未知参数的估计量和估计值

设θ是总体分布X的未知参数,由观测样本X={x1,x2,…}构成的函数θ’(X)称为θ的估计量,其代入具体数值后称为估计值

  • 矩估计:以样本的各阶矩(原点矩、中心矩)[的连续函数] 作为总体的各阶矩得到的估计量,如一阶原点估计作为期望的无偏估计,二阶中心矩作为期望的有偏估计
  • 极大似然估计

②区间估计

从点估计和抽样标准差出发,按给定的概率值(置信度/置信水平,显著性水平=1-置信度)建立包含待估计参数的区间(置信区间),其原理是样本分布理论。

样本分布提供提供概率解释,标准差大小决定区间估计的长度。通常我们希望,置信度大一些,置信区间短一些,但实际上这两者往往是矛盾的。

2)假设检验:利用样本信息判断对总体的假设是否成立

步骤:根据问题提出假设 → 选取合适的统计量,该统计量需要在假设成立时分布已知 → 由观测样本计算估计量的值,并根据给定的显著性水平进行检验,做出接收或拒绝假设

①t检验:适用于单因素小样本(n<50)、样本来源于正态分布、总体标准差未知、两样本均数比较时其总体方差相等

  • 单样本t检验
  • 两个独立样本均数t检验
  • 配对样本均数t检验

②u检验:大样本,样本小但总体标准差已知

3.关联分析模型

关联分析:关联分析用于描述多个变量之间的关联,其输入是数据集合,输出是数据集合中全部或部分元素之间的关联关系

若两个或多个变量之间存在一定的关联,那么其中一个变量的状态就能通过其他变量进行预测

3.1回归分析

回归分析:描述因变量与自变量之间的关系,用函数表示,适用于定量地解释变量之间的相互关系或预测因变量的值

1)多元回归分析

如何进行参数估计:最小二乘法OLS

回归分析的模型检验

[1]拟合优度检验:检验来自总体中的一类数据的分布是否与某种理论分布相一致的统计方法,用以检验回归模型整体的拟合度

[2]残差分析:判断残差( ε ′ = y − y ′ ε' = y - y' ε=yy)是否服从均值为0的正态分布;判断残差独立性;残差的方差相等判定(残差图、Spearman等级相关分析)

[3]变量相关性 [4]判断模型中自变量对因变量线性相关的显著性

2)其他回归:多项式回归;梯度提升决策树GBDT回归(多重累计回归树);逻辑斯蒂回归;生存分析数据cox回归;weibull回归;泊松回归;probit回归;负二项回归;主成分回归;岭回归;偏最小二乘回归

实验:回归的阿里云实现

3.2关联规则分析

关联规则分析又称关系挖掘,寻找在数据集合之间(隐藏)的频繁模式、关联、相关性与因果结构,并以规则的形式表达出来。

可分为:简单关联、时序关联、因果关联;常用算法有:Apriori算法、FPgrowth算法

过程:①从数据集中找出所有的频繁项集,它们的支持度≥最小支持度阈值;②由频繁集产生关联规则,计算其置信度,保留置信度≥最小置信度阈值的关联规则

3.3相关分析

相关关系是一种非确定性关系,如人的身高和体重有关系,但无确切关系。一般考察两个变量之间或是两组变量之间的相关关系

基本思想:在每组变量中找到变量的线性组合,使得两组线性组合之间具有最大的相关系数。挑选和这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此进行,直至两组变量之间的相关性被提取完。

4.分类分析模型

4.1判别分析

1)判别分析是多元统计分析中判别样品所属类型的一种统计分析方法,通常设法建立一个判别函数,然后通过该判别函数来判别;①根据判别函数的形式可分为:线性判别、非线性判别;②根据处理变量的方法可分为:逐步判别、序贯判别等;③根据判别准则可分为:距离判别;Fisher判别;贝叶斯判别等

2)判别准则:衡量新样品与各已知组别接近程度的理论依据和方法准则

①距离判别法(直观判别):样品和哪个总体最近就判断其为哪个总体,具体有:马氏距离;相对距离
②Fisher判别法(典型判别):转换坐标系统,从X空间映射到Y空间,使得Y空间的系统坐标方向尽量选择能使不同类别的样本尽可能分开的方向,然后再在Y空间上使用马氏距离判别法
③贝叶斯判别法:相比于距离判别法只考虑了待分类样本到各个类别中心的距离,贝叶斯判别法还考虑了已知类别的分布特征

4.2基于机器学习的分类模型

1)支持向量机 2)逻辑回归 3)决策树与回归树 4)k近邻 5)随机森林(组合多棵决策树,Bagging、Boosting)6)朴素贝叶斯

5.聚类分析模型

1)聚类分析的定义:将数据按照它们性质上的亲疏程度进行分类的分析方法,是典型的无监督分析方法

2)如何描述个体亲属程度

①个体间差异度:基于距离的亲疏关系度量

将每个变量看成多维空间上的一个点,在多维空间中定义点与点、类与类之间的距离,用距离描述变量间的亲疏程度

Ⅰ.连续型变量距离:

  • 欧氏距离:欧式空间中点点,点面间距
  • 曼哈顿距离: d 12 = ∑ k = 1 n ∣ x 1 k − x 2 k ∣ d_{12}=\sum_{k=1}^n|x_{1k}-x_{2k}| d12=k=1nx1kx2k
  • 切比雪夫距离: d 12 = m a x k ( ∣ x 1 k − x 2 k ∣ ) d_{12}=max_k(|x_{1k}-x_{2k}|) d12=maxk(x1kx2k)
  • 闵可夫斯基距离: d 12 = [ ∑ k = 1 n ∣ x 1 k − x 2 k ∣ p ] 1 k d_{12}=[{\sum_{k=1}^n |x_{1k}-x{2k}|^p}]^{\frac 1 k} d12=[k=1nx1kx2kp]k1
  • 标准欧氏距离
  • 马氏距离

Ⅱ.离散型变量距离:卡方距离;Phi距离;二值变量距离;Jaccard系数

②个体间相似度:基于相似系数的相似性度量

计算变量间的简单相关系数或等级相关系数,用相似系数描述变量间的亲疏程度

  • 余弦相似度: c o s θ = ∑ k x 1 k x 2 k ∑ k x 1 k 2 ∑ k x 2 k 2 cosθ= \frac { \sum_k x_{1k}x_{2k}} { \sqrt { \sum_k x_{1k}^2} \sqrt {\sum_k x_{2k}^2} } cosθ=kx1k2 kx2k2 kx1kx2k
  • 汉明距离:两个等长字符串对应位置不同字符的个数
  • Jaccard相似系数/Jaccard距离:衡量两个集合相似度的一种指标/用两个集合中不同元素占所有元素的比例衡量两个集合的区分度
  • 皮尔森相关系数

3)如何描述个体与类、类与类间的亲属关系度量

最远/近距离;组间平均链锁距离;③组内平均链锁距离;④重心距离;⑤离差平方和距离(Ward方法)

4)变量的选择与处理:选取的变量应该与类别相关;数据应先标准化消除量纲对距离的影响;分量之间若存在强线性关系,结果则会偏向于该分量

5)聚类分析的分类

①基于分类对象的分类

  • Q型聚类:对样本个体进行分类,将性质相似的观测样本分在一个类,性质差异大的观测样本分在不同类,结果直观
  • R型聚类:将分量作为分类对象进行聚类,将性质相近的分量聚为一类,找出代表分量达到降维的目的,适用于分量数目多相关性较强的情景

②基于聚类结构的分类

  • 凝聚方式:每个个体自成一体,将最亲密的凝聚成一类,再重新计算个体间的距离,最相近的凝聚成一类,以此类推。随着凝聚过程的进行,每个类内的亲密程度逐渐降低
  • 分解方式:将所有个体看成一个大类,计算类内间距,将彼此间距离最远的个体分离出去,直到每个个体自成一类。分解过程中,每个类内亲密程度逐渐增强

6)聚类有效性评价

①CH指标(Calinski-Harabasz)②DB指标(Davies-Bouldin)③Wint指标(Weighted inter-intra)④KL指标(Krzanowski-Lai)⑤Hart指标(Hartigan)⑥IGP指标(In-Group Proportion)

7)聚类分析方法

①k均值聚类:指定聚类数目K确定K个数据中心,将每个点分到最近的类中,重新计算K个类的中心,要么结束,要么重复上述步骤,直到达到迭代次数或样本距中心点的偏移量小于阈值

②系统聚类法:开始各个样本自成一类,随后将相似样本进行两两合并,合并后重新计算新类与其他类的距离或相近性测度,该过程可以通过一张谱系聚类图描述

③调优法(动态聚类法):先对样本进行初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止

④最优分割法(有序样本聚类):将所有样本看作一类,然后根据某种最优准则将它们分为二类、三类,…,k类为止

⑤模糊聚类法:利用模糊集理论来处理分类问题

⑥图论聚类法:利用图论中最小生成树、内聚子图、顶点游走等方法来处理图像问题

6.结构分析模型

结构分析:对数据中结构的发现,输入是数据,输出是数据中具有某种规律的结构。结构分析的基础是统计分组,将部分与整体的关系作为分析对象,以发现在整体过程中各关键的影响因素及其做用的程度和方向。

1)最短路径

2)链接排名:基于图中结点的链接关系(点权与边权),对图中的结点按照其重要程度进行排名,经典算法有:PageRank、HITS

3)结构计数:对图中具有某种特定结构的结构进行计数,如三角形计数

4)社团/社区发现

①社团的定义

  • Wikipedia:社团是一个或一组网站,是虚拟的社团,是有着共同爱好和目标的人通过媒体相互影响的社交网络平台,该平台跨越了理想和政治的边界
  • 基于主题的定义:社团是由一群有着共同兴趣的人和备受他们欢迎的网页组成
  • 社团是图中共享相同属性的顶点的集群
  • 基于主题和结构定义:图中所有顶点的一个子集,它满足子集内部顶点之间的连接紧密,而子集与子集外部的其他顶点连接不够紧密

②社团的分类

  • 按主题分类:明显的社团;隐含的社团
  • 按社团的形成机制:预定义社团;自组织社团

③社团的用途:帮助搜索引擎提供更好的搜索服务(推荐);主题爬虫;研究社团与知识的演变过程

④社团的数学定义

基于主题的社团难以用数学方法严格刻画,这里介绍基于结构的社团定义方法:

  • 绝对定义:社团是图中的稠密顶点子集
    团:一组顶点,顶点间两两连接;
    准团:近似团的顶点集合,t-准团(导出子图的密度≥t),p-准团(每个顶点至少与集合中p个顶点连接);
    k-核:集合中每个顶点至少与k个顶点连接的集合;
    k-plex:集合中每个顶点至少与|S|-k个顶点连接;
    kd-团:集合中任意两个顶点之间的最短路径(不能经过集合以外的顶点)长度≤k;
    k-club:集合中任意两个顶点之间的最短路径(可以经过集合以外的顶点)长度≤k;
    (s,t)-biclique:集合S∪T,S、T中任意结点都有边连接,但S、T自身结点没有任何连接

  • 相对定义
    强定义形式:集合中任意顶点与其他顶点之间的边数要大于自身与集合外顶点的边数
    弱定义形式:集合中任意顶点之间的边数≥集合中任意顶点与结合外任意顶点的边数
    中间定义形式:集合中任意顶点与其他顶点之间的边数≥它与其他集合中顶点之间的边数

7.文本分析模型

1)文本分析定义:对文本的表示及其特征项的选取,对从文本中抽取的特征词进行量化来表示文本信息

将无结构的原始文本转化成结构化的计算机可以处理的信息,即对文本进行科学的抽象,建立其数学模型,用以描述和代替文本。

2)通常采用向量空间模型来描述文本向量,但直接使用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,则会造成维度灾难,因而需要先对文本向量通过特征选择来降维。

3)主要研究:文本表示模型的选择、特征词选择算法,涉及分词、文档向量化、主题抽取等

4)文本分析方法:①SplitWord;②词频统计;③TF-IDF;④PLDA;⑤Word2Vec

8.大数据分析的数据预处理

1)数据抽样:①随机抽样:抽签法、随机数法、水库抽样 ②系统抽样 ③分层抽样 ④加权抽样:因子加权、目标加权 ⑤整群抽样

2)数据过滤

3)数据归一化与标准化

归一化是将数据变为(0,1)之间的小数,可以将有量纲表达式变为无量纲表达式,成为纯量,方便数据比较和共同处理

标准化是将数据按比例缩放,使之落入一个特定区间,以屏蔽不同数据的度量单位不同,方便后续的处理

归一化、标准化方法:0-1标准化、Z-score标准化、log函数转换、atan函数实现归一化

4)数据清洗

①数据质量

数据质量管理:对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步的提高

数据质量通常包括:数据一致性(不包含语义错误或相互矛盾的数据)、数据完整性、数据精确性、数据时效性、实体同一性(同一实体的标识在所有数据集合中必须相同)

②缺失值填充:删除、统计填充、统一填充、预测填充

③实体识别和真值发现

实体识别:在给定的实体对象集合中,发现正确的不同的实体对象,并将其聚类,使得每个经过实体识别得到的对象簇在现实世界中指代的是同一个实体。实体识别的结果可以在数据质量管理的各个阶段得到广泛的应用,如真值发现、不一致数据发现、去除数据冗余

实体识别的主要问题:冗余问题:同一类实体可能由不同的名字指代,通过冗余发现技术解决;重名问题:不同类的实体可能由相同的名字指代,通过重名检测技术解决

真值发现:经过实体识别后,描述同一实体的不同数据被聚集到了一起,这些数据对象的相同属性可能包含冲突值,冲突值很多情况下来源于信息集成中的不同数据源。在描述同一实体同一属性冲突值中发现真实值的操作称为真值发现

《Innovative Techniques Applications of Entity Resolution》

④错误发现与修复

[1]格式内容清洗:显示格式不一致、内容中有非法字符、内容与该字段应有内容不符

[2]逻辑错误清洗:去重、去除不合理值、修正矛盾内容

[3]非需求数据清洗

9.降维

9.1特征工程

数据特征会直接影响到预测模型的效果

1)特征提取:自动地降维使得特征集合小到可以进行建模

2)特征选择:自动选择出对于问题最重要的特征子集

①计算每一个特征与响应变量的相关性 ②单个特征模型排序 ③使用正则化方法选择属性 ④应用随机森林选择属性

⑤训练能够对特征打分的预选模型 ⑥通过特征组合后再来选择特征 ⑦基于深度学习的特征选择

3)特征构建:人工进行特征的构建

4)特征学习:在原始数据中自动识别和使用特征

5)特征变换

①从信号处理的观点看,特征变换是在变换域中处理并提取信号的性质,常有明确的物理意义,如傅里叶变换、小波变换、Gabor变换

②从统计的观点,特征变换通过变换消除原始特征之间的相关关系或减少冗余,得到新的特征,如PCA、因子分析FA、独立成分分析ICA

③从几何的观点看,特征变换通过变换到新的表达空间,使数据可分性更好,包括线性判别分析、核方法

9.2降维算法

1)主成分分析PCA 2)因子分析FA 3)压缩感知 4)面向神经网络的降维

5)基于特征散列的维度缩减 6)基于Lasso算法的降维

10.面向大数据的数据仓库

10.1概述

1)数据仓库的定义:面向主题的、集成的、稳定的、包含历史数据的数据集合,用于支持管理中的决策制定过程,对大数据进行有效管理以支持可扩展性和大数据分析。数据仓库接收来自联机的事务处理系统、异构的外部数据源、脱机的历史业务数据等。

2)基本组成:数据定义、数据提取、数据管理、数据应用

3)数据仓库系统的体系结构:元数据、源数据、数据变换工具、数据仓库、数据分析工具

4)数据仓库的建立:确定主题、选择平台、建立数据仓库的模型、数据仓库数据模型优化、数据清理转换和传输、开发数据仓库的分析应用、数据仓库的管理

10.2分布式数据仓库系统

1)基于Hadoop的数据仓库系统(并行数据库技术、基于MapReduce并行计算框架):①Hive;②HadoopDB

2)Shark:基于Spark的数据仓库系统

3)Mesa

10.3内存数据仓库系统

1)SAP HANA 2)Hyper

11.大数据分析算法

1)大数据分析算法分类:①实时分析算法 ②弱实时分析算法(有用户参与分析决策) ③非实时分析算法

2)大数据分析算法的设计技术:①随机算法 ②外存算法 ③并行算法 ④Anytime算法

3)算法介绍:①回归算法-最小二乘 ②关联规则挖掘算法-Apriori ③分类算法-线性支持向量机、逻辑斯蒂回归、k-最近邻、朴素贝叶斯、决策树 ④聚类算法-k-means、CLARANS算法

12.大数据计算平台

Spark、Hyracks、DPark、HaLoop、MaxCompute、

13.流式计算平台

1)简介

传统数据计算过程:将待计算的数据全量存储在DBMS中 → 通过查询与DBMS交互,对存储的静态数据集中计算

流式计算:无法确定数据的到来时刻和顺序,也无法将全部数据存储起来,需要当流动的数据到来后在内存中直接进行实时计算

①不确定数据速率的事件流进入系统,系统处理能力必须与事件流量匹配,或通过近似算法进行优雅降级(负载分流)

②对数据流做出实时响应 ③用户是被动的,DBMS是主动的

2)平台:Storm、分布式流处理系统Samza、Cloud Dataflow、阿里云StreamCompute、

14.大图计算平台

GraphLab、Giraph、Neo4j、Apache Hama、MaxCompute Graph

15.社交网络

1)定义:社交网络即社交网络服务SNS

2)建模:社交图,用于表示社交网络的图

3)统计学构成:随机图理论、渗流理论、小世界网络、无尺度网络

4)社交网络的群体形成:①社区会员(影响个人加入社区的结构特征是什么)②社区成长(随着时间的推移,影响一个社区重大成长的结构特征是什么)③社区演化(社区的主题是如何随着时间改变的、这些变化与社区成员的变化有什么关联)

5)基于社交网络语义(语义网Web)分析的利益冲突(COI)发现

6)社交网络中的社区发现:动态社交网络中的社区识别框架、基于经验对比算法的网络社区组织检测

7)社交网络中的关联分析:社交网络中的关系强度模型、社交网络中的”正向连接“与”负向连接“预测

8)社交网络中的影响力预测:主题因子图模型TFG

16.推荐系统

16.1概述

传统零售商的货架空间是稀缺资源,网络使零成本产品信息传播成为可能,由此货架空间变得十分丰富,此时注意力成为稀缺资源,催生推荐系统的出现

1)从计算的角度,推荐系统的基本输入是用户集X和项目集S,基本输出是效用函数u:X×S→R

2)推荐系统需要解决的问题:如何收集已知评分形成R矩阵、如何收集效用矩阵中的数据、如何根据已知的评分推断未知的评分、如何评估推断方法、如何衡量推荐方法的性能

3)推荐策略:基于内容的推荐(直接分析内容);协同过滤推荐;基于关联规则的推荐;基于效用的推荐

4)推荐策略的组合:加权;变换;混合;特征组合;层叠;特征扩充;元级别

5)推荐系统的评价:用户满意度、预测准确度、覆盖率、多样性、新颖性、惊喜度

16.2一些推荐算法

  • 协同过滤

1)概念:协同过滤分析用户兴趣,在用户群体中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成对指定用户对此信息喜好程度的预测

2)与传统文本过滤的优点:能够过滤难以进行机器自动基于内容分析的信息;能够基于一些复杂得到、难以表达的概念进行过滤;新颖

3)面向物品的协同过滤算法:贝叶斯网络技术;聚类技术;Horting技术

4)改进的最近邻法

5)集成协同过滤方法:邻近模型;潜在因素模型;集成模型

  • 基于用户评价的推荐

    特征回归;
    商品特征鉴别;
    挖掘消费者意见

  • 基于人的推荐

    1)基于用户偏好学习的在线推荐
    2)混合推荐系统

  • 基于标记的推荐

    社交标记系统STS

  • 社交网络中的推荐

    1)基于信号的社交网络推荐
    2)基于在线主题的社交网络推荐

你可能感兴趣的:(大数据)