大数据 基础概念

前言

  • 大数据 基础概念
  • 大数据 Centos基础
  • 大数据 Shell基础
  • 大数据 ZooKeeper
  • 大数据 Hadoop介绍、配置与使用
  • 大数据 Hadoop之HDFS
  • 大数据 MapReduce
  • 大数据 Hive
  • 大数据 Yarn
  • 大数据 MapReduce使用
  • 大数据 Hadoop高可用HA

介绍

大数据是一个以数据为核心的产业,是一个围绕大数据生命周期不断往复循环的生产过程,同时也是由多种行业协同配合而产生的一个复合性极高的行业。

生命周期

  1. 数据收集
  2. 数据存储
  3. 数据建模
  4. 数据分析
  5. 数据变现

大数据产业

《白话大数据与机器学习》

在大数据产业中,数据通过各种方式、软件进行收集,借助网络这种媒介进行传输,通过与数据中心进行存储,通过数据科学家或者行业专家进行存储,通过数据科学家或者是行业专家进行建模和加工,最后数据分析得到的是一种知识,是一种人们通过数据洞悉世界的能力

数据之间本来彼此错综复杂的潜在关系会使得大量孤立而多来源的数据同时出现在一个舞台显得更加有趣,大量看似不相关的事情却能够通过观察与分析后告诉人们更多背后的因果。这些因果联系的意义会让人们在各个方面能够推测未来趋势,减少试错的机会,减少成本,降低风险,解放劳动力。

这才是大数据产业本身的价值与意义所在。

信息

1948年,数学家香农(Claude Elwood Shannon)在题为《通信的数学理论》的论文中指出:“信息是用来消除随机不定性的东西”。

商业智能BI

BI:Business Intelligence

商业智能——业界比较公认的说法是在1996年最早由Gartner Group提出的一个商业概念,通过应用基于事实的支持系统来辅助商业决策的指定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息。

业界普遍认可的方式就是基于大量的数据所做的规律性分析。因此,市面上成熟的商业智能软件大多是基于数据仓库做数据建模和分析,以及数据挖掘和报表的。

数学基础知识

统计与分布

  • 统计是对过去数据进行“总结归纳”。参见于【一句话明白:什么是统计?什么是概率?】
  • 分布是对数据的分布状态的一种直观的描述。

所有用单一的数据定义来概括性描述一些抽象或复杂数据的方式方法都叫做“指标”。下面介绍几个比较常见的指标。

加和值

使用一个一次性数值的加和值(累加值)对一群事物进行描述。好处就是人们可以直接忽略内部细节,直奔主题,即总量。

平均值

用一个简洁的数据定义概括了众多数据的特性。这是一种用于对对象数据进行宏观描述的方便的数值计算和描述方法。

标准差

描述实际数据和平均数据之间的差异性有多大,这就需要使用标准差了。
σ = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 \sigma=\sqrt{\frac{1}{n} \sum_{i=1}^n(X_i - \bar{X})^2} σ=n1i=1n(XiXˉ)2

加权平均

平均值这种指标有一个“兄弟”,就是加权均值。权(Weight)指的是权重,也就是指所占的“比重”或“重要”程度。

加权决策

在决策中做加权平均的目的是为了让整个决策既融合众多参与方、利益方的意见,同时也尽量使它向着更权威、更理性、更科学的方面倾斜,这是它的核心指导思想。这里只是泛泛地用这样一个场景做说明,实际操作起来会更加复杂、严谨与合理。加权平均在决策中的用法是比较常见的,在经济管理学领域的“德尔菲法则”(Delphi Method)中加权平均是一个重要的思想。

据称德尔菲法则是在20世纪40年代由赫尔默(Helmer)和戈登(Gordon)首创。1946年,美国兰德公司为避免集体讨论存在的屈从于权威或盲目服从多数的缺陷,首次用这种方法进行定性预测,后来该方法被迅速广泛采用。20世纪中期,当美国政府执意发动朝鲜战争时,兰德公司又提交了一份预测报告,预告这场战争必败。政府完全没有采纳,结果几年后一败涂地。从此以后,德尔菲法得到广泛认可。

众数

在样本对象中出现最多的那个数字。

中位数

中位数,顾名思义,就是位于中间位置的数字。

欧氏距离

所谓欧氏距离中的“欧”指的是被称作几何之父的古希腊数学家欧几里得。欧氏距离是在其巨著《几何原本》中提到的一个非常重要的概念。欧氏距离的定义大概是这样的:在一个 N N N维度的空间里,求两个点的距离,这个距离肯定是一个大于等于 0 0 0的数字(也就是说没有负距离,最小也就是两个点重合的零距离),那么这个距离需要用两个点在各自维度上的坐标相减,平方后加和再开平方。

二维的情况:
c = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 c = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2 } c=(x1x2)2+(y1y2)2
三维的情况:
d = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 + ( z 1 − z 2 ) 2 d = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_1 - z_2)^2} d=(x1x2)2+(y1y2)2+(z1z2)2

曼哈顿距离Manhattan Distance

欧氏距离是人们在解析几何里最常用的一种计算方法,但是计算起来比较复杂,要平方,加和,再开方,而人们在空间几何中度量距离很多场合其实是可以做一些简化的。曼哈顿距离就是由19世纪著名的德国犹太人数学家——赫尔曼·闵可夫斯基发明的。

曼哈顿距离也叫出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和。

c = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ c = | x_1 - x_2| + |y_1 - y_2| c=x1x2+y1y2

曼哈顿距离和欧氏距离的意义相近,也是为了描述两个点之间的距离,不同的是曼哈顿距离只需要做加减法,这使得计算机在大量的计算过程中代价更低,而且会消除在开平方过程中取近似值而带来的误差。不仅如此,曼哈顿距离在人脱离计算机做计算的时候也会很方便。

同比

与相邻时段的同一时期相比,例如今年7月同比增长10%的意思就是今年7月的销售额和去年7月的销售额相比增长10%。

环比

就是直接和上一个报告期进行比较,比如今年七月环比增长25%的意思就是今年7月的销售额和今年6月的销售额相比增长25%。

抽样

抽样(Sampling)是一种非常好的了解大量样本空间分布情况的方法,样本越大则抽样带来的成本减少的收益就越明显。

高斯分布

正态分布(Normal Distribution)又名高斯分布(Gaussian Distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=2π σ1exp(2σ2(xμ)2)

更多请参见于:高斯分布

泊松分布

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、雷射的光子數分布等等。

P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , 3... P(X = k) = \dfrac {\lambda^k}{k!}e^{-\lambda}, k = 0, 1, 2 ,3... P(X=k)=k!λkeλ,k=0,1,2,3...

更多请参见与:泊松分布

伯努利分布Bernoulli Distribution

伯努利分布(Bernoulli Distribution)是一种离散分布,在概率学中非常常用,有两种可能的结果,1表示成功,出现的概率为 p p p(其中 0 < p < 1 0<p<1 0<p<1);0表示失败,出现的概率为 q = 1 − p q=1-p q=1p。这很好理解,除去成功都是失败, p p p是成功的概率,概率100%减去 p p p就是失败的概率。

P ( X = k ) = C n k p k ( 1 − p ) n − k P(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1p)nk

更多请参见于:伯努利分布

信息

信息量

在日常生活中,极少发生的事件一旦发生是容易引起人们关注的,而司空见惯的事件不会引起注意,也就是说,极少见的事件所带来的信息量大。如果用统计学的术语来描述,就是出现概率小的事件信息量大。因此,事件出现的概率越小,信息量越大,即信息量的多少是与事件发生频繁程度大小(即概率大小)恰好相反的,这里不能称作成反比,因为它们不是倒数关系。

H ( X i ) = − l o g 2 P H(X_i) = -log_2P H(Xi)=log2P

X i X_i Xi表示一个发生的事件, P P P表示这个事件发生的先验概率。所谓先验概率,就是这个事件按照常理,按照一般性规律发生的概率。

香农公式

C = B l o g 2 ( 1 + S N ) C = Blog_2(1+ \dfrac {S}{N}) C=Blog2(1+NS)

  • W W W 为信道的带宽(以 Hz 为单位)
  • S S S 为信道内所传信号的平均功率
  • N N N 为信道内部的高斯噪声功率

信道的带宽或信道中的信噪比越大,则信息的极限传输速率就越高。

只要信息传输速率低于信道的极限信息传输速率,就一定可以找到某种办法来实现无差错的传输。

实际信道上能够达到的信息传输速率要比香农的极限传输速率低不少。

信息熵

H ( x ) = − ∑ i = 1 n P ( x i ) l o g 2 P ( x i ) , i = 1 , 2 , . . . , n H(x) = -\sum\limits_{i=1}^{n}P(x_i)log_2P(x_i), i = 1,2,...,n H(x)=i=1nP(xi)log2P(xi),i=1,2,...,n

x x x可以当成一个向量,就是若干个 x i x_i xi产生的概率乘以该可能性的信息量,然后各项做加和。

更多请参见:熵_信息论

  • 信息越确定,越单一,信息熵越小;
  • 信息越不确定,越混乱,信息熵越大。
  • 信息熵的用途是比较广泛的,其实看到信息熵的定义就大概能够知道它用在哪里。既然它是用来度量信息混乱程度的,那么凡是关心信息混乱程度对系统的影响的地方都可以用信息熵来辅助调整或判断。

关联分析

过拟合Overfitting

所有使得函数的描述变得过于复杂,或者参数过于繁多,或者由于训练样本的问题导致函数失去泛化特性的拟合过程都叫做过度拟合(Overfitting)。

过拟合的特征:

  • 描述复杂。
    • 所有过度拟合的模型都有一个共同点——参数繁多,计算逻辑多。
  • 失去泛化能力。
    • 所谓泛化能力就是通过学习(或机器学习)得到的模型对未知数据的预测能力,即应用于其他非训练样本的向量时的分类能力。对于待分类样本向量分类正确度高,表示泛化能力比较好;反之,如果对于待分类样本向量分类正确度低,则表示泛化能力较差。

造成过度拟合的原因有:

  • 训练样本太少。
    • 对于训练样本过少的情况,通常都会归纳出一个非常不准确的模型。
    • 样本多时就可以通过统计分析保留那些共性较多的特点,而共性较少的特点就是我们所说的噪声——就不会被当做分类参数。
  • 力求“完美”。
    • 对于所有的训练样本向量点都希望用拟合的模型覆盖,但是实际上的训练样本带有很多的干扰信息。

欠拟合

  • 参数过少。
    • 对于训练样本向量的维度提取太少会导致模型描述的不准确。
  • 拟合不当。
    • 拟合不当的原因比较复杂,通常是拟合方法不正确造成的。

附录

  • 《白话大数据和机器学习》
    • 一本概念性书籍

你可能感兴趣的:(大数据)