大数据,不只“懂数”,更要“懂行”

在上一次关于大数据的分享中,与朋友们分享了大数据的基本定义、分布式存储、数据资产管理的内容(点击回顾),充分显示了大数据的“懂数”,本周小编来“补作业”,和大家再来聊一聊大数据的“懂行”。


分布式计算

首先,什么是分布式计算?简单点理解就是将大量的数据分割成多个小块,由多台计算机分工计算,然后将结果汇总。这些执行分布式计算的计算机叫做集群。为什么需要分布式计算?因为“大数据”来了,单个计算机不够用了,即数据量远远超出单个计算机的处理能力范围:有时候是单位时间内的数据量大,比如大家在12306上抢春运火车票,每秒可能有数以万计的访问;也有可能是数据总量大,比如百度搜索引擎,要在服务器上检索数亿的中文网页信息。

说到集群,就不得不提集群资源管理“神器”YARN了。为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。基于YARN的通用分布式计算平台采用多个Nodemanage节点来承担具体计算任务,使用主备两个ResourceManager来管理、监控和分发具体的任务。通过代理服务做到主备自动切换。

支持主流的分布式计算框架如Spark、Flink、MapReduce以及机器学习相关的计算库,可以做到支持流批一站式数据处理。通过SparkGraphX可以支持常用的图计算,基于框架层提供的抽象API,可以支持主流的编程语言比如Java、Scala、Python和R。

大数据,不只“懂数”,更要“懂行”_第1张图片

这里以Spark为例,具体讲讲分布式计算框架。Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。RDD的是Spark中最主要的数据结构,RDD为分区和分布式的数据集,这是分布式并行计算的基础。Spark把对RDD的操作划分为转换(transformation)和动作(action),对RDD进行的转换操作会叠加起来,直到遇到动作(action)操作时才会发起计算。这种特性也使Spark可以减少中间结果的吞吐,可以快速的进行多次迭代计算。

大数据,不只“懂数”,更要“懂行”_第2张图片


数据赋能推荐

最后来说一说大数据的应用。随着数字暴增导致信息过载, 传统的信息检索技术已经不能满足用户对个性化体验的需求,推荐系统应运而生,而推荐算法的演进过程也能映射大数据的发展史。从单维特征到多维特征,再到特征组合,特征交叉,数据越来越大,所需要的算法模型越来越复杂,模型的表现力也越来越强。深度学习模型通过复杂神经网络结构,巨大的参数量和海量的训练样本能够更好的挖掘出数据背后的规律。

大数据,不只“懂数”,更要“懂行”_第3张图片

神经网络由多个神经元(权重+偏置+激活函数)组成的层,以及由不同的层组成的复杂网络组成。神经网络对图像的识别要经历两个过程:

1. 训练过程,训练过程使用带标签的数据集,按比例切分为训练集和测试集,训练样本的数据分批输入网络,

用样本对应的标签来计算损失函数并不断的更新权重,每次迭代后使用测试集来准确度。直到损失函数收敛,并且准确度达到预期值。

2. 判定过程相对于训练过程来说速度比较快,只需把样本数据向量化为输入层的维度,输入网络通过各个神经元对应的权重计算,最后输出层得到各个结果的概率,取概率最大的结果做为判定结果。

大数据,不只“懂数”,更要“懂行”_第4张图片

目前大数据的发展也存在着很多的问题,比如技术综合性强,运维成本高和开发周期长等问题,另外,《个人信息保护法》的实施对大数据及推荐都带来了不小的挑战,这就需要相关企业及从业者,要以安全为前提不断学习融合新技术,如多方安全计算、联邦学习等前沿数据保护技术,以新技术促进数据管理体系的升级迭代。

鼎道智联全力打造的Ding OS,是一款面向物联网时代的顾问式操作系统。所谓“顾问式交互”,集信息情景、意图理解、自然交互为一体,按照实现服务的自然流程推荐服务,其实现离不开背后大数据及推荐算法的支持,欢迎对大数据感兴趣的朋友和我们一同探索。

这两期关于大数据及应用的“科普”,来自于鼎道智联云平台大数据工程师 田大钊的内部分享。田大钊专注于大数据、数据挖掘和推荐系统的研究,今后他会针对大数据及推荐算法带来更多专业深入的探讨。敬请关注。


更多精彩内容推荐:

PWA能否成为未来?——探索构建面向未来的网络应用程序

《互联网体检》过于真实,作为开发者,我们还能做点啥?

轻量级兼顾本地体验,PWA应用到底有多卷?

你可能感兴趣的:(大数据,操作系统,分布式)