原百度大数据架构师首次分享:15年技术生涯经验分享

先说说我自己吧!研究生学的是数据统计,之后跟数据的恩爱情仇就开始了!毕业之后由于在大学的时候学的还算比较扎实,经过一段时间的准备,去面试了百度的大数据工程师,很幸运的被录用上了,之后的职业生涯都是在百度度过的,现在有了一些资本,打算跟朋友出来一起单干了。好了,介绍已经完了,那么接下来咱们聊一聊大数据这个行业。

行业现状

大数据时代的到来,简单的说是海量数据同完美计算能力结合的结果。确切的说是移动互联网、物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。大数据时代开启人类社会利用数据价值的另一个时代。

技术栈

Hadoop:Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。
从其定义就可以发现,它解決了两大问题:大数据存储、大数据分析。也就是 Hadoop 的两大核心:HDFS 和 MapReduce。
HDFS(Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。
MapReduce 为分布式计算框架,包含map(映射)和 reduce(归约)过程,负责在 HDFS 上进行计算。

原百度大数据架构师首次分享:15年技术生涯经验分享_第1张图片

 

Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。

原百度大数据架构师首次分享:15年技术生涯经验分享_第2张图片

 

Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。

Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。下面是Sqoop2的架构图:

原百度大数据架构师首次分享:15年技术生涯经验分享_第3张图片

 

Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。以下是Hive架构图:

原百度大数据架构师首次分享:15年技术生涯经验分享_第4张图片

 

Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。

Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。下面是Hbase写操作的工作机制图:

原百度大数据架构师首次分享:15年技术生涯经验分享_第5张图片

 

Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。下面是spark的架构图:

原百度大数据架构师首次分享:15年技术生涯经验分享_第6张图片

 


以上是我这些年学的一部分的技术,总结的不够全面,希望大家别嫌弃。
以下是我搜集的一部分大数据架构师的学习资料,里面有各种数据仓库/源码解析/Python/Hadoop/Flink/Spark/Storm/Hive以及面试资源等资源,分享出来希望能帮助到大家!

原百度大数据架构师首次分享:15年技术生涯经验分享_第7张图片

 

原百度大数据架构师首次分享:15年技术生涯经验分享_第8张图片

 

获取资料

本次给大家推荐一个免费的学习群,里面概括数据仓库/源码解析/Python/Hadoop/Flink/Spark/Storm/Hive以及面试资源等。
对大数据开发技术感兴趣的同学,欢迎加入Q群:894951460,不管你是小白还是大牛我都欢迎,还有大牛整理的一套高效率学习路线和教程与您免费分享,同时每天更新视频资料。
最后,祝大家早日学有所成,拿到满意offer,快速升职加薪,走上人生巅峰。

 

你可能感兴趣的:(大数据)