什么是大数据?
大数据(BIG DATA)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特点:VOLUME(大量)、VELOCITY(高速)、VARIETY(多样)、VALUE(低价值密度)、VERACITY(真实性)。
为什么要学习大数据?
目前,全球数据呈现爆发增长、海量集聚的特点。大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。预计到2022年大数据市场规模达800亿美元,年均实现15.37%的增长,大数据时代开启人类社会利用数据价值的另一个时代。国家对大数据战略政策的制定和实施,也是大数据市场不断发展的有力条件。
- 应用领域广:产业规模空前,各行持续发力:包含金融、政务、交通、电信、商贸、医疗、教育、旅游、工业、农业等行业领域。
- 就业薪资高:行业平均月薪22690元,30K-50K占29.7%,20K-30K占43.2%,15K-20K占12.2%,10K-15K占2.7%,6K-8K占8.1%。
- 缺口大:行业日招聘岗位量154598个,智联日招聘量50916条,前程无忧日均招聘量55804条,猎聘日均招聘量1万+条,职友集日均招聘量37878条。
- 政策支持:国家大力推动实施大数据发展战略,行业政策环境良好。
十二届全国人大二次会议政府工作报告:“要设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据、先进制造等方面赶超先进。”
十八大期间国务院颁发文件:“《促进大数据发展行动刚要》的颁发,证明大数据成为推动经济转型发展的新动力。”
党的十九大报告中提出:“加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度整合。”
大数据学习路线大纲:
第一阶段:Java语言基础阶段
1.1 Java编程语言基本概述
1.1.1 计算机语言与编程概述 1.1.2 介绍Java生态圈……1.2 Java基础语法
1.2.1 分支循环语句 1.2.2 if分支结构……1.3 面向对象编程
1.3.1 软件的生命周期 1.3.2 软件的设计原则……1.4 面向对象高级编程
1.4.1包 (package) 的管理与作用 1.4.2JavaBean规范……1.5 Java中的常用类库
1.5.1包装类(Wrapper Class) 1.5.2装箱和拆箱……1.6 枚举和异常类
1.6.1枚举定义和使用 1.6.2通过枚举的class文件查看底层实现……1.7 Java数据结构和集合框架泛型
1.7.1数据结构举例剖析 1.7.2数组的定义和使用方式……1.8 Java中的IO流
1.8.1File类的常用操作 1.8.2递归遍历文件夹……1.9 Java中的多线程
1.9.1程序,进程,线程的关系详解 1.9.2线程的原理……1.10 Java中网络编程和反射
1.10.1网络通讯协议 1.10.2网络七层协议……1.11 Java8新特性
1.11.1Lambda表达式 1.11.2Java可以函数式编……1.12 Java基础加强
1.12.1Tomcat介绍与搭建 1.12.2软件B/S和C/S……02 、常用基本命令
03 、系统管理
04 、Linux操作增强
05 、Linux shell编程
06 、Hadoop生态
07、 分布式系统概述
08、 Hadoop入门
09、 Hadoop伪分布式
10、 Hadoop全分布式
11、 HDFS基本概念
12 、HDFS的应用开发
13、 HDFS的IO流操作
14 、NameNode工作机制
15、 DataNode工作机制
16、 Zookeeper入门
17 、Zookeeper详解
18 、HA框架原理
19、 Hadoop-HA集群配置
20 、MapReduce框架原理
21 、Shuffle机制
22、 Mapreduce案例一
23、 Mapreduce案例二
24 、Hive入门
25 、Hive DDL数据定义
26 、Hive分区表
27 、Hive分桶表
28、 Hive查询
29 、Hive的高级查询Join与排序
30 、Hive的函数
31、 Hive DML数据管理
32 、Hive文件存储
33、 Hive企业级调优
34 、Hive企业级调优二
35、 Hive企业级项目实战
36、 Flume详解
37、 Sqoop详解
38、 Hbase概念
39 、Hbase的操作
40 、Hbase整合
41 、Hbase的实战和优化
第三阶段:分布式计算框架
3.1 scala
3.1.1 安装idea配置环境变量 3.1.2 Maven本地库配置 3.1.3 JDK环境变量配置 3.1.4 idea版本配置……3.2 Spark Core
3.2.1 大数据架构体系 3.2.2 架构详解 3.2.3 Spark集群介绍 3.2.4 Spark集群配置……3.3 Spark SQL
3.3.1 Spark SQL的发展历史 3.3.2 Spark SQL的原理介绍 3.3.3 DataFrame概述 3.3.4 创建DataFrame的方式……3.4 Spark Streaming
3.4.1 Spark Streaming概述 3.4.2 Spark Streaming的原理介绍 3.4.3 Spark Streaming与Storm对比 3.4.4 DStream的概念……3.5 kafka
3.5.1 Kafka的基本概念3.5.2 Kafka的发展历史3.5.3 Kafka的应用背景3.5.4 JMS基础……3.6 ElasticSearch
3.6.1 全文检索技术简介 3.6.2 ES安装配置入门 3.6.3 ES插件安装 3.6.4 ES基本操作……3.7 Logstash
3.7.1 Logstash介绍 3.7.2 Input组件介绍 3.7.3 Filter组件介绍 3.7.4 Output组件介绍……3.8 Kibana
3.8.1 Kibana介绍 3.8.2 Kibana环境准备 3.8.3 Kibana安装 3.8.4 Kibana演示……3.9 Kibana
3.9.1 什么是NoSQL 3.9.2 NoSQL数据库的分类 3.9.3 Redis介绍 3.9.4 Redis发展历史……4.1 互金领域-广告投放
项目介绍:构建广告投放平台,进行广告投放业务,吸引潜在客户,推广产品,包含投放微服务平台、竞价模块、客户群体画像、 千人千面推荐产品。
4.2 电商平台
项目介绍: 埋点业务,进行用户细分画像、建立信用体系、进行线上各类活动。
4.3 共享单车
项目介绍: 依据用户行为轨迹构成出行规律,根据用户群体出行规律、区域情况等动态调度用车情况。
4.4 工业大数据
项目介绍:国家电网_省级输/变电监控项目:监控线路的传感设备,确保设备安全、降低故障成本,动态监控线路、变电站二次设备工作情况、报警自动化。
4.5 交通
项目介绍:贵州交通厅,交通离线/实时监控项目:通过交通卡口采集实时数据,动态监控全省各道路通行和事故状况,避免拥堵、避免交通事故、 精准测速、防止套牌和提供便捷最佳出行方案、 预测拥堵系数,为各级提供最优道路规划方案。
4.6 旅游
项目介绍:安顺智慧旅游,整合各类旅游相关应用系统及信息资源,在公安、交通、工商等相关领域实现信息共享、协同合作,共同打造良性的旅游云生态系统。
4.7 医疗
项目介绍:某市人民医院,随着老年化的持续增加,患病率越来越高。增加大数据平台,采集医疗相关数据,提高诊断的准确性,预防一些疾病的发生,监控相关病情康复进展,真正实现解决看病难,降低发病率等。
第五阶段:大数据分析
5.1 Data Analyze数据分析基础
5.1.1 AI&&机器学习&&深度学习概论 5.1.2 数据科学……5.2 工作环境准备
5.2.1 数据分析中常用的Python技巧 5.2.2 Python字符串操作……5.3 数据可视化的概念与准则
5.3.1 Python Matplotlib库 5.3.2 Matplotlib架构……5.4 Python机器学习
5.4.1 机器学习的基本概念 5.4.2 分类算法与回归算法……5.5 选择模型
5.5.1 训练模型 5.5.2 测试模型……5.6 构建树的过程
5.6.1 sklearn中决策树重要的参数 5.6.2 通过决策树可以得到特征的重要性得分……5.7 网格搜索
5.7.1 10折交叉验证 5.7.2 模型评价指标及模型选择……5.8 sklearn中有三类朴素贝叶斯算法
5.8.1 Bernoulli模型 5.8.2 Multinomial模型……5.9 颜色特征
5.9.1 纹理特征 5.9.2 形状特征……5.10 手写数字识别
5.10.1 人脸识别 5.10.2 物体识别……5.11 文本的基本组成
5.11.1 Python常用文本处理函数(字符串操作) 5.11.2 正则表达式……5.12 文本的基本组成
5.12.1 主题模型及LDA 5.12.2 隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)……
大数据视频教程:
教程一、2019大数据初识与职业发展
本教程介绍了大数据中hadoop的基本概念与生态体系,以及在企业中的案例应用。最后搭建一个Hadoop环境,并且展示Hadoop如何进行文分析与统计。
2019千锋大数据初识与职业发展https://pan.baidu.com/s/17rJ2iBRDSlfImaKtx8_kDA
教程二、 Hadoop生态圈视频教程
本教程全面涵盖hadoop生态圈技术,内容涉及linux、hdfs、mapreduce、zookeeper、hive、sqoop等,对比教学,从基础到进阶,轻松搞定hadoop生态圈。
5天学会Hadoop基础教程 https://pan.baidu.com/s/1gMrPQKKt04FTsdf6Qc8IZw 提取码:4p2o
教程三、 最新Hive入门教程
在企业中,离线数据的来源主要是已存在的有固定格式的文件,或数据库中积累的结构化的数据,如何高效的进行数据的管理以及基本的统计分析是每个大数据开发者必须掌握的技能。
2019最新Hive入门教程https://pan.baidu.com/s/1iVFTXVm0-hkAja7slZEVjg 提取码:mefj
教程四、2019最新Hadoop入门教程
Hadoop入门教程全面涵盖hadoop生态圈技术,内容涉及linux、hdfs、mapreduce、zookeeper、hive、sqoop等。
2019最新Hadoop入门教程https://pan.baidu.com/s/1NfMUR4zTap8IRrNNfsCE4A 提取码:phzx
教程五、Hive课程详解
在企业中,离线数据的来源主要是已存在的有固定格式的文件,或数据库中积累的结构化的数据,如何高效的进行数据的管理以及基本的统计分析是每个大数据开发者必须掌握的技能,本教程在Hadoop集群的基础上,系统的讲述了Hive的作用,安装部署过程,常用的内置函数,UDF的引入方式,数据导入导出的相关组件等,并结合一些企业的场景进行了说明。
Hive入门必学教程 https://pan.baidu.com/s/1I-RsrZPifCfDOFNdJ57-PA 提取码:rh76
教程六、统计机器学习算法精讲
本教程全方面的介绍决策树是一种基本的分类与回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝。
2019大数据统计机器学习算法精讲https://pan.baidu.com/s/1aFPKBgCcZ1SdYpWW3vt44Q 提取码:ges5
教程七、 Spark基础及源码分析
Apache Spark 是在大数据工业界里用的最多的基于内存的技术框架,尤其是RDD的特性以及应用,对帮助理解Spark和任务提交的流程以及缓存机制 。
全套Spark视频教程 https://pan.baidu.com/s/1235kpqE4UtIaESxD_qu6Ew 提取码:43j4
教程八、 玩转数据可视化
数据可视化相关技术主要为了提高数据的可读性,将数据以图表的方式进行展示,广泛应用于各大平台及商业智能领域,便于数据结果的解读和分享。
2019最新快速玩转HBase~连载https://pan.baidu.com/s/1RbjmaBDCR4jJmy6D1JDRRQ 提取码:jsye
教程九、 机器学习之逻辑回归教程
分类(逻辑回归)和回归(线性回归)。当你使用逻辑回归或者线性回归建立你整个流程的时候(越简单越好),你会慢慢地熟悉机器学习里的一些概念。你也会知道如何准备你的数据,以及这过程中有什么挑战(比如填补缺失值和特征选择)。
大数据教程-机器学习之逻辑回归 https://pan.baidu.com/s/1ElzIP6npB6f-s1ioo3X0Og 提取码:jb7d
教程十、机器学习入门篇
本课程全方面的介绍机器学习的监督学习、半监督学习和非监督学习的概念,详细介绍 数据 + 算法 = AI应用 。
大数据教程-机器学习之线性回归 https://pan.baidu.com/s/1i3gpkVrrJGzVi3qeD0wmjw 提取码:vgop
教程十一、大数据高级教程-SVM模型
经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。
大数据教程-机器学习之SVM模型 https://pan.baidu.com/s/1GmOy-iU2hVY5vZ4Zi4Wotg 提取码:xbz1
教程十二、 线性回归案例之广告与媒体的多元关系
本课程讲解了回归模型在工业上的应用,已经重要的超参数调参的方法,通过加载数据集得到原始数据,并且对选择建模过程要细化工作。
大数据教程-机器学习之线性回归 https://pan.baidu.com/s/1i3gpkVrrJGzVi3qeD0wmjw 提取码:vgop
教程十三、 快速入门Spark
Apache Spark 是在大数据工业界里用的最多的基于内存的技术框架,尤其是RDD的特性以及应用,对帮助理解Spark和任务提交的流程以及缓存机制。
2019大数据之快速入门Spark~连载https://pan.baidu.com/s/1z_et0uq8w9gpt8WWvGHIIw 提取码:ilyu
教程十四、快速玩转SparkGraphx系列
Spark GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如微信、QQ、微博的用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理,Spark GraphX就是一种分布式图处理框架。
2019最新快速玩转SparkGraphx系列https://pan.baidu.com/s/1_9PDPimgeuOL6pzND0QNLQ 提取码:s5za
教程十五、2天学会Lambda表达式
本系列视频旨在讲解JAVA8的一个新特性: Lambda表达式。
2019大数据:2天学会Lambda表达式https://pan.baidu.com/s/180n1SMnp_lwtrEoMFsdrIA 提取码:0bwj
教程十六、快速入门Scala
本套视频由浅入深对Scala内容进行全面讲解,主要针对Scala小白用户,如果有一定的编程语言基础,如了解Java语言,学习起来会更轻松。
大数据之快速入门Scala~连载 链接https://pan.baidu.com/s/1_V0E5DZYD8zBRY5qTA97uQ 提取码:0jac
教程十七、深入学习scala
本套视频由浅入深对Scala内容进行全面讲解,主要针对Scala小白用户,如果有一定的编程语言基础,如了解Java语言,学习起来会更轻松。
全套Scala视频教程 https://pan.baidu.com/s/18AUDdTUSBbe8pBatL2Vsyw 提取码:c3g2
教程十八、2019人工智能必学用数学看待机器学习
本章从深度学习工程实践的视角,帮助广大工程师朋友们梳理和学习深度学习中所用到的微积分部分的知识。
大数据之人工智能必学用数学看待机器学习https://pan.baidu.com/s/1Q_fqIE5RBsMl6ccsN-QbTg 提取码:1h0y
教程十九、 2019Java多线程精讲
Java给多线程编程提供了内置的支持。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。
2019Java多线程精讲 https://pan.baidu.com/s/1kHUkh7ZqJReiamt-0BOXAA 提取码:johs
教程二十、2019大数据之快速入门Flink
Flink是一个开源的分布式流式和批处理平台;Flink核心是流式数据流引擎,然后在流式引擎的基础上实现批处理。和spark正好相反,spark核心是批处理引擎,然后在批处理引擎的基础上实现流式处理。
大数据之快速入门Flink~连载https://pan.baidu.com/s/1g3ubsn8Rgna6BfwZGtAfVg 提取码:k5ew
教程二十一、2019最新小白速成调度框架Azkaban
本课程视频适合所有了解或者系统学习过hadoop生态圈相关组件的学生。若对大数据没有相关了解,能听懂概念,很多操作不能关联。
2019最新小白速成调度框架azkaban【千锋大数据】https://pan.baidu.com/s/1RVLh8UVL7SBwK77j4SbEXw 提取码:nvql
教程二十二、2019JAVA设计模式精讲
设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。
2019JAVA设计模式精讲【千锋大数据】https://pan.baidu.com/s/1FqdYFOOAy-mVfc8Zqbq87A 提取码:zs29
教程二十三、 JAVA8新特性之集合的流式操作
本课程全方面的介绍对集合流式操作,数据准备,collect方法的使用,reduce方法的使用,max和min方法的使用,matching匹配操作,count方法使用,forEach方法的使用等。
2019JAVA8新特性之集合的流式操作~连载https://pan.baidu.com/s/1ttcPxagRXo1_ivrEiHVVNA 提取码:eipt
教程二十四、 线性回归全解
本课程讲解了参数估计的求导过程,在工业算法界中要跟业务结合,理解假设函数和损失函数已经最优函数的理解和推导。
大数据教程-机器学习之线性回归 https://pan.baidu.com/s/1i3gpkVrrJGzVi3qeD0wmjw 提取码:vgop
教程二十五、 ElasticSearch快速入门教程
全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。
2019最新ElasticSearch快速入门教程https://pan.baidu.com/s/182RTgdJNpnajqygFgS9XbQ 提取码:offj
教程二十六、 2019最新快速玩转Hbase
HBase是一个基于HDFS的分布式、面向列的开源数据库,是一个结构化数据的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。是每一个大数据都应该掌握的基本框架。
2019最新快速玩转HBase~连载https://pan.baidu.com/s/1RbjmaBDCR4jJmy6D1JDRRQ 提取码:jsye
教程二十七、2019最新小白速成调度框架oozie
Oozie是大数据生态圈中一个基于工作流的任务调度工具,也是大数据工程师的一个常用工具。在本课程中,你将学习到,Oozie的原理、安装配置、使用Oozie实现调度Shell脚本、逻辑调度多个Shell脚本、直接调度MapReduce任务以及定时逻辑调度多个任务。
2019最新小白速成调度框架ooziehttps://pan.baidu.com/s/1Wmh41Q4mWop7obnXvVNUJA 提取码:trpv
教程二十八、 2019最新快速玩转Flume教程
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。是大数据大数据开发工程师必须会的框架之一。有利于代码的开发和维护。
2019最新快速玩转Flume教程https://pan.baidu.com/s/1gLowi7EZ_sNAKeLV-jmJBg 提取码:8xt2
教程二十九、Spark Livy入门到精通
Spark Livy入门到精通,livy是cloudera开发的通过REST来连接、管理spark的解决方案,供大家免费学习使用。
大数据教程-Spark Livy入门到精通 https://pan.baidu.com/s/1h6oU3gLWfEXxtq4-1PHa7A 提取码:rw05