大数据系列教程

大数据系列教程003-hadoop伪分布式环境搭建步骤

声明：大数据系列教程文章由Java潘老师辛苦原创，免费公开供java爱好者学习。

Java潘老师·2024-01-31 07:53

Centos7系统下搭建Hadoop 3.3.6

################################################################################################此外，大数据系列教程还在持续的更新中

mr-element·2023-11-07 11:41

大数据系列教程之 Kafka基础

kafka概述一、kafka概述1.1定义1.2消息队列1.2.1传统消息队列的应用场景1.2.2消息队列的两种形式1.3Kafka基础架构二、kafka安装部署2.1安装部署2.1.1.jar包下载2.1.2.解压到指定的文件夹下2.1.3.创建两个文件夹以供后续使用2.1.4.修改配置文件（1）修改zookeeper.properties文件（2）修改server.properties文件2.

Coder_Boy_·2023-09-01 05:45

大数据系列教程（2）Flink 应用场景

应用场景ApacheFlink是开发和运行许多不同类型的应用程序的绝佳选择，因为它具有广泛的功能集。Flink的功能包括支持流和批处理、复杂的状态管理、事件时间处理语义以及状态的一次性一致性保证。下面，我们将探讨由Flink提供支持的最常见的应用程序类型，并为现实世界的示例提供指导。事件驱动的应用程序数据分析应用数据管道应用事件驱动的应用程序什么是事件驱动的应用程序？事件驱动应用程序是一种有状态的

吕布辕门·2022-11-22 14:14

大数据系列教程006-开启日志聚合功能

Container日志是hadoop各个container记录的日志，其中会包含错误或失败的重要信息。如果没有打开日志聚合，默认是分布在各个nodemanager节点上的。如果打开了日志聚合选项，则会统一放在集中的位置（比如HDFS上）。Container日志会记录作业运行时会发生的各种运行时信息和错误，对于调试和调优有很大的帮助。1.修改master的yarn-site.xml配置，新增：yar

Java潘老师·2020-09-11 02:47

大数据系列教程008-DFS介绍

1.DFS介绍由于一台机器的存储容量有限，一旦数据量达到足够的级别，就需要将数据存放在多台机器上，这就是分布式文件系统，又称之为DFS（DistributedFileSystem），DFS是HDFS的基础。2.什么是DFS分布式文件系统DFS是基于Master/Slave模式，通常一个分布式文件系统提供多个供用户访问的服务器，一般都会提供备份和容错的功能。分布式文件系统管理的物理资源不一定直接连接

Java潘老师·2020-09-11 02:47

大数据系列教程007-windows配置hosts

1.修改windows的hosts配置，为了方便通过主机名访问虚拟机2.在C盘windows文件中找到System32-->drivers-->etc,进入到etc文件夹中就能看到hosts文件3.修改4.如遇360提示劫持域名，选择允许修改5.如遇无权限1）在配置hosts时，有时会遇到无权限保存情况，这时需要给当前用户分配权限。在hosts文件上右键菜单点击属性2）弹出窗口点击页签安全，点击选

Java潘老师·2020-09-11 02:47

大数据系列教程005-NTP方式同步服务器时间

Java潘老师·2020-09-11 02:15

大数据系列教程004-完全分布式环境搭建步骤

Java潘老师·2020-09-11 02:15

Spark大数据系列教程持续更新

Spark大数据系列教程想学习大数据的福利来了，由于近期工作繁忙，本人已将自己学习大数据的过程陆续开始更新：Spark大数据系列：一、RDD详解Spark大数据系列二、Spark入门程序WordCount

davide_tian·2020-07-31 18:19

大数据系列教程003-hadoop伪分布式环境搭建步骤01-安装vmware12

声明：大数据系列教程文章由Java潘老师辛苦原创，免费公开供java爱好者学习。

Java潘老师·2020-07-05 00:04

64-天亮大数据系列教程之练手小项目-微博ETL实战项目

目录一、项目背景与目标二、需求分析三、主要思路与考点详情一、项目背景与目标项目背景微博作为web2.0时代的代表性产物，成为很多数据类项目争相依赖的数据源，也批量产出了很多各式各样的数据采集工程师，他们经常以采集微博平台的各种数据为工作，并将数据持久化、结构化存储或交易给第三方需求者。但往往在数据交易时，数据是以各种各样的数据文件格式存储，如何将这些各式各样的数据文件快速通过ETL转化成我方需要的

周天亮·2019-03-24 18:58

55-天亮大数据系列教程之海量数据秒级布署与实时查询项目-课堂笔记-12

1、程序计算用时实用方法System.currentTimeMillis获取系统的当前时间在程序调用和结束时，分别调用如上方法，可以获取开始和结束时，结束-开始即为程序计算所用时间。注意事项：用时计算时，不要加入任何与计算无关的代码，如中间结果输出或查看等。即为代码测试最小化原则的使用思路。2、mr之自定义应用参数传递在海量数据实时搜索项目当中的使用？已提交到git中，项目是big_data_se

周天亮·2019-01-19 09:29

44-天亮大数据系列教程之sbt构建spark项目及wordcount示例

目录1、sbt构建spark开发环境与测试2、sparkwordcount打包与布署详情1、sbt构建spark开发环境构建一个sbteclipse的空项目1）创建一个基础项目目录2）在基础项目目录中，新建build.sbt脚本，并添加如下基础依赖。name:="SparkWordCount4Sbt"scalaVersion:="2.11.11"organization:="com.tl.job0

周天亮·2018-11-24 18:34

DE01复制粘贴玩大数据系列教程说明

0x00教程简介本系列课是一套只需要复制粘贴就能玩起大数据的教程，甚至不需要思考就能独立完成项目。0x01教程初衷1.让小伙伴们学习到更多小白都可以通过复制粘贴出成品，让你成就感爆棚指导有基础的人，通过系列课的思路，实现快速转型2.做自己想做的事情由衷觉得，教育是一件伟大的事情在世界上留下一些有意义的事情3.使自己得到成长整理知识体系，记录下自己的思考结识更多的志同道合的朋友，做快乐的事情0x02

邵奈一·2018-10-28 12:25

26-天亮大数据系列教程之网络爬虫的一般作法

一、网络爬虫的一般作法基于Socket通信编写爬虫基于HttpURLConnection类编写爬虫基于apache的HttpClient包编写爬虫基于phantomjs之类的无头（无界面）浏览器基于Selenium之类的有头（有界面）浏览器二、系统设计2.1模块划分：-任务管理的UI交互层、-任务调度层、-网络爬取层、-数据解析层、-数据持久化层2.2项目划分-数据采集/下载项目(download

周天亮·2018-06-23 11:27

25-天亮大数据系列教程之缓存数据库redis经典剖析

因为redis的基本操作及多种数据结构的支持比较的简洁易懂，故在此文不作赘述，本文主要解析一下redis面试常见问题应答。目录1、redis介绍2、redis重要说明1、redis介绍1.1redis是什么Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value内存型数据库。1.2redis主要特点支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候自动再次加载进行使用

周天亮·2018-06-18 21:54

17-天亮大数据系列教程之教学资源感恩大礼包

天亮教育大数据培训领导品牌，本着“我为人人，人人为我”的开源共享精神，特开放大批内部教学资料，也希望更多小伙伴参与到天亮教育的技术交流和报名学习当中来。其中包括JavaSe核心基础、网络爬虫爬虫基础与实战项目教学、redis应用开发、大数据教程之hadoop、spark、hive以及多个大数据实战项目视频教程，自主开源的多个爬虫项目和中文分词器、情感分析器、主题词提取等项目源码，适合学生、初学者、

周天亮·2018-05-17 23:32

09-天亮大数据系列教程之hive之udf/udaf/udtf

目录1、udf2、udaf3、udtf4、练习题详情1、udf(userdefinedfunction)背景系统内置函数无法解决实际的业务问题，需要开发者自己编写函数实现自身的业务实现诉求。应用场景非常多，面临的业务不同导致个性化实现很多，故udf很需要。意义函数扩展得到解决，极大丰富了可定制化的业务需求。IO要求-要解决的问题in:out=1:1,只能输入一条记录当中的数据，同时返回一条处理结果

周天亮·2017-12-01 12:56

06-天亮大数据系列教程之hadoop二次排序详解

二次排序定义mapreduce计算过程和输出，都是按key自动排序如果想要value也要排序输出，即key第一排序，value第二排序的方式。称为二次排序。如图：二次排序的实现工作流程图（按value降序，不一定要全局key有序，只要求单个reduce内的key有序亦可）核心思想将map端输出的(key,value)中的key和value组合成一个新的key，即称newKey，value值保持不变

周天亮·2017-11-14 23:40

大数据系列教程_storm 集群安装

12、storm安装安装之前需要安装Python2.71、编辑$STORM_HOME/conf/storm_env.ini配置JDKJAVA_HOME:/home/hadoop/cluster/jdk1.7.0_672、编辑$STORM_HOME/conf/storm.yamlstorm.zookeeper.servers:-"zookeeper1"-"zookeeper2"-"zookeeper

AShang_BigData·2014-12-06 18:04