高风言

CentOS虚拟机Java环境中MapReduce Hadoop的WordCount(词频运算)程序连接数据入门

1. Hadoop 简介

2. Hadoop 的架构

3. MapReduce 简介

4. Hadoop HDFS 简介

5. HDFS架构

6. MapReduce开发流程概念（重点)

7. maperuce 运算开发示例（重点）

8. hdfs 的数据类型（重点）

9. 完整代码

1. Hadoop 简介

Hadoop是使用Java编写，允许分布式集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。Hadoop是专为单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。

2. Hadoop 的架构

在其核心，Hadoop主要有两个层次，即：加工/计算层（MapReduce），以及存储层（Hadoop分布式文件系统）。

3. MapReduce 简介

MapReduce是一种并行编程模型，是一种处理技术和程序模型基于Java的分布式计算，用于编写普通硬件的设计，谷歌对大量数据的高效处理（多TB数据集）的分布式应用在大型集群（数千个节点）以及可靠的容错方式。MapReduce程序可在Apache的开源框架Hadoop上运行。MapReduce算法包含了两项重要任务，即Map和Reduce。Map采用了一组数据，并将其转换成另一组数据，其中，各个元件被分解成元组（键/值对）。其次，减少任务，这需要从Map作为输入并组合那些数据元组成的一组小的元组输出。作为MapReduce暗示的名称的序列在Map作业之后执行Reduce任务。【以下的MapReduce运算开发示例做详细说明】。

4. Hadoop HDFS 简介

Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他分布式系统，HDFS是高度容错以及使用低成本的硬件设计。

HDFS拥有超大型的数据量，并提供更轻松地访问。为了存储这些庞大的数据，这些文件都存储以冗余的方式的方式来拯救系统免受可能的数据损失，在发生故障时。同样，HDFS也使得可用于并行处理的应用程序。

HDFS的特点：①它适用于在分布式存储和处理。②Hadoop提供的命令接口与HDFS进行交互。③名称节点和数据节点的帮助用户内置的服务器能够轻松地检查集群的状态。④流式访问文件系统数据。⑤HDFS提供了文件的权限和验证。

5. HDFS架构

下面给出的是Hadoop的文件系统的体系结构。

HDFS遵循主从架构，它具有以下元素：

名称节点 - Namenode：包含GUN/Linux操作系统和软件名称节点的普通硬件。他是一个可以在商品硬件上运行的软件。具有名称节点系统作为主服务器，他执行以下任务：管理文件系统命名空间。规范客户端对文件的访问。它也执行文件系统操作，如重命名，关闭和打开文件和目录。

数据节点 - datanode：具有GUN/Linux操作系统和软件Datanode的普通硬件。对于集群中的每一个节点（普通硬件/系统），都有一个数据节点。这些节点管理数据存储在他们的系统。数据节点上的文件系统执行的读写操作，根据客户的请求。还根据名称节点的指令执行操作，如块的创建，删除和复制。

块：一般用户数据存储在HDFS文件。在一个文件系统中的文件将被划分为一个或多个段和/或存储在个人数据的节点。这些文件段被称为块。换句话说，数据的HDFS可以读取或写入的最小量被称为一个块。缺省的块大小为64MB，但他可以增加按照需要在HDFS配置来改变。

6. MapReduce开发流程概念（重点)

mapreduce 运算框架主要实现 hadoop 的数据处理。数据处理中流经过5个节点。
数据流： input -> split -> map -> shuffle -> reduce （最后 reduce 输出）
6.1 input
input 是将被运算的数据（文件）切成默认的是64M的块（block）方便后续运算。
6.2 split
切片，将Input中的块按照行切成片（片是键值对），方便后续Map运算。
   wordcount split 数据处理：每行的起始下标作为输出键，每行的内容作为输出值。
6.3 map（开发做）
对slipt的片（行）进行数据处理，处理成键值对。
   wordcount map 数据处理：将每行拆分成每一个单词作为输出键，个数设置为1 作为输出值。
6.4 shuffle
混洗，将所有的map运算结果重新按照键分组，输出键值对。
   wordcount 中 shuffle将map的相同键的数据合并成一条，值是一个固定值为1的数组。
6.5 reduce（开发做）
将混洗的结果集做数据处理。
   wordcount的 reduce数据处理：将键对应的值（值为1的数字）的做累加，即得出我们每个单词出现个数。
6.6 输出（output)

7. maperuce 运算开发示例（重点）

这里分布式设备（两台从机）会将不规则的不管是文件还是文件夹统一分配成规则的文件方式，并将所有文件分割成默认的64MB的多个块，这样就可以达到selever做任务的时候达到负载均衡的平均处理效果，提高工作效率。map是按照需求来拆分每一行（可以是将一拆分成多个单词，也可以是将多个合并成一个），并且是键值对关系，键对应的是字符串，值对应的是固定值为1的数组；那么在混洗的时候也要对应数据类型，输入的是字符串键，和数组类型。并且在运算过程中全是泛型方式。在开发中主要开发【map】、【shuffle】、【reduce】，而【shuffle】可以不用动，因为混洗本身是自带，不用开发。这里我们就重点开发MapReduce五步中的两步：【map】、【reduce】。

示例两个文件【所在路径：hdfs://node1:9000/input/下】：
1.txt

this is a hadoop text .hadoop is a application .
this is a example .

2.txt

java
mysql
hadoop
mybatis

mapreduce运算开发环境说明：我这里时安装的VMware Workstation Pro15运行环境（这个可以不做版本要求），在工具里安装了3个CentOS6.6的虚拟机，一台主机，两台从机，安装了jdk，eclipse，hadoop，并按要求进行了配置。这里不再赘述相关配置，前面的博客有相关的安装配置。

1）用命令启动hadoop运算（使用结束后记得按反顺序关闭运算框架）：

[hduser@node1 ~]$ ./hadoop/sbin/start-dfs.sh

[hduser@node1 ~]$ ./hadoop/sbin/start-yarn.sh

2）启动浏览器：http://node1:50070/ 查看是否启动运算的分布式成功：

准备工作（使用虚拟机中安装的eclipse作业）：
1）新建一个mapreduce项目：wordcountdemo【new】->【project】->【Map/Reduce Project】->【project name：wordcountdemo】->【finish】

2）新建资源文件夹：【右键项目名】->【new】->【source folder】->【folder name：resource】->【finish】
3）增加配置文件 core-site.xml ， log4j.properties (两个配置文件在hadoop安装目录下的conf文件都能找到，可直接使用）
4）新建一个class WordCountJob（开发map、开发reduce、创建job并执行）

引导的包：

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

7.1 Map 开发

Map 要求：
1）静态类
2）继承hadoop 的 Mapper父类方法【Mapper】

	 * 第1个参数：map 输入 键 的类型 
	 * 第2个参数：map 输入 值 的类型 
	 * 第3个参数：map 输出 键 的类型
	 * 第4个参数：map 输出 值 的类型

3）重写map()

/**
	 * 开发map
	 * 
	 * @author hduser 
	 * 第1个参数：map 输入键的类型 
	 * 第2个参数：map 输入值的类型 
	 * 第3个参数：map 输出键的类型
	 * 第4个参数：map 输出值的类型
	 */
	public static class WordCountMapper extends Mapper {
		/**
		 * 每一个切片 会执行一次map方法，
		 * keyIn是每一行的键，
		 * valueIn 是每一行的值， 
		 * context 是上下文容器，用于将map的结果输出到下一步
		 * wordcount map 把value拆成单个单词
		 * @throws InterruptedException 
		 * @throws IOException 
		 */
		public void map(Object keyIn,Text valueIn,Context ctx) throws IOException, InterruptedException{
			//固定值1 作为输出值
			IntWritable valueOut = new IntWritable(1);
			Text keyOut = null;
			//this is hadoop application.
			StringTokenizer token = new StringTokenizer(valueIn.toString());
			//按照迭代器用法使用 
			while (token.hasMoreTokens()) {
				String  key = token.nextToken();
				keyOut = new Text(key);
				ctx.write(keyOut, valueOut);
			}
		}

	}

7.2 Rreduce 开发
Reduce 要求：
   1）静态类
       2）继承hadoop 的 reduce父类方法【Reducer】
       3）重写reduce()

public static class WordCountReducer extends Reducer{
		public void reduce(Text keyIn,Iterable valuesIn,Context ctx) throws IOException, InterruptedException{
			Text keyOut = keyIn;
			//输出值
			IntWritable valueOut = new IntWritable();
			int sum = 0 ;
			//循环混洗后的数字数组，如[1,1,1,1,1]
			for (IntWritable val : valuesIn) {
				sum += val.get(); //转成int型 ， 做累加
			}
			valueOut.set(sum); //转成字符串输出去，将累加的结果转化为IntWritable类型
			ctx.write(keyOut, valueOut); //输出到下一步
		}

7.3 创建并启动job
1）加载hdfs配置文件（配置hdfs访问入口）
   2）创建一个job并确定设置job（运算作业）的主启动类。
   3）设置job的map自定义静态类
   4）设置job的reduce自定义静态类
   5) 配置最终输出（reduce）的输出键和值的类型
   6）mapreduce 作业需要的资源位置（总输入位置）
   7）mapreduce 作业结果的保存位置（总输出位置）
   8) 启动

9）注意：这里的mapreduce作业结果集总输出位置的文件是不能在hdfs中存在的，必须是在这里启动后重建的，如果hdfs中存在文件，启动时会抛异常。【Path outputPath = new Path("hdfs://node1:9000/output/wc3");】

public static void main(String[] args) throws Exception {
		// 创建job 执行job
//	     1）加载hdfs配置文件（配置hdfs访问入口）
		Configuration conf = new Configuration();
//		 2）创建一个job并确定设置job（运算作业）的主启动类。
		Job job = Job.getInstance(conf);
		job.setJarByClass(WordCountJob.class);
//		 3）设置job的map自定义静态类
		job.setMapperClass(WordCountMapper.class);
//		 4）设置job的reduce自定义静态类
		job.setReducerClass(WordCountReducer.class);
//       5) 配置最终输出（reduce）的输出键和值的类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
//       6）mapreduce 作业需要的资源位置（总输入位置）
		Path inputPath1 = new Path("hdfs://node1:9000/input/1.txt");
		Path inputPath2 = new Path("hdfs://node1:9000/input/2.txt");
		FileInputFormat.addInputPath(job, inputPath1);
		FileInputFormat.addInputPath(job, inputPath2);
//       7）mapreduce 作业结果的保存位置（总输出位置）
		Path outputPath = new Path("hdfs://node1:9000/output/wc3");
		FileOutputFormat.setOutputPath(job, outputPath);
//		 8) 启动
		System.exit(job.waitForCompletion(true)?0:1);
	}

7.4）启动运算后的结果：

8. hdfs 的数据类型（重点）

1）字符串 Text , 等同于Java中的字符串。在hdfs中Text类型是字节文件。

         Text -> String
         Text t :转成String t.toString()
         String -> Text
         Text t = new Text(字符串);

2）整型数字 IntWritable 等同于Java中的Integer

         IntWritable 转 int
            IntWritable a;
            int b = a.get();//转化            
         int 转 IntWritable
            IntWritable a = new IntWritable(数字);
            或
            IntWritable a = new IntWritable();
            a.set(数字);

3）长整型 LongWritable 等同于Java中的Long

9. 完整代码

package org.kgc1803.demo;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 词频
 * 
 * @author hduser
 *
 */
public class WordCountJob {
	/**
	 * 开发map
	 * 
	 * @author hduser 
	 * 第一个参数：map 输入键的类型 
	 * 第2个参数：map 输入值的类型 
	 * 第3个参数：map 输出键的类型
	 * 第4个参数：map 输出值的类型
	 */
	public static class WordCountMapper extends Mapper {
		/**
		 * 每一个切片 会执行一次map方法，
		 * keyIn是每一行的键，
		 * valueIn 是每一行的值， 
		 * context 是上下文容器，用于将map的结果输出到下一步
		 * wordcount map 把value拆成单个单词
		 * @throws InterruptedException 
		 * @throws IOException 
		 */
		public void map(Object keyIn,Text valueIn,Context ctx) throws IOException, InterruptedException{
			//固定值1 作为输出值
			IntWritable valueOut = new IntWritable(1);
			Text keyOut = null;
			//this is hadoop application.
			StringTokenizer token = new StringTokenizer(valueIn.toString());
			//按照迭代器用法使用 
			while (token.hasMoreTokens()) {
				String  key = token.nextToken();
				keyOut = new Text(key);
				ctx.write(keyOut, valueOut);
			}
		}

	}

	// 开发reduce
	public static class WordCountReducer extends Reducer{
		public void reduce(Text keyIn,Iterable valuesIn,Context ctx) throws IOException, InterruptedException{
			Text keyOut = keyIn;
			//输出值
			IntWritable valueOut = new IntWritable();
			int sum = 0 ;
			//循环混洗后的数字数组，如[1,1,1,1,1]
			for (IntWritable val : valuesIn) {
				sum += val.get(); //转成int型 ， 做累加
			}
			valueOut.set(sum); //转成字符串输出去，将累加的结果转化为IntWritable类型
			ctx.write(keyOut, valueOut); //输出到下一步
		}
		
	}

	public static void main(String[] args) throws Exception {
		// 创建job 执行job
//	     1）加载hdfs配置文件（配置hdfs访问入口）
		Configuration conf = new Configuration();
//		 2）创建一个job并确定设置job（运算作业）的主启动类。
		Job job = Job.getInstance(conf);
		job.setJarByClass(WordCountJob.class);
//		 3）设置job的map自定义静态类
		job.setMapperClass(WordCountMapper.class);
//		 4）设置job的reduce自定义静态类
		job.setReducerClass(WordCountReducer.class);
//       5) 配置最终输出（reduce）的输出键和值的类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
//     6）mapreduce 作业需要的资源位置（总输入位置）
		Path inputPath1 = new Path("hdfs://node1:9000/input/1.txt");
		Path inputPath2 = new Path("hdfs://node1:9000/input/2.txt");
		FileInputFormat.addInputPath(job, inputPath1);
		FileInputFormat.addInputPath(job, inputPath2);
//     7）mapreduce 作业结果的保存位置（总输出位置）
		Path outputPath = new Path("hdfs://node1:9000/output/wc3");
		FileOutputFormat.setOutputPath(job, outputPath);
//		  8) 启动
		System.exit(job.waitForCompletion(true)?0:1);
	}

}

大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
Python自动化：Python操作Excel的多种方式Pandas+openpyxl+xlrd 长风清留扬 Python excel python pandas 自动化 Python办公自动化数据分析开发语言
在Python中，操作Excel数据通常可以通过几个流行的库来实现，比如pandas、openpyxl、xlrd等。下面会分别介绍这三个流行库来实现对Excel的操作。博客主页：长风清留扬-CSDN博客每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论推荐阅读：Python入门最全基础Python
高校为什么需要AIGC大数据实验室？泰迪智能科技01 AIGC AIGC 大数据
AIGC大数据实验室是一个专注于人工智能生成内容（AIGC）和大数据相关技术研究、开发与应用的创新实验平台。AIGC主要研究方向包括：AIGC技术创新、大数据处理与分析、AIGC与大数据融合应用。AIGC技术创新：探索如何利用人工智能算法，如深度学习中的生成对抗网络（GAN）、变分自编码器（VAE）、基于Transformer架构的语言模型（如GPT系列）等，来高效地生成高质量的文本、图像、音频、
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
Hbase集群搭建超详细教程笑看风云路集群搭建系列 hbase hbase hadoop 大数据
Hbase集群搭建前言详细步骤1、下载安装包2、解压3、修改配置文件3.1修改hbase-env.sh文件3.2修改hbase-site.xml3.3修改regionservers文件4、分发hbase目录5、启动HBase集群6、查看HBaseWebUI大家好，我是风云，欢迎大家关注我的博客，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！前言HBase是一个开源的、
魔法王国的故事——档案馆的危机健鑫. 数据仓库大数据 hadoop
❝这是一个连续的专栏,在这里,我将用一个奇幻的魔法王国的故事,来向你介绍大数据相关内容，希望在这里可以帮助你学到有用的知识第一章：档案馆的危机在一个遥远的魔法王国，有一个叫做档案馆的地方，那里存放着王国的所有重要的文件，比如法律、历史、魔法、地理等等。这些文件是王国的智慧之源，也是王国的秘密之宝，它们记录着王国的过去、现在和未来。档案馆由一位叫做档案大臣的人负责管理，他是王国最聪明也最忙碌的人之一
西安-腾讯云-Python面试经验--一面凉经 jiet07 腾讯云面试
自我介绍手撕链表排序操作系统a.线程和进程区别b.线程安全c.如何保证线程安全d.线程崩溃，会不会影响所在的进程e.什么是守护进程，僵尸进程，孤儿进程f.如何产生一个守护进程g.如何避免僵尸进程或者孤儿进程redisa.持久化方式有哪些，区别是什么b.redis集群有了解么c.rediszset()—底层如何实现（哈希表+跳跃表）和大数据相关的操作a.请求有多少，数据有多少b.Gbp/s负载均衡a
报表任务治理计划 liujianhuiouc
背景介绍近些年来，大数据技术得到了很广的应用，支撑了业务的快速发展。作为大数据的平台部门，提供了大数据相关的基础能力，业务同学借助于大数据的底层赋能完成更偏向业务的需求开发。报表是大数据支撑最早最广的功能形态。先给大家介绍我们我们公司的报表产出组件图：报表产出图底层平台由HDFS、Yarn分别提供存储和计算支持在这之上我们提供了一套支持MR、Spark任务开发、依赖执行的调度系统BI业务同学利用调
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
大数据从何学起？大数据脑图+学习路线清晰的告诉你！ yoku酱
近些年，大数据的火热可谓是技术人都知道啊，很多人呢，也想学习大数据相关，但是又不知道从何下手，所以今天柠檬这里分享几个大数据脑图，希望可以让你清楚明白从哪里入门大数据，知道该学习以及掌握哪些知识点；当然还有自学教程分享哦！【大数据开发学习资料领取方式】：加入大数据技术学习交流扣扣群458345782，点击加入群聊，私信管理员即可免费领取第一阶段linux+搜索+hadoop体系Linux基础→sh
想学大数据？先看完这几本书再说 yoku酱
真正的数据爱好者有很多需要阅读的内容：大数据，机器学习，数据科学，数据挖掘等。除了这些技术领域，还有一些特定的技术和语言需要你继续研究：Hadoop，Spark，Python，和R等等，还有无数实现自动化的工具等等，这些工具几乎每天都会用到，这就需要你不断的学习。幸运的是，以上提到的这些都不缺关于它们的书籍。本文首先帮大家盘点几本大数据相关的书籍，这些书都是亚马逊上的畅销排行榜上的：关于大数据1、
2019-03-07 bigtian
早七点半起床。今天写了大量代码，最近一周的编码状态越来越好，代码也写得越来越顺手，今天把我的数据服务写了一个客户端调用程序，感觉质量还是比较满意的。公司做数据，但是我一个架构师对大数据相关技术却了解很浅，实在是惭愧。以后需要大力加强这一块的技能。对同事要善良，今天同事工作不开心闹了情绪，我主动将活揽过来，做好之后再跟他解释一遍我的思路，感觉这样他会更容易理解也更好的成长，只要一个人是积极向上的，就
做大数据需要学习哪些东西啊 kuntoria
文章来源：科多大数据做大数据需要学习哪些东西啊，相信不少对大数据职位感兴趣的人都会有这样的疑问。科多大数据老师结合同学们的疑问，为大家整理了做大数据需要学习哪些东西，下面随着科多大数据老师一起来看看吧，希望可以帮助到大家。Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hi
大数据技术之Hadoop 我走之後大数据 hadoop 分布式
相关导论大数据相关导论首先我们要知道一切皆数据数据的作用从海量数据中提取出有效的价值信息,实现数据的商业化,价值化,给企业的决策者或者运营人员提供数据支持或者分析性报告.更好的了解事与物的运行规律,给生活赋能.什么是大数据数据的体量比较大,2000年全球互联的概念提出及普及后,数据量开始快速增长....数据单位:bit,byte,kb,mb,gb,tb,pb,eb,zb,yb,bb,nb,db大数
从 Greenplum 到 Databend，万全网络数据库平台架构演进 Databend 网络数据库架构
作者：代城万全网络高级工程师，负责万全网络数据平台整体架构研发工作，拥有超过7年的大数据相关技术研发经验，一直关注着开源和云技术的发展。万全网络科技有限公司是一家专注于B端电商物流供应链的公司。致力于为客户提供全面的供应链解决方案，涵盖从产品采购到最终配送的全程服务。公司的服务包括但不限于：供应链管理，仓储与配送，信息技术支持。迁移背景在不断发展的科技环境中，企业往往需要不断调整和优化其技术基础设
程序人生系列1-2021年通过私活累积收益1.5w 只是甲程序人生程序员接单私活留学生课程作业
博主在B站更新了接私活的视频，感兴趣的可以移步到我的B站:博主私活记录一.个人介绍 2011年毕业，计算机专业科班出身，10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验，持有OracleOCP和LinuxRHCE认证证书。毕业第一份工作很幸运的成为了一个OracleDBA，刚毕业就开始维护TB级的数据。在知道自身实力不足的情况下，报名培训机构，相继考了OracleO
面试整理 qq_20962187
数据分析/hadoop/机器学习面试题集锦，可能是最全的了…发表于：2017-09-2115:17阅读：178评论：0无论你是想从事大数据相关职位的职场小白，还是准备往高处走的牛牛。小白有了这些在校招中过关斩将，牛牛们温故知新跨过业务壁垒。B格高的HR，或者想要个助理的大数据工作者也可以了解下同行是怎么筛选人。非主流的可以拿来撩HR妹纸，折腾面试的小鲜肉…………………………数据分析1、提前想好答案
高校科研管理系统源代码_教育领域各大高校如何建设智慧校园？你的学校够数字化吗？... weixin_39714835 高校科研管理系统源代码
11月26日，作为数据分析&BI领域领导企业的永洪科技与知名高校东北财经大学数据科学与人工智能学院在北京举行了战略合作签约仪式，共建大数据教学、科研、管理模式顶层设计方案，服务智慧校园建设。双方以教学和科研为中心，以产业为导向，实现与大数据发展实际接轨的发展方向，共同服务高校大数据相关技术与应用的发展。这是永洪科技在教育领域校企合作的又一标杆案例。国务院印发的《促进大数据发展行动纲要》指出，要加强
python爬取可视化html_教你用Python爬网站数据，并用BI可视化分析！ weixin_39824834 python爬取可视化html
作为一名在数据行业打拼了两年多的数据分析师，虽然目前收入还算ok，但每每想起房价，男儿三十还未立，内心就不免彷徨不已~两年时间里曾经换过一份工作，一直都是从事大数据相关的行业。目前是一家企业的BI工程师，主要工作就是给业务部门出报表和业务分析报告。回想自己过去的工作成绩也还算是不错的，多次通过自己分析告，解决了业务的疑难杂症，领导们各种离不开。但安逸久了总会有点莫名的慌张，所以我所在的这个岗位未来
程序员必备的面试技巧——大数据工程师面试必备技能 Francek Chen 话题征文面试职场和发展大数据
目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位2、大数据分析岗位总结前言“程序员必备的面试技巧，就像是编写一段完美的代码一样重要。在面试战场上，我们需要像忍者一样灵活，像侦探一样聪明，还要像无敌铁金刚一样坚定。只有掌握了这些技巧，我们才能在面试
【个人笔记】由浅入深分析 ClickHouse garagong 大数据 clickhouse 数据库大数据列式存储分布式数据库分布式数据仓库
项目中不少地方使用到ClickHouse，就对它做了一个相对深入一点的了解和研究。并对各种知识点及整理过程中的一些理解心得进行了汇总并分享出来，希望对其他同学能有帮助。本文主要讲解ClickHouse的特点、读写过程、存储形式、索引、引擎、物化视图等特性。适合入门和进阶大牛可直接跳过。信息主要来自于互联网以及组内同学的讨论讲解。如有理解错误的地方，欢迎批评指正。大家想了解更多大数据相关内容请移驾我
一站式大数据平台XSailboat简介--Hadoop、Hive、Flink、DataStudio、数据服务、API网关、认证中心、数据可视化、离线分析、实时计算、应用引擎等 OkGogooXSailboat 大数据平台开发技术大数据
1.引言从2021年年底开始，笔者带领一个微型团队开始开发我们的大数据平台XSailboat，目前已经初步具备实用化条件，产品将持续性地开发、完善、迭代升级。在接下来的一段时间，笔者将陆续编写一些关于大数据平台实现相关的技术文档，有兴趣的从事大数据相关的同学，可以关注收藏一下，交流一下开发技术。如果对我们的大数据平台XSailboat感兴趣的同学比较多，希望将其应用于学习或商业项目中，我们可以在条
【个人笔记】ClickHouse 查询优化 garagong 大数据 clickhouse 大数据数据仓库 OLAP 分布式数据库 java
ClickHouse是OLAP（Onlineanalyticalprocessing）数据库，以速度见长。ClickHouse为什么能这么快？有两点原因：架构优越列式存储索引数据压缩向量化执行资源利用关注底层细节但是，数据库设计再优越也拯救不了错误的使用方式，本文以MergeTree引擎家族为例讲解如何对查询优化。大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据
mysql 解析json字符串、数组字符串、json数组字符串扫地增 sql mysql json 数据库
背景：笔者使用mysql5.7进行了一次json字符串的解析，因为一直在搞大数据相关的数据库、olap等，太久没有用mysql5.x的版本，一些函数已经不知道支不支持，我的同事建议我使用like、rlike模糊匹配的方式，身为数据人我不太喜欢用这种手段，因为他们比较低效。于是我想这里总结一下，做一下备忘，希望也对大家有帮助。json字符串解析MySQL解析JSON字符串，可以使用MySQL的JSO
Hadoop基础之初识大数据与Hadoop 林尧彬数据库操作系统大数据
前言从今天起，我将一步一步的分享大数据相关的知识，其实很多程序员感觉大数据很难学，其实并不是你想象的这样，只要自己想学，还有什么难得呢？学习Hadoop有一个8020原则，80%都是在不断的配置配置搭建集群，只有20%写程序！一、引言（大数据时代）1.1、从数据中得到信息我们看一张图片：我们知道这个图片上的人叫张小妹，年龄20岁，职业模特。但是如果只有数据没有图片的话，就没有意义的数据了。所以数据
Spark避坑系列（三）（Spark Core-RDD 依赖关系&持久化&共享变量） garagong 大数据 spark 大数据 hadoop 分布式数据处理
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模PySpark入坑系列第三篇，该篇章主要介绍spark的编程核心RDD的其他概念，依赖关系，持久化，广播变量，累加器等一、RDD依赖关系1、血缘关系（Lineage）在spark中，数据的处理和计算都是通过RDD的转换进行的。由于RDD是不可变的，在转换的过程中就会
Spark避坑系列一（基础知识） garagong 大数据 spark 大数据分布式
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模剖析及实践数据资产运营平台Spark作为大数据领域离线计算的王者，在分布式数据处理计算领域有着极高的处理效率，而Python作为Spark支持的开发的重要语言之一，特别对各类机器学习算法的支持，使得有着极高的使用率，本系列文章将通过介绍Spark的基础使用，带大伙入
Spark避坑系列二（Spark Core-RDD编程） garagong 大数据 spark 大数据分布式
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模PySpark避坑系列第二篇，该篇章主要介绍spark的编程核心RDD，RDD的概念，基础操作一、什么是RDD1.1概念RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面
个人笔记：分布式大数据技术原理（一）Hadoop 框架 garagong 大数据分布式大数据 mapreduce hadoop
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模剖析及实践数据资产运营平台ApacheHadoop软件库是一个框架，它允许使用简单的编程模型，实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障，从单个机器扩展到数千台机器（这些机器可以是廉价的），每个机器提供本地计算和存储，
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

CentOS虚拟机Java环境中MapReduce Hadoop的WordCount(词频运算)程序连接数据入门

1. Hadoop 简介

2. Hadoop 的架构

3. MapReduce 简介

4. Hadoop HDFS 简介

5. HDFS架构

6. MapReduce开发流程概念（重点)

7. maperuce 运算开发示例（重点）

8. hdfs 的数据类型（重点）

9. 完整代码

你可能感兴趣的:(大数据相关)