潇潇雨歇_

SpringBoot集成Hadoop系列二 ---- MapReduce对表的join操作

代码:

package com.hadoop.reduce.model;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * 订单商品对象
 * @author linhaiy
 * @date 2019.05.18
 */
public class OrderInfo implements Writable, Cloneable {
	// 订单号
	private Integer orderId;
	// 时间
	private String orderDate;
	// 产品编号
	private String pid;
	// 数量
	private Integer amount;
	// 产品名称
	private String pname;
	// 种类
	private Integer categoryId;
	// 价格
	private Double price;
	/**
	 * 这个字段需要理解

	 * 因为这个对象，包含了订单与产品的两个文件的内容，当我们加载一个文件的时候，肯定只能加载一部分的信息，另一部分是加载不到的，需要在join的时候，
	 * 加进去，这个字段就代表着这个对象存的是哪些信息 如果为0 则是存了订单信息 如果为1 则是存了产品信息
	 */
	private String flag;

	public OrderInfo() {
	}

	@Override
	public Object clone() throws CloneNotSupportedException {
		return super.clone();
	}

	@Override
	public void write(DataOutput output) throws IOException {
		output.writeInt(orderId);
		output.writeUTF(orderDate);
		output.writeUTF(pid);
		output.writeInt(amount);
		output.writeUTF(pname);
		output.writeInt(categoryId);
		output.writeDouble(price);
		output.writeUTF(flag);
	}

	@Override
	public void readFields(DataInput input) throws IOException {
		orderId = input.readInt();
		orderDate = input.readUTF();
		pid = input.readUTF();
		amount = input.readInt();
		pname = input.readUTF();
		categoryId = input.readInt();
		price = input.readDouble();
		flag = input.readUTF();
	}

	public void set(Integer orderId, String orderDate, String pid, Integer amount, String pname, Integer categoryId,
			Double price, String flag) {
		this.orderId = orderId;
		this.orderDate = orderDate;
		this.pid = pid;
		this.amount = amount;
		this.pname = pname;
		this.categoryId = categoryId;
		this.price = price;
		this.flag = flag;
	}

	public Integer getOrderId() {
		return orderId;
	}

	public void setOrderId(Integer orderId) {
		this.orderId = orderId;
	}

	public String getOrderDate() {
		return orderDate;
	}

	public void setOrderDate(String orderDate) {
		this.orderDate = orderDate;
	}

	public String getPid() {
		return pid;
	}

	public void setPid(String pid) {
		this.pid = pid;
	}

	public Integer getAmount() {
		return amount;
	}

	public void setAmount(Integer amount) {
		this.amount = amount;
	}

	public String getPname() {
		return pname;
	}

	public void setPname(String pname) {
		this.pname = pname;
	}

	public Integer getCategoryId() {
		return categoryId;
	}

	public void setCategoryId(Integer categoryId) {
		this.categoryId = categoryId;
	}

	public Double getPrice() {
		return price;
	}

	public void setPrice(Double price) {
		this.price = price;
	}

	public String getFlag() {
		return flag;
	}

	public void setFlag(String flag) {
		this.flag = flag;
	}

	@Override
	public String toString() {
		final StringBuilder sb = new StringBuilder("{");
		sb.append("\"orderId\":").append(orderId);
		sb.append(",\"orderDate\":\"").append(orderDate).append('\"');
		sb.append(",\"pid\":").append(pid);
		sb.append(",\"amount\":").append(amount);
		sb.append(",\"pname\":\"").append(pname).append('\"');
		sb.append(",\"categoryId\":").append(categoryId);
		sb.append(",\"price\":").append(price);
		sb.append(",\"flag\":\"").append(flag).append('\"');
		sb.append('}');
		return sb.toString();
	}
}

package com.hadoop.reduce.mapper;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import com.hadoop.reduce.model.OrderInfo;

import java.io.IOException;

/**
 * mapreduce 表join功能
 * @author linhaiy
 * @date 2019.05.18
 */
public class JoinMapper extends Mapper {
	private Text text = new Text();
	private OrderInfo orderInfo = new OrderInfo();
	private final static String ORDER_FILE_NAME = "order";
	private final static String PRODUCT_FILE_NAME = "product";
	private final static String ORDER_FLAG = "0";
	private final static String PRODUCT_FLAG = "1";

	/**
	 * 读取 order.txt 内容格式 1001,20170822,p1,3 读取 product.txt 内容格式 p1,防空火箭,1,20.2
	 * @param key
	 * @param value
	 * @param context
	 * @throws IOException
	 * @throws InterruptedException
	 */
	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		String line = new String(value.getBytes(), 0, value.getLength(), "GBK");
		// 跳过标题，标题带有#号
		if (line.startsWith("#")) {
			return;
		}

        //获取当前任务的输入切片，这个InputSplit是一个最上层抽象类，可以转换成FileSplit
		InputSplit inputSplit = context.getInputSplit();
		FileSplit fileSplit = (FileSplit) inputSplit;
		// 得到的是文件名，这里根据文件名来判断是哪一种类型的数据，得到的是order或者product
		String fileName = fileSplit.getPath().getName();

		// 我们这里通过文件名判断是哪种数据
		String pid = "";
		String[] spilt = line.split(",");
		if (fileName.startsWith(ORDER_FILE_NAME)) {
			// 加载订单内容，订单数据里面有 订单号，时间，产品ID，数量
			Integer orderId = Integer.parseInt(spilt[0]);
			String orderDate = spilt[1];
			pid = spilt[2];
			Integer amount = Integer.parseInt(spilt[3]);
//          set(Integer orderId, String orderDate, String pid, Integer amount, String pname, Integer categoryId, Double price, String flag)
			orderInfo.set(orderId, orderDate, pid, amount, "", 0, 0.0, ORDER_FLAG);
		} else {
			// 加载产品内容，产品数据有 产品编号，产品名称，种类，价格
			pid = spilt[0];
			String pname = spilt[1];
			Integer categoryId = Integer.parseInt(spilt[2]);
			Double price = Double.valueOf(spilt[3]);
			orderInfo.set(0, "", pid, 0, pname, categoryId, price, PRODUCT_FLAG);
		}
		text.set(pid);
		context.write(text, orderInfo);
	}
}

package com.hadoop.reduce.reducer;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import com.hadoop.reduce.model.OrderInfo;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * mapreduce的表join操作
 * @author linhaiy
 * @date 2019.05.18
 */
public class JoinReduce extends Reducer {
	private final static String ORDER_FLAG = "0";
	private final static String PRODUCT_FLAG = "1";

	/**
	 * 解析mapper读取后的文件格式 产品pid orderInfo对象
	 * @param key
	 * @param values
	 * @param context
	 * @throws IOException
	 * @throws InterruptedException
	 */
	@Override
	protected void reduce(Text key, Iterable values, Context context)
			throws IOException, InterruptedException {
		// 这个对象用来存放产品的数据，一个产品所以只有一个对象
		OrderInfo product = new OrderInfo();
		// 这个list用来存放所有的订单数据，订单肯定是有多个的
		List list = new ArrayList<>();

		// 循环map输出
		for (OrderInfo info : values) {
			// 判断是订单还是产品的map输出
			if (ORDER_FLAG.equals(info.getFlag())) {
				// 订单表数据
				OrderInfo tmp = new OrderInfo();
				try {
					tmp = (OrderInfo) info.clone();
				} catch (Exception e) {
					e.printStackTrace();
				}
				list.add(tmp);
			} else {
				// 产品表数据
				try {
					product = (OrderInfo) info.clone();
				} catch (Exception e) {
					e.printStackTrace();
				}
			}
		}

		// 经过上面的操作，就把订单与产品完全分离出来了，订单在list集合中，产品在单独的一个对象中
		// 然后可以分别综合设置进去
		for (OrderInfo tmp : list) {
			tmp.setPname(product.getPname());
			tmp.setCategoryId(product.getCategoryId());
			tmp.setPrice(product.getPrice());
			// 最后输出
			context.write(tmp, NullWritable.get());
		}

	}
}

package com.hadoop.reduce.service;

import java.io.IOException;

import javax.annotation.PostConstruct;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Component;

import com.hadoop.reduce.bean.StaffProvincePartitioner;
import com.hadoop.reduce.bean.WeiboInputFormat;
import com.hadoop.reduce.mapper.CounterMapper;
import com.hadoop.reduce.mapper.FriendsMapper;
import com.hadoop.reduce.mapper.JoinMapper;
import com.hadoop.reduce.mapper.StaffMap;
import com.hadoop.reduce.mapper.WeatherMap;
import com.hadoop.reduce.mapper.WeiboMapper;
import com.hadoop.reduce.mapper.WordCount;
import com.hadoop.reduce.mapper.WordCountMap;
import com.hadoop.reduce.model.GroupSortModel;
import com.hadoop.reduce.model.OrderInfo;
import com.hadoop.reduce.model.StaffModel;
import com.hadoop.reduce.model.Weibo;
import com.hadoop.reduce.reducer.FriendsReduce;
import com.hadoop.reduce.reducer.JoinReduce;
import com.hadoop.reduce.reducer.StaffReduce;
import com.hadoop.reduce.reducer.WeatherReduce;
import com.hadoop.reduce.reducer.WeiboReduce;
import com.hadoop.reduce.reducer.WordCountReduce;
import com.hadoop.util.GroupSort;

/**
 * Map/Reduce工具类
 * @author linhaiy
 * @date 2019.05.18
 */
@Component
public class ReduceJobsUtils {

	@Value("${hdfs.path}")
	private String path;

	private static String hdfsPath;

	/**
	 * 获取HDFS配置信息
	 * @return
	 */
	public static Configuration getConfiguration() {
		Configuration configuration = new Configuration();
		configuration.set("fs.defaultFS", hdfsPath);
		configuration.set("mapred.job.tracker", hdfsPath);
		// 运行在yarn的集群模式
		// configuration.set("mapreduce.framework.name", "yarn");
		// 这个配置是让main方法寻找该机器的mr环境
		// configuration.set("yarn.resourcemanmager.hostname", "node1");
		return configuration;
	}

	/**
	 * mapreduce 表join
	 * @param jobName
	 * @param inputPath
	 * @param outputPath
	 * @throws IOException
	 * @throws ClassNotFoundException
	 * @throws InterruptedException
	 */
	public static void join(String jobName, String inputPath, String outputPath)
			throws IOException, ClassNotFoundException, InterruptedException {
		Configuration config = getConfiguration();
		Job job = Job.getInstance(config, jobName);
		// 设置jar中的启动类，可以根据这个类找到相应的jar包
		job.setJarByClass(OrderInfo.class);

		job.setMapperClass(JoinMapper.class);
		job.setReducerClass(JoinReduce.class);

		// 设置Mapper的输出
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(OrderInfo.class);

		// 设置reduce的输出
		job.setOutputKeyClass(OrderInfo.class);
		job.setOutputValueClass(NullWritable.class);

		// 指定输入输出文件的位置
		FileInputFormat.setInputPaths(job, new Path(inputPath));
		FileOutputFormat.setOutputPath(job, new Path(outputPath));

		job.waitForCompletion(true);
	}

	@PostConstruct
	public void getPath() {
		hdfsPath = this.path;
	}

	public static String getHdfsPath() {
		return hdfsPath;
	}
}

package com.hadoop.reduce.service;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.springframework.stereotype.Service;
import com.hadoop.hdfs.service.HdfsService;

/**
 * 单词统计
 * @author linhaiy
 * @date 2019.05.18
 */
@Service
public class MapReduceService {

	// 默认reduce输出目录
	private static final String OUTPUT_PATH = "/output";

	/**
	 * mapreduce 表join操作
	 * @param jobName
	 * @param inputPath
	 * @throws Exception
	 */
	public void join(String jobName, String inputPath) throws Exception {
		if (StringUtils.isEmpty(jobName) || StringUtils.isEmpty(inputPath)) {
			return;
		}
		// 输出目录 = output/当前Job
		String outputPath = OUTPUT_PATH + "/" + jobName;
		if (HdfsService.existFile(outputPath)) {
			HdfsService.deleteFile(outputPath);
		}
		ReduceJobsUtils.join(jobName, inputPath, outputPath);
	}
}

package com.hadoop.reduce.controller;

import org.apache.commons.lang.StringUtils;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.ResponseBody;
import org.springframework.web.bind.annotation.RestController;
import com.hadoop.reduce.service.MapReduceService;
import com.hadoop.util.Result;

/**
 * MapReduce处理控制层
 * @author linhaiy
 * @date 2019.05.18
 */
@RestController
@RequestMapping("/hadoop/reduce")
public class MapReduceAction {

	@Autowired
    MapReduceService mapReduceService;
	
	/**
	 * mapreduce 表join操作
	 * @param jobName
	 * @param inputPath
	 * @return
	 * @throws Exception
	 */
	@RequestMapping(value = "join",method= RequestMethod.POST)
    @ResponseBody
	public Result join(@RequestParam("jobName") String jobName, @RequestParam("inputPath") String inputPath) throws  Exception{
		if (StringUtils.isEmpty(jobName) || StringUtils.isEmpty(inputPath)) {
			return new Result(Result.FAILURE, "请求参数为空");
		}
		mapReduceService.join(jobName, inputPath);
		return new Result(Result.SUCCESS, "表join操作成功");
	}
}

大数据开发之Kubernetes篇----安装部署Kubernetes&dashboard 豆豆总 kubernetes
Kubernetes简介由于公司有需要，需要将外后的服务外加Tensorflow模型部署加训练全部集成到k8s上，所以特意记录下这次简单部署的过程。k8s安装部署首先，我们在部署任何大型的组件前都必须要做的事情就是关闭防火墙和设置hostname了vi/etc/hostsk8s001xxx.xxx.xxx.xxk8s002xxx.xxx.xxx.xx...systemctlstopfirewall
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化晴天彩虹雨大数据 spark big data
1.引言ApacheSpark是当前最流行的大数据计算框架之一，其中SparkSQL、DataFrame和RDD（ResilientDistributedDataset）是数据处理的三大核心API。如何优化Spark作业的性能，是大数据开发者必须掌握的关键技能。本文将深入探讨SparkSQL、DataFrame和RDD的性能优化方法，并结合实际案例进行分析。2.SparkSQL性能优化(1)使用P
《DataWorks：为人工智能算法筑牢高质量数据根基》人工智能深度学习
在当今数字化时代，人工智能（AI）技术的迅猛发展深刻地改变着各个行业的面貌。从智能推荐系统到医疗影像诊断，从自动驾驶到自然语言处理，AI正以前所未有的速度渗透到我们生活和工作的方方面面。而在这一系列AI应用的背后，高质量的训练数据是其能够发挥强大效能的关键所在。就如同巧妇难为无米之炊，没有优质的数据，再先进的AI算法也难以施展拳脚。阿里巴巴的DataWorks，作为一款强大的大数据开发治理平台，在
大数据、云计算系统高级架构师课程学习路线图 juan188 大数据大数据开发程序员 spark Linux 大数据学习人工智能数据分析 hadoop 大数据学习大数据开发大数据入门大数据技术大数据
大数据之Linux+大数据开发篇大数据的前景和意义也就不言而喻了，未来，大数据能够对大量、动态、能持续的数据，通过运用新系统、新工具、新模型的挖掘，从而获得具有洞察力和新价值的东西。源于互联网的发展，收集数据的门槛越来越低，收集数据变成一件简单的事情，这些海量的数据中是含有无穷的信息和价值的，如何更好的提炼出有价值的信息，这就体现大数据的用途了。大数据是未来的发展方向，正在挑战我们的分析能力及对世
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目 flink大数据实时计算
摘要：本文整理自鹰角大数据开发工程师，ApacheHudiContributor朱正军老师在FlinkForwardAsia2024生产实践（二）专场中的分享。主要分为以下四个部分：一、鹰角数据平台架构二、数据湖选型三、湖仓一体建设四、未来展望一、鹰角数据平台架构首先给大家介绍一下鹰角目前的数据平台架构。在介绍之前，关于鹰角我先给大家做简单的介绍。1.1关于鹰角鹰角网络，也称为HYPERGRYPH
大数据开发语言Scala入门编程小郭 scala 开发语言
大数据开发语言Scala的详解一、引言在大数据和云计算时代，数据的处理和分析变得尤为重要。为了有效地处理和分析这些数据，需要一种强大的编程语言。Scala作为一种多范式的编程语言，结合了面向对象编程和函数式编程的优点，为大数据开发提供了强大的支持。本文将详细介绍Scala及其优缺点、应用场景等。二、Scala概述Scala是由MartinOdersky教授于2003年开发的编程语言，旨在集成面向对
关于阿里云DataWorks的20道面试题编织幻境的妖阿里云云计算
1.请简要介绍阿里云DataWorks的基本概念和主要功能。阿里云DataWorks是一个全链路的大数据开发治理平台，其主要功能包括数据集成、数据建模与开发、数据地图、数据质量和数据服务等。DataWorks的基本概念围绕其作为一个大数据开发和治理的平台，它整合了多种大数据引擎如MaxCompute、Hologres、EMR、AnalyticDB、CDP等，旨在为数据仓库、数据湖及湖仓一体化解决方
计算机专业毕业 m0_73641845 python 爬虫 flask django beautifulsoup
接java开发，小程序开发，Python开发，大数据开发，网站设计，文档编写，原型设计可接大学生作业，各种项目给要求就行，可附赠报告~可针对小白辅导，诚信服务，咨询问题免费。（可入主页浏览）根据需求不同定价不同，欢迎咨询!!!
顺丰大数据开发面试题及参考答案大模型大数据攻城狮大数据大厂面试大数据面试牛客网手撕离线数仓 leetcode
Flink的提交过程是怎样的？Flink的提交过程通常包含以下步骤：代码编写与打包：开发人员首先使用Flink提供的API编写数据处理逻辑，包括定义数据源、转换操作和数据sink等。完成代码编写后，将项目打包成可执行的JAR文件，其中包含了所有依赖的库和资源。选择提交方式：Flink支持多种提交方式，如命令行提交、WebUI提交和通过客户端API提交。命令行提交适用于在终端中进行快速部署，用户可以
2024年最全Doris：读取Doris数据的N种方法_访问 doris，阿里大牛教你自己写大数据开发第三方库 2401_84181108 程序员大数据
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！arrow-memory-netty${arrow.v
猫眼大数据开发面试题及参考答案大模型大数据攻城狮数据仓库大数据数据开发窗口函数 hive外部表维度建模数仓分层
Java基本数据类型有哪些？包装类型又是什么？Java的基本数据类型是Java语言中最基础的数据类型，它们用于存储简单的值。Java的基本数据类型主要分为以下几类：整型byte：占1个字节，取值范围是-128到127，通常用于节省内存的场景，比如处理文件或网络数据时，存储一些小的整数值。short：占2个字节，取值范围是-32768到32767，使用场景相对较少，但在某些需要节省内存且数值范围不大
【爬虫】JS逆向解决蝉妈妈加密参数data 秋无之地爬虫JS逆向 python 爬虫 js逆向
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关目录一、先打开目标网站，打开F12调试模式二、通过刷新页面定位接口，并找到接口上的加密参数data三、打开启动器（Initiator）
JavaSE笔记总结火车驶向云外.11 java 开发语言
一、Java简介1、三大平台JavaSE：Java标准版，用于桌面应用开发，为今后从事JavaEE开发打基础（C语言和C++语言占有优势）。JavaME：小型版的Java语言，用于嵌入式电子设备或者小型移动设备。JavaEE：企业版，web方向的网站开发和服务器开发，这个领域Java第一。2、Java能做什么？桌面应用开发企业级应用开发移动应用开发科学计算大数据开发游戏开发3、Java的特性面向对
如何写一份合格的大数据简历（附简历模板）教程 itLeeyw573 老板必点的高分简历 sqlite oracle mysql sql zookeeper kafka big data
一、简历的重要性简历是求职者给招聘者的第一印象，一份合格的简历能够快速让招聘者了解你的基本信息、工作经历、技能特长等，从而决定是否给予你面试机会。它是开启理想工作大门的钥匙，所以一定要重视起来。【编辑/下载】：大数据开发简历范文二、简历结构基本信息：包含姓名、性别、联系方式（电话、邮箱）、求职意向。姓名要突出显示，联系方式务必准确无误，求职意向明确且具体，比如“Java开发工程师”，让招聘者一眼就
大数据开发的底层逻辑是什么？瑰茵大数据
大数据开发的底层逻辑主要围绕数据的生命周期进行，包括数据的采集、存储、处理、分析和可视化等环节。以下是大数据开发的一些关键底层逻辑：数据采集：目的：从不同的数据源（如日志文件、数据库、传感器等）收集数据。方法：使用数据采集工具（如ApacheFlume、ApacheKafka、ApacheSqoop）来捕获和传输数据。数据存储：目的：将收集到的数据存储在可靠且可扩展的存储系统中。方法：使用分布式文
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
Transwarp Data Studio 4.0 ：适应AI新时代实现三大能力提升人工智能
企业数据资产管理能力建设需要经历资源化、资产化和资本化三个阶段，对应数据底座建设、资产管理平台建设、流通运营平台建设三大任务。星环科技大数据开发工具TranswarpDataStudio，在此过程中发挥着承上启下的关键作用。近日，星环科技重磅发布大数据开发工具TranswarpDataStudio4.0版本，新版针对数据资产运营和语料管理的过程实现了三大能力提升。第一，提升了数据管理的广度：为应对
案例分享｜某港口集团企业级数据管理及分析应用体系构建数据分析
平台工具体系｜数据治理某港口集团已建成多个信息化系统，充分满足集团职能管理方面的需求，但垂直化的职能管理使各职能领域的指标体系、业务流程和业务系统呈现出条状划分的鲜明特点，数据共享存在“壁垒”，缺少横向的业务流程梳理和贯通，导致港口数据标准不统一、各业务系统数据“孤岛化”明显，特别是随着对数据增值利用和精细化管理要求的逐步提高，已难以应对日趋复杂的业务需求。通过运用大数据基础平台TDH、大数据开发
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推 weixin_53585422 c++算法 python java c语言
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推①汤臣倍健【内推岗位】：市场类、营销类、研发类、电商类、职能类、IT技术类、商业分析类、生产运营类【内推链接】https://sourl.cn/JSDhLU【推荐码】ES3W2T②科锐国际(OD项目组--计算机专场)【招聘岗位】软件开发工程师、软件测试工程师、大数据开发工程师、运维工程师等计算机类岗位，2
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
最新【JAVA问题解决方案】02，字节跳动大数据开发高级工程师 2401_84586779 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！publicvoidexcelTest(){Lists
HiveSQL一本通 - 案例实操，2024年最新大数据开发编程基础班疯狂的石头。程序员大数据
count(stu_id)stu_countfromscore_infogroupbycourse_idhavingstu_count>=15;（3）查询结果。course_idstu_count0119021903196.3.4查询结果排序和分组指定条件1.查询学生的总成绩并按照总成绩降序排序（1）思路分析。本题主要考查分组聚合和orderby关键字的使用。（2）查询语句。hive>select
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
最全金融数据_PySpark-3(2)，大数据开发学习的三个终极问题及学习路线规划 2401_84185145 大数据面试学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取frompyspark.ml.evaluationimportBinaryClassificationEv
Java 快速入门知识精简（1） Tangy范 Java java 开发语言
语言特点特点一：面向对象俩个基本概念：类，对象三大特性：封装，继承，多态特点二：健壮性去掉了指针，内存的申请与释放提供了相对安全的内存管理和访问机制特点三：跨平台性由JVM负责Java程序在系统中的运行JVMforUNIXJVMforWindowsJVMforMac应用领域：JavaWeb开发后台开发大数据开发Android应用程序开发：客户端开发知识结构编程语言核心结构：主要知识点：变量、基本语
大数据开发技术HBase优化与特点分析 at小白在线中大数据
高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群（如果没有开启则跳过此步）[atguigu@hadoop102hbase]$bin/stop-hbase.sh在con
小白？转型？毕业生？外行学习快速入行大数据开发指南 weixin_45732643 Hadoop 大数据开发编程语言大数据大数据开发大数据学习 Hadoop 编程语言
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段，处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据处理手段所无法完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集了当前IT领域热门流行的IT技术。大数据是什么？投资者眼里是金光闪闪的两个字：资产。比如，Facebook上市时，评估机构评定的有效资产中大部分都是其社交网站上的数据。如果把
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

SpringBoot集成Hadoop系列二 ---- MapReduce对表的join操作

代码:

你可能感兴趣的:(大数据开发,大数据开发)