SpringBoot集成Hadoop系列二 ---- MapReduce数据的分组统计,排序

代码:

package com.hadoop.reduce.model;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * 分组排序model类
 * @author linhaiy
 * @date 2019.05.18
 */
public class GroupSortModel implements WritableComparable {
	private int name;
	private int num;

	public GroupSortModel() {
	}

	public GroupSortModel(int name, int num) {
		this.name = name;
		this.num = num;
	}

	public void set(int name, int num) {
		this.name = name;
		this.num = num;
	}

	@Override
	public int compareTo(GroupSortModel groupSortModel) {
		if (this.name != groupSortModel.getName()) {
			return this.name < groupSortModel.getName() ? -1 : 1;
		} else if (this.num != groupSortModel.getNum()) {
			return this.num < groupSortModel.getNum() ? -1 : 1;
		} else {
			return 0;
		}
	}

	@Override
	public void write(DataOutput output) throws IOException {
		output.writeInt(this.name);
		output.writeInt(this.num);
	}

	@Override
	public void readFields(DataInput input) throws IOException {
		this.name = input.readInt();
		this.num = input.readInt();
	}

	@Override
	public String toString() {
		return name + "\t" + num;
	}

	@Override
	public int hashCode() {
		return this.name * 157 + this.num;
	}

	public int getName() {
		return name;
	}

	public void setName(int name) {
		this.name = name;
	}

	public int getNum() {
		return num;
	}

	public void setNum(int num) {
		this.num = num;
	}
}

package com.hadoop.util;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import com.hadoop.reduce.model.GroupSortModel;

import java.io.IOException;

/**
 * 分组统计，并对value排序
 * @author linhaiy
 * @date 2019.05.18
 */
public class GroupSort extends Configured implements Tool {

	/**
	 * 分组统计排序mapper类 读取 /java/groupSort.txt 文件，内容格式 40 20 30 20
	 */
	public static class GroupSortMapper extends Mapper {
		private static final GroupSortModel groupSortModel = new GroupSortModel();
		private static final IntWritable num = new IntWritable();

		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
			String line = value.toString();
			String[] split = line.split("\t");
			if (split != null && split.length >= 2) {
				groupSortModel.set(Integer.parseInt(split[0]), Integer.parseInt(split[1]));
				num.set(Integer.parseInt(split[1]));
				// {"name":40,"num":20} 20
				// System.out.println("mapper输出：" +
				// JsonUtil.toJSON(groupSortModel) + " " + num);
				context.write(groupSortModel, num);
			}
		}
	}

	/**
	 * 分区过滤
	 */
	public static class GroupSortPartitioner extends Partitioner {
		@Override
		public int getPartition(GroupSortModel key, IntWritable value, int numPartitions) {
			return Math.abs(key.getName() * 127) % numPartitions;
		}
	}

	/**
	 * 统计
	 */
	public static class GroupSortComparator extends WritableComparator {
		public GroupSortComparator() {
			super(GroupSortModel.class, true);
		}

		@Override
		public int compare(WritableComparable a, WritableComparable b) {
			GroupSortModel model = (GroupSortModel) a;
			int num = model.getNum();
			GroupSortModel model2 = (GroupSortModel) b;
			int num2 = model2.getNum();
			// comparator输出：20 1
			// System.out.println("comparator输出：" + model.getName() + " " +
			// model.getNum());
			// comparator2输出：20 10
			// System.out.println("comparator2输出：" + model2.getName() + " " +
			// model2.getNum());
			return num == num2 ? 0 : (num < num2 ? -1 : 1);
		}
	}

	/**
	 * 分组统计
	 */
	public static class GroupSortReduce extends Reducer {
		private static final Text name = new Text();

		@Override
		protected void reduce(GroupSortModel key, Iterable values, Context context)
				throws IOException, InterruptedException {
			name.set(key + "");
			for (IntWritable value : values) {
				// reduce输出：20 1 1
				System.out.println("reduce输出：" + key + " " + value);
				context.write(name, value);
			}
		}
	}

	@Override
	public int run(String[] args) throws Exception {
		// 读取配置文件
		Configuration conf = new Configuration();

		// 如果目标文件存在则删除
		Path outPath = new Path(args[1]);
		FileSystem fs = outPath.getFileSystem(conf);
		if (fs.exists(outPath)) {
			boolean flag = fs.delete(outPath, true);
		}

		// 新建一个Job
		Job job = Job.getInstance(conf, "groupSort");
		// 设置jar信息
		job.setJarByClass(GroupSort.class);

		// 设置mapper信息
		job.setMapperClass(GroupSort.GroupSortMapper.class);
		// 设置reduce信息
		job.setReducerClass(GroupSort.GroupSortReduce.class);

		// 设置mapper和reduce的输出格式，如果相同则只需设置一个
		job.setOutputKeyClass(GroupSortModel.class);
		job.setOutputValueClass(NullWritable.class);

		// 设置fs文件地址
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		// 运行
		return job.waitForCompletion(true) ? 0 : 1;
	}

	public static void main(String[] args) throws Exception {
		String[] filePath = { "hdfs://127.0.0.1:9000/java/groupSort.txt", "hdfs://127.0.0.1:9000/output/groupSort" };
		int ec = ToolRunner.run(new Configuration(), new SearchStar(), filePath);
		System.exit(ec);
	}
}

package com.hadoop.reduce.service;

import java.io.IOException;

import javax.annotation.PostConstruct;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Component;

import com.hadoop.reduce.bean.StaffProvincePartitioner;
import com.hadoop.reduce.bean.WeiboInputFormat;
import com.hadoop.reduce.mapper.CounterMapper;
import com.hadoop.reduce.mapper.FriendsMapper;
import com.hadoop.reduce.mapper.JoinMapper;
import com.hadoop.reduce.mapper.StaffMap;
import com.hadoop.reduce.mapper.WeatherMap;
import com.hadoop.reduce.mapper.WeiboMapper;
import com.hadoop.reduce.mapper.WordCount;
import com.hadoop.reduce.mapper.WordCountMap;
import com.hadoop.reduce.model.GroupSortModel;
import com.hadoop.reduce.model.OrderInfo;
import com.hadoop.reduce.model.StaffModel;
import com.hadoop.reduce.model.Weibo;
import com.hadoop.reduce.reducer.FriendsReduce;
import com.hadoop.reduce.reducer.JoinReduce;
import com.hadoop.reduce.reducer.StaffReduce;
import com.hadoop.reduce.reducer.WeatherReduce;
import com.hadoop.reduce.reducer.WeiboReduce;
import com.hadoop.reduce.reducer.WordCountReduce;
import com.hadoop.util.GroupSort;

/**
 * Map/Reduce工具类
 * @author linhaiy
 * @date 2019.05.18
 */
@Component
public class ReduceJobsUtils {

	@Value("${hdfs.path}")
	private String path;

	private static String hdfsPath;

	/**
	 * 获取HDFS配置信息
	 * 
	 * @return
	 */
	public static Configuration getConfiguration() {
		Configuration configuration = new Configuration();
		configuration.set("fs.defaultFS", hdfsPath);
		configuration.set("mapred.job.tracker", hdfsPath);
		// 运行在yarn的集群模式
		// configuration.set("mapreduce.framework.name", "yarn");
		// 这个配置是让main方法寻找该机器的mr环境
		// configuration.set("yarn.resourcemanmager.hostname", "node1");
		return configuration;
	}

	/**
	 * 分组统计、排序
	 * @param jobName
	 * @param inputPath
	 * @param outputPath
	 * @throws IOException
	 * @throws ClassNotFoundException
	 * @throws InterruptedException
	 */
	public static void groupSort(String jobName, String inputPath, String outputPath)
			throws IOException, ClassNotFoundException, InterruptedException {
		Configuration conf = getConfiguration();
		Job job = Job.getInstance(conf, jobName);
		job.setJarByClass(GroupSort.class);

		// 设置reduce文件拆分个数
		// job.setNumReduceTasks(3);
		// 设置mapper信息
		job.setMapperClass(GroupSort.GroupSortMapper.class);
		job.setPartitionerClass(GroupSort.GroupSortPartitioner.class);
		job.setGroupingComparatorClass(GroupSort.GroupSortComparator.class);
		// 设置reduce信息
		job.setReducerClass(GroupSort.GroupSortReduce.class);

		// 设置Mapper的输出
		job.setMapOutputKeyClass(GroupSortModel.class);
		job.setMapOutputValueClass(IntWritable.class);

		// 设置mapper和reduce的输出格式，如果相同则只需设置一个
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		// 指定输入文件的位置
		FileInputFormat.addInputPath(job, new Path(inputPath));
		// 指定输入文件的位置
		FileOutputFormat.setOutputPath(job, new Path(outputPath));

		// 运行
		job.waitForCompletion(true);
	}

	@PostConstruct
	public void getPath() {
		hdfsPath = this.path;
	}

	public static String getHdfsPath() {
		return hdfsPath;
	}
}

package com.hadoop.reduce.service;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.springframework.stereotype.Service;
import com.hadoop.hdfs.service.HdfsService;

/**
 * 单词统计
 * @author linhaiy
 * @date 2019.05.18
 */
@Service
public class MapReduceService {

	// 默认reduce输出目录
	private static final String OUTPUT_PATH = "/output";

	/**
	 * mapreduce 分组统计、排序
	 * @param jobName
	 * @param inputPath
	 * @throws Exception
	 */
	public void groupSort(String jobName, String inputPath) throws Exception {
		if (StringUtils.isEmpty(jobName) || StringUtils.isEmpty(inputPath)) {
			return;
		}
		// 输出目录 = output/当前Job
		String outputPath = OUTPUT_PATH + "/" + jobName;
		if (HdfsService.existFile(outputPath)) {
			HdfsService.deleteFile(outputPath);
		}
		ReduceJobsUtils.groupSort(jobName, inputPath, outputPath);
	}
}

package com.hadoop.reduce.controller;

import org.apache.commons.lang.StringUtils;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.ResponseBody;
import org.springframework.web.bind.annotation.RestController;
import com.hadoop.reduce.service.MapReduceService;
import com.hadoop.util.Result;

/**
 * MapReduce处理控制层
 * @author linhaiy
 * @date 2019.05.18
 */
@RestController
@RequestMapping("/hadoop/reduce")
public class MapReduceAction {

	@Autowired
	MapReduceService mapReduceService;

	/**
	 * 分组统计、排序
	 * @param jobName
	 * @param inputPath
	 * @return
	 * @throws Exception
	 */
	@RequestMapping(value = "groupSort", method = RequestMethod.POST)
	@ResponseBody
	public Result groupSort(@RequestParam("jobName") String jobName, @RequestParam("inputPath") String inputPath)
			throws Exception {
		if (StringUtils.isEmpty(jobName) || StringUtils.isEmpty(inputPath)) {
			return new Result(Result.FAILURE, "请求参数为空");
		}
		mapReduceService.groupSort(jobName, inputPath);
		return new Result(Result.SUCCESS, "分组统计、排序成功");
	}
}

月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推 weixin_53585422 c++算法 python java c语言
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推①汤臣倍健【内推岗位】：市场类、营销类、研发类、电商类、职能类、IT技术类、商业分析类、生产运营类【内推链接】https://sourl.cn/JSDhLU【推荐码】ES3W2T②科锐国际(OD项目组--计算机专场)【招聘岗位】软件开发工程师、软件测试工程师、大数据开发工程师、运维工程师等计算机类岗位，2
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
最新【JAVA问题解决方案】02，字节跳动大数据开发高级工程师 2401_84586779 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！publicvoidexcelTest(){Lists
HiveSQL一本通 - 案例实操，2024年最新大数据开发编程基础班疯狂的石头。程序员大数据
count(stu_id)stu_countfromscore_infogroupbycourse_idhavingstu_count>=15;（3）查询结果。course_idstu_count0119021903196.3.4查询结果排序和分组指定条件1.查询学生的总成绩并按照总成绩降序排序（1）思路分析。本题主要考查分组聚合和orderby关键字的使用。（2）查询语句。hive>select
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
最全金融数据_PySpark-3(2)，大数据开发学习的三个终极问题及学习路线规划 2401_84185145 大数据面试学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取frompyspark.ml.evaluationimportBinaryClassificationEv
Java 快速入门知识精简（1） Tangy范 Java java 开发语言
语言特点特点一：面向对象俩个基本概念：类，对象三大特性：封装，继承，多态特点二：健壮性去掉了指针，内存的申请与释放提供了相对安全的内存管理和访问机制特点三：跨平台性由JVM负责Java程序在系统中的运行JVMforUNIXJVMforWindowsJVMforMac应用领域：JavaWeb开发后台开发大数据开发Android应用程序开发：客户端开发知识结构编程语言核心结构：主要知识点：变量、基本语
大数据开发技术HBase优化与特点分析 at小白在线中大数据
高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群（如果没有开启则跳过此步）[atguigu@hadoop102hbase]$bin/stop-hbase.sh在con
小白？转型？毕业生？外行学习快速入行大数据开发指南 weixin_45732643 Hadoop 大数据开发编程语言大数据大数据开发大数据学习 Hadoop 编程语言
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段，处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据处理手段所无法完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集了当前IT领域热门流行的IT技术。大数据是什么？投资者眼里是金光闪闪的两个字：资产。比如，Facebook上市时，评估机构评定的有效资产中大部分都是其社交网站上的数据。如果把
大数据分析与大数据开发两者的区别是怎样的? 泰迪智能科技01 就业班大数据
大数据主要分为两个就业方向：①大数据开发②大数据分析大数据分析：主要负责现有数据价值提炼与挖掘，包括业务增长点挖掘，产品改进点挖掘，业务分析指标体系构建，业务分析报告出具等大数据开发：主要负责大数据平台与应用开发，包括数据仓库构建，离线计算、实时计算应用开发，大数据应用后端开发，企业数据标准制定等就业岗位薪资（平均月薪如下）大数据的培训目标是什么呢？大数据分析方向：从企业实际数据分析需求出发，满足
Python大数据学习day01——大数据开发概论笨小孩124 python 学习总结大数据学习 python
目录大数据概念大数据特点大数据应用场景大数据分析业务步骤大数据职业规划大数据学习路线1.大数据解决问题海量数据存储——海量数据运算——海量数据迁移2.大数据特点（大、多、值、快、信）数据体量大种类和来源多源化实现低价值密度速度快数据的质量准确可信3.大数据应用4.大数据分析步骤明确分析目的思路——数据收集——数据处理（ETL）——数据分析——数据展现——撰写报告5.大数据职业规划6.大数据学习路线
面试笔记8.24 励志秃头码代码面试职场和发展
项目你的项目中涉及大数据开发，那你的代码工程是怎么搭建的？正确答案：在我的项目中涉及大数据开发时，我通常会采用分布式的架构，比如使用Hadoop或者Spark等大数据处理框架。我会在集群中部署多台服务器，通过分布式计算和存储来处理大规模数据。解答思路：首先，我会搭建一个Hadoop或Spark集群，确保集群中的每台服务器都能正常通信。然后，我会编写MapReduce或Spark作业来处理数据，将数
大数据开发（Hive面试真题-卷二） Key-Key 大数据 hive 面试
大数据开发（Hive面试真题）1、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？2、说下Hive是什么？跟数据仓库区别？3、Hive架构？4、Hive数据倾斜以及解决方案？5、Hive如果不用参数调优，在map和reduce端应该做什么？6、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？7、Hive分区和分桶的区别？8、Hive的执行流程？9、Hive
大数据开发（Kafka面试真题-卷一） Key-Key 大数据 kafka 面试
大数据开发（Kafka面试真题）1、请解释以下ApacheKafka是什么？它在大数据系统中的角色是什么？2、请解释以下Kafka的工作原理和它与传统消息队列服务的不同之处？3、解释以下ApacheKafka的作用以及它与常见消息队列系统（如RabbitMQ）之间的区别？4、如何使用ApacheKafka来实现实时数据流处理？5、Flinkcheckpoint和Kafkaoffset的关联是什么？
Java开发从入门到精通（七）：Java的面向对象编程OOP：常用API HACKNOE Java开发从入门到精通 java intellij-idea
Java大数据开发和安全开发（一）Java的常用API1.1Object类1.1toString1.1equals方法1.1对象克隆clone1.1Objects类1.1包装类1.1StringBuilder1.1StringBuffer1.1StringJoiner1.1Math、System、Runtime1.1BigDecimal1.1传统时间：Date日期类、SimpleDateForma
大数据开发（Spark面试真题-卷一） Key-Key 大数据 spark 面试
大数据开发（Spark面试真题）1、什么是SparkStreaming？简要描述其工作原理。2、什么是Spark内存管理机制？请解释其中的主要概念，并说明其作用。3、请解释一下Spark中的shuffle是什么，以及为什么shuffle操作开销较大？4、请解释一下Spark中的RDD持久化（Caching）是什么以及为什么要使用持久化？5、请解释一下Spark中ResilientDistribut
大数据开发（Spark面试真题-卷六） Key-Key 大数据 spark 面试
大数据开发（Spark面试真题）1、SparkHashPartitioner和RangePartitioner的实现？2、SparkDAGScheduler、TaskScheduler、SchedulerBackend实现原理？3、介绍下Sparkclient提交application后，接下来的流程？4、Spark的cache和persist的区别？它们是transformation算子还是ac
大数据开发（Hadoop面试真题-卷二） Key-Key 大数据 hadoop 面试
大数据开发（Hadoop面试真题）1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点？如何解决这些问题？2、请解释一下HDFS架构中NameNode和DataNode之间是如何通信的？3、请解释一下Hadoop的工作原理及其组成部分？4、HDFS读写流程是什么样子？5、Hadoop中fsimage和edit的区别是什么？6、Spark为什么比MapReduce更快？7、详细描述一
大数据开发（Hadoop面试真题-卷九） Key-Key 大数据 hadoop 面试
大数据开发（Hadoop面试真题）1、Hivecount(distinct)有几个reduce，海量数据会有什么问题？2、既然HBase底层数据是存储在HDFS上，为什么不直接使用HDFS，而还要用HBase?3、Sparkmapjoin的实现原理？4、Spark的stage如何划分？在源码中是怎么判断属于ShuffleMapStage或ResultStage的？5、SparkreduceByKe
我的创作纪念日 GoAI 程序人生人工智能 AI写作
机缘读大二的时候开始尝试记录学习笔记，刚开始再到仅仅为了对自己学习内容做回顾，后来发现可以帮助身边其他人，再到后来随着粉丝增多，陆续接到合作及平台邀请，期间自己的技术方向也从大数据开发转为算法领域，这一路走来并不容易，目前收获了一些粉丝的好评，粉丝数8w+，目前更新的文章大部分成为一个系列，方便大家学习，欢迎大家只需关注。收获目前获得了8w+粉丝的关注，公众号：GoAI的学习小屋获得140w+阅读
Java和人工智能哪个好？华清远见成都中心 java 人工智能开发语言
Java和人工智能哪个好？Java和人工智能开发的工资高低主要取决于具体的工作岗位、行业、经验和技能水平等因素，很难一概而论。一般来说，这两个领域的工资都比较不错，尤其是在大城市和知名公司工作的薪资更高。在Java开发方向，像Java后端开发、大数据开发、微服务架构师、云计算架构师等高级岗位，收入会相对较高。而在人工智能领域，像机器学习工程师、深度学习工程师、自然语言处理工程师、数据科学家等方向的
学习大数据开发，需要满足哪些条件？学历，性别，专业有限制吗？ yoku酱
给大家介绍一下关于零基础学习大数据需要哪些条件？首先我们在平时的工作中，经常有小白同学问学习大数据有学历限制吗？我是大专学历可以学习大数据技术吗？我没有计算机基础，可以学习大数据吗？大数据学习是不是很难，零基础能学会吗？我是女生，可以学习大数据技术吗？下面我们针对这些问题来一一作答！首先对于零基础的童鞋想参加大数据开发学习，需要：1、一些数学常识，尤其是想从事数据分析这一块，至少要了解常用计算模型
Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践 yiyidsj 大数据人工智能互联网 spark Hadoop MySQL 大数据开发大数据学习
一、前言随着IT技术的飞速发展，各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务。目前，医疗IT系统收集了大量极具价值的数据，但这些历史医疗数据并没有发挥出其应有的价值。为此，本文拟利用医院现有的历史数据，挖掘出有价值的基于统计学的医学规则、知识，并基于这些信息构建专业的临床知识库，提供诊断、处方、用药推荐功能，基于强大的关联推荐能力，极大地提高医疗服务质量，减轻医疗人员的工作强度。二、
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
学习大数据要有这样的学习思路才行尚学先生
我们在系统学习大数据的之前，要先了解大数据开发是在什么系统平台下进行的。所以我们在学之前要先学习Linux的知识，这部分显得格外的重要。1、Linux学习学习如何使用VMware安装Linux镜像------认识linux的桌面环境、shell环境------在shell环境下进行文件系统的操作，掌握more、touch、cp、mv、rm等20多个常用命令------学习linux的网络管理，掌握
大数据开发 | 最流行的项目管理工具Maven 程序员不敲代码
什么是Maven？Maven是优秀的项目管理和构建工具，能让我们更为方便的来管理和构建项目，从最基础的环境配置，到maven核心知识点的应用。Maven简化和标准化项目建设过程。处理编译，分配，文档，团队协作和其他任务的无缝连接。Maven增加可重用性并负责建立相关的任务。Maven是干什么？Maven就可以帮你构建工程，管理jar包，编译代码，还能帮你自动运行单元测试，打包，生成报表，甚至能帮你
Java从入门到精通 nightluo 基础学习 java 开发语言
Java从入门到精通java快速入门java快速入门20240212，java快速入门学习目标：熟练掌握javaEE廖雪峰老师推荐的Java学习路线图如下：1、首先要学习JavaSE，掌握Java语言本身、Java核心开发技术以及Java标准库的使用；2、如果继续学习JavaEE，那么Spring框架、数据库开发、分布式架构就是需要学习的；3、如果要学习大数据开发，那么Hadoop、Spark、F
小白入门大数据，这一篇就够了弄潮大数据
大数据、人工智能(ArtificialIntelligence)像当年的石油、电力一样，正以前所未有的广度和深度影响所有的行业，现在及未来公司的核心壁垒是数据，核心竞争力来自基于大数据的人工智能的竞争。所以不论是计算机专业的程序员，还是非计算机专业准备转行计算机的跨行人员都想学习大数据，从事大数据开发工作。但是当你站在一个行业门外的时候，你更多的是看到他的价值和前景，这会促使你义无反顾地往里冲。但
一本Python爬虫的书，凭什么能畅销10W册程序员老冉 python 爬虫开发语言 pycharm 青少年编程
Python作为一种广泛应用的编程语言，在Web开发、大数据开发、人工智能开发和嵌入式开发等领域都有着重要的应用。Python的易学性、清晰性和可移植性等特点使它得到很多技术人士的喜爱。对于数据科学和机器学习领域的程序员来说，Python提供了强大的API和众多的库，使其成为数据科学和机器学习的首选语言。在Python的众多应用中，爬虫一直有着超高需求。这主要是因为Python具有简洁明了的语法和
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

SpringBoot集成Hadoop系列二 ---- MapReduce数据的分组统计,排序

代码:

你可能感兴趣的:(大数据开发,大数据开发)