hao707822882

hadoop例子

目录[-]

1.排序：

1）数据：

2）代码：

3）测试：

2.去重：

1）数据：

2）代码：

（1）map和reduce：

（2）配置输出：

3）测试：

3.过滤：

1）数据：

2）代码：

（1）map和reduce：

（2）配置输出：

3）测试：

4.TopN：

1）数据：

2）代码1-最大值：

（1）map和reduce：

（2）配置输出：

3）测试1：

4）代码2-TopN：

（1）map和reduce：

（2）配置输出：

5）测试2：

5.单表关联：

1）数据：

2）代码：

（1）map和reduce：

（2）配置输出：

3）测试：

6.双表关联：

1）数据：

2）代码：

（1）map和reduce：

（2）配置输出：

3）测试：

算法是程序的精髓所在，算法也是一个人是否适合做软件开发的衡量标准。当然算法不是衡量一个人是否聪明的标准，熟练掌握以下几种，做到触类旁通即可。

以下几个例子测试环境：伪分布式， IP 为 localhost ，集群和 eclipse 在同一个系统内。

1.排序：

1）数据：

         hadoop fs -mkdir /import
          创建一个或者多个文本，上传
         hadoop fs -put test.txt /import/

2）代码：

package com.cuiweiyou.sort;
 
import java.io.IOException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 
//hadoop默认排序： 
//如果k2、v2类型是Text-文本，结果是按照字典顺序
//如果k2、v2类型是LongWritable-数字，结果是按照数字大小顺序
 
public class SortTest {
    /**
     * 内部类：映射器 Mapper<KEY_IN, VALUE_IN, KEY_OUT, VALUE_OUT>
     */
    public static class MyMapper extends Mapper<LongWritable, Text, LongWritable, NullWritable> {
        /**
         * 重写map方法
         */
        public void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {
            //这里v1转为k2-数字类型，舍弃k1。null为v2
            context.write(new LongWritable(Long.parseLong(v1.toString())), NullWritable.get());
　　//因为v1可能重复，这时，k2也是可能有重复的
        }
    }
 
    /**
     * 内部类：拆分器 Reducer<KEY_IN, VALUE_IN, KEY_OUT, VALUE_OUT>
     */
    public static class MyReducer extends Reducer<LongWritable, NullWritable, LongWritable, NullWritable> {
        /**
         * 重写reduce方法
　　 * 在此方法执行前，有个shuffle过程，会根据k2将对应的v2归并为v2[...] 
         */
        protected void reduce(LongWritable k2, Iterable<NullWritable> v2, Reducer<LongWritable, Context context) throws IOException, InterruptedException {
            //k2=>k3, v2[...]舍弃。null => v3
            context.write(k2, NullWritable.get());
　　//此时，k3如果发生重复，根据默认算法会发生覆盖，即最终仅保存一个k3 
        }
    }
 
    public static void main(String[] args) throws Exception {
        // 声明配置信息
        Configuration conf = new Configuration();
        conf.set("fs.default.name", "hdfs://localhost:9000");
         
        // 创建作业
        Job job = new Job(conf, "SortTest");
        job.setJarByClass(SortTest.class);
         
        // 设置mr
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
         
        // 设置输出类型，和Context上下文对象write的参数类型一致
        job.setOutputKeyClass(LongWritable.class);
        job.setOutputValueClass(NullWritable.class);
         
        // 设置输入输出路径
        FileInputFormat.setInputPaths(job, new Path("/import/"));
        FileOutputFormat.setOutputPath(job, new Path("/out"));
         
        // 执行
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

3）测试：

可以看到，不仅排序而且去重了。

2.去重：

需求：查取手机号有哪些。这里的思路和上面排序算法的思路是一致的，仅仅多了分割出手机号这一步骤。

1）数据：

创建两个文本，手动输入一些测试内容。每个字段用制表符隔开。日期，电话，地址，方式，数据量。

2）代码：

（1）map和reduce：

/**
     * 映射器 Mapper<KEY_IN, VALUE_IN, KEY_OUT, VALUE_OUT>
     */
    public static class MyMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
        /**
         * 重写map方法
         */
        protected void map(LongWritable k1, Text v1, Context context) throws IOException ,InterruptedException {
            //按照制表符进行分割
            String[] tels = v1.toString().split("\t");
            //k1 => k2-第2列手机号，null => v2
            context.write(new Text(tels[1]), NullWritable.get());
        }
    }
     
     
    /************************************************************
     *  在map后，reduce前，有个shuffle过程，会根据k2将对应的v2归并为v2[...] 
     ***********************************************************/
     
 
    /**
     * 拆分器 Reducer<KEY_IN, VALUE_IN, KEY_OUT, VALUE_OUT>
     */
    public static class MyReducer extends Reducer<Text, NullWritable, Text, NullWritable> {
        /**
         * 重写reduce方法
         */
        protected void reduce(Text k2, Iterable<NullWritable> v2, Context context) throws IOException ,InterruptedException {
            //此时，k3如果发生重复，根据默认算法会发生覆盖，即最终仅保存一个k3，达到去重到效果
            context.write(k2, NullWritable.get());
        }
    }

（2）配置输出：

job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);

3）测试：

3.过滤：

需求：查询在北京地区发生的上网记录。思路同上，当写出 k2 、 v2 时加一个判断即可。

1）数据：

同上。

2）代码：

（1）map和reduce：

/**
     * 内部类：映射器 Mapper<KEY_IN, VALUE_IN, KEY_OUT, VALUE_OUT>
     */
    publicstatic class MyMapper extendsMapper<LongWritable, Text, Text, NullWritable> {
        /**
         * 重写map方法
         */
        protectedvoid map(LongWritable k1, Text v1, Context context) throwsIOException ,InterruptedException {
            //按照制表符进行分割
            finalString[] adds = v1.toString().split("\t");
            //地址在第3列
            //k1 => k2-地址，null => v2
            if(adds[2].equals("beijing")){
                context.write(newText(v1.toString()), NullWritable.get());
            }
        }
    }
 
    /**
     * 内部类：拆分器 Reducer<KEY_IN, VALUE_IN, KEY_OUT, VALUE_OUT>
     */
    publicstatic class MyReducer extendsReducer<Text, NullWritable, Text, NullWritable> {
        /**
         * 重写reduce方法
         */
        protectedvoid reduce(Text k2, Iterable<NullWritable> v2, Context context) throwsIOException ,InterruptedException {
            context.write(k2, NullWritable.get());
        }
    }

 
     ? 
     /**
     * 内部类：映射器 Mapper<KEY_IN, VALUE_IN, KEY_OUT, VALUE_OUT>
     */
    publicstatic class MyMapper extendsMapper<LongWritable, Text, Text, NullWritable> {
        /**
         * 重写map方法
         */
        protectedvoid map(LongWritable k1, Text v1, Context context) throwsIOException ,InterruptedException {
            //按照制表符进行分割
            finalString[] adds = v1.toString().split("\t");
            //地址在第3列
            //k1 => k2-地址，null => v2
            if(adds[2].equals("beijing")){
                context.write(newText(v1.toString()), NullWritable.get());
            }
        }
    }
 
    /**
     * 内部类：拆分器 Reducer<KEY_IN, VALUE_IN, KEY_OUT, VALUE_OUT>
     */
    publicstatic class MyReducer extendsReducer<Text, NullWritable, Text, NullWritable> {
        /**
         * 重写reduce方法
         */
        protectedvoid reduce(Text k2, Iterable<NullWritable> v2, Context context) throwsIOException ,InterruptedException {
            context.write(k2, NullWritable.get());
        }
    }
 
     
 
    

（2）配置输出：

job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);

 
     ? 
     job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);

3）测试：

4.TopN：

这个算法非常经典，面试必问。实现这个效果的算法也很多。下面是个简单的示例。
需求：找到流量最大值；找出前5个最大值。

1）数据：

同上。

2）代码1-最大值：

（1）map和reduce：

//map
    publicstatic class MyMapper extendsMapper<LongWritable, Text, LongWritable, NullWritable> {
 
        //首先创建一个临时变量，保存一个可存储的最小值：Long.MIN_VALUE=-9223372036854775808
        longtemp = Long.MIN_VALUE;
         
        //找出最大值
        protectedvoid map(LongWritable k1, Text v1, Context context) throwsIOException ,InterruptedException {
            //按照制表符进行分割
            finalString[] flows = v1.toString().split("\t");
            //将文本转数值
            finallong val = Long.parseLong(flows[4]);
            //如果v1比临时变量大，则保存v1的值
            if(temp<val){
                temp = val;
            }
        }
         
        /** ---此方法在全部的map任务结束后执行一次。这时仅输出临时变量到最大值--- **/
        protectedvoid cleanup(Context context) throwsIOException ,InterruptedException {
            context.write(newLongWritable(temp), NullWritable.get());
            System.out.println("文件读取完毕");
        }
    }
     
    //reduce
    publicstatic class MyReducer extendsReducer<LongWritable, NullWritable, LongWritable, NullWritable> {
        //临时变量
        Long temp = Long.MIN_VALUE;
 
        //因为一个文件得到一个最大值，再次将这些值比对，得到最大的
        protectedvoid reduce(LongWritable k2, Iterable<NullWritable> v2, Context context) throwsIOException ,InterruptedException {
             
            longlong1 = Long.parseLong(k2.toString());
            //如果k2比临时变量大，则保存k2的值
            if(temp<long1){
                temp = long1;
            }
        }
         
        /** ！！！此方法在全部的reduce任务结束后执行一次。这时仅输出临时变量到最大值！！！ **/
        protectedvoid cleanup(Context context) throwsIOException, InterruptedException {
            context.write(newLongWritable(temp), NullWritable.get());
        }
    }

（2）配置输出：

job.setOutputKeyClass(LongWritable.class);
job.setOutputValueClass(NullWritable.class);

3）测试1：

4）代码2-TopN：

（1）map和reduce：

//map
    publicstatic class MyMapper extendsMapper<LongWritable, Text, LongWritable, NullWritable> {
 
        //首先创建一个临时变量，保存一个可存储的最小值：Long.MIN_VALUE=-9223372036854775808
        longtemp = Long.MIN_VALUE;
        //Top5存储空间
        long[] tops;
         
        /** 次方法在run中调用，在全部map之前执行一次 **/
        protectedvoid setup(Context context) {
            //初始化数组长度为5
            tops = newlong[5]; 
        }
         
        //找出最大值
        protectedvoid map(LongWritable k1, Text v1, Context context) throwsIOException ,InterruptedException {
            //按照制表符进行分割
            finalString[] flows = v1.toString().split("\t");
            //将文本转数值
            finallong val = Long.parseLong(flows[4]);
            //保存在0索引
            tops[0] = val;
            //排序后最大值在最后一个索引，这样从后到前依次减小
            Arrays.sort(tops);
        }
         
        /** ---此方法在全部到map任务结束后执行一次。这时仅输出临时变量到最大值--- **/
        protectedvoid cleanup(Context context) throwsIOException ,InterruptedException {
            //保存前5条数据
            for(inti = 0; i < tops.length; i++) {  
                context.write(newLongWritable(tops[i]), NullWritable.get());  
            }
        }
    }
     
    //reduce
    publicstatic class MyReducer extendsReducer<LongWritable, NullWritable, LongWritable, NullWritable> {
        //临时变量
        Long temp = Long.MIN_VALUE;
        //Top5存储空间
        long[] tops;
 
        /** 次方法在run中调用，在全部map之前执行一次 **/
        protectedvoid setup(Context context) {
            //初始化长度为5
            tops = newlong[5]; 
        }
         
        //因为每个文件都得到5个值，再次将这些值比对，得到最大的
        protectedvoid reduce(LongWritable k2, Iterable<NullWritable> v2, Context context) throwsIOException ,InterruptedException {
             
            longtop = Long.parseLong(k2.toString());
            //
            tops[0] = top;
            //
            Arrays.sort(tops);
        }
         
        /** ---此方法在全部到reduce任务结束后执行一次。输出前5个最大值--- **/
        protectedvoid cleanup(Context context) throwsIOException, InterruptedException {
            //保存前5条数据
            for(inti = 0; i < tops.length; i++) {  
                context.write(newLongWritable(tops[i]), NullWritable.get());  
            }
        }
    }

（2）配置输出：

job.setOutputKeyClass(LongWritable.class);
job.setOutputValueClass(NullWritable.class);

5）测试2：

5.单表关联：

本例中的单表实际就是一个文本文件。

1）数据：

2）代码：

（1）map和reduce：

//map
    publicstatic class MyMapper extendsMapper<LongWritable, Text, Text, Text> {
        //拆分原始数据
        protectedvoid map(LongWritable k1, Text v1, Context context) throwsIOException ,InterruptedException {
            //按制表符拆分记录
            String[] splits = v1.toString().split("\t");
            //一条k2v2记录：把孙辈作为k2；祖辈加下划线区分，作为v2
            context.write(newText(splits[0]),newText("_"+splits[1]));
            //一条k2v2记录：把祖辈作为k2；孙辈作为v2。就是把原两个单词调换位置保存
            context.write(newText(splits[1]),newText(splits[0]));
        }
             
            /**
                张三      _张三爸爸
                张三爸爸    张三
                 
                张三爸爸    _张三爷爷
                张三爷爷    张三爸爸
            **/
    }
     
    //reduce
    publicstatic class MyReducer extendsReducer<Text, Text, Text, Text> {
        //拆分k2v2[...]数据
        protectedvoid reduce(Text k2, Iterable<Text> v2, Context context) throwsIOException ,InterruptedException {
            String grandchild = "";//孙辈
            String grandfather = "";   //祖辈
             
            /**
                张三爸爸        [_张三爷爷，张三]
            **/
             
            //从迭代中遍历v2[...]
            for(Text man : v2) {
                String p = man.toString();
                //如果单词是以下划线开始的
                if(p.startsWith("_")){
                    //从索引1开始截取字符串，保存到祖辈变量
                    grandfather = p.substring(1);
                }
                //如果单词没有下划线起始
                else{
                    //直接赋值给孙辈变量
                    grandchild = p;
                }
            }
             
            //在得到有效数据的情况下
            if( grandchild!=""&& grandfather!=""){
                //写出得到的结果。
                context.write(newText(grandchild), newText(grandfather));
            }
             
            /**
                k3=张三，v3=张三爷爷
            **/
        }
    }

（2）配置输出：

job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);

3）测试：

6.双表关联：

本例中仍简单采用两个文本文件。

1）数据：

2）代码：

（1）map和reduce：

//map
    publicstatic class MyMapper extendsMapper<LongWritable, Text, Text, Text> {
        //拆分原始数据
        protectedvoid map(LongWritable k1, Text v1, Context context) throwsIOException ,InterruptedException {
            //拆分记录
            String[] splited = v1.toString().split("\t");
            //如果第一列是数字（使用正则判断），就是地址表
            if(splited[0].matches("^[-+]?(([0-9]+)([.]([0-9]+))?|([.]([0-9]+))?)$")){
                String addreId = splited[0];
                String address = splited[1];
　　//k2，v2-加两条下划线作为前缀标识为地址
                context.write(newText(addreId), newText("__"+address));
            }
            //否则就是人员表
            else{
                String personId = splited[1];
                String persName = splited[0];
　　//k2，v2-加两条横线作为前缀标识为人员
                context.write(newText(personId), newText("--"+persName));
            }
            /**
             1  __北京
             1  --张三
            **/
        }
    }
     
    //reduce
    publicstatic class MyReducer extendsReducer<Text, Text, Text, Text> {
        //拆分k2v2[...]数据
        protectedvoid reduce(Text k2, Iterable<Text> v2, Context context) throwsIOException ,InterruptedException {
            String address = "";   //地址
            String person = "";    //人员
            /**
                1, [__北京，--张三]
            **/
            //迭代的是address或者person
            for(Text text : v2) {
                String tmp = text.toString();
                 
                if(tmp.startsWith("__")){
                    //如果是__开头的是address
                    address = tmp.substring(2);//从索引2开始截取字符串
                }
                if(tmp.startsWith("--")){
                    //如果是--开头的是person
                    person = tmp.substring(2);
                }
            }
            context.write(newText(person), newText(address));
        }
        /**
         k3=张三，v3=北京
        **/
    }

（2）配置输出：

job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);

3）测试：

用python监控网页某个位置的值的变化老光私享 python 开发语言爬虫
可以使用Python的第三方库来监控网页上某个位置的值的变化。一种方法是使用BeautifulSoup库来爬取网页并解析HTML/XML。然后，您可以使用正则表达式或其他方法来提取所需信息。另一种方法是使用Selenium库来模拟浏览器行为，并使用JavaScript来获取网页上的信息。下面是一个使用BeautifulSoup的例子：importrequestsfrombs4importBeaut
mysql之group by语句程序研 mysql mysql 数据库
MySQL的GROUPBY语句详细介绍在MySQL数据库中，GROUPBY子句用于将查询结果按照一个或多个列进行分组。这在数据分析和报表生成中非常有用，因为它允许我们对数据进行汇总和聚合，从而提取有价值的信息。本文将详细介绍GROUPBY语句的用法、注意事项以及通过多个代码例子来演示其功能。1.基本概念GROUPBY子句通常与聚合函数（如COUNT、SUM、AVG、MAX、MIN等）一起使用，以便
基于Langchain框架，采用Qwen2.5大模型，搭建自己的Agent，ReACT效果比RAG好张登杰踩 langchain python 人工智能语言模型
最近在做RAG，调研后发现ReACT好像更具有说服力，对最终结果的解释也更加合理。举个例子，我扔给大模型这样一个问题：15的平方是多少？另外，法国的首都是哪里？采用ReACT的运行结果如下：>EnteringnewAgentExecutorchain...我需要先计算15的平方，然后搜索法国的首都。Action:平方计算器ActionInput:"15"Observation:15的平方等于225
Linux dirname、basename 指令 weixin_30457465 操作系统
Linuxdirname、basename指令(2012-04-3021:44:53)转载▼标签：杂谈分类：linux一、dirname指令1、功能：从给定的包含绝对路径的文件名中去除文件名（非目录的部分），然后返回剩下的路径（目录的部分）2、用法：dirnamefilename例如下面几个例子（1）#dirname/etc/sysconfig/network-scripts/ifcfg-eth0
python程序中调用openai接口 MEMORYLORRY gpt openai gpt 人工智能机器学习 python transformer
调用openai接口1.openai例子（国内访问）2.解决思路3.搭建nginx3.1创建OpenSSL创建证书3.2nginx配置3.3验证效果4.python调用5.SSL:certificate_verify_failed错误1.openai例子（国内访问）fromopenaiimportOpenAIAPI_KEY='sk-api-key'client=OpenAI(api_key=API
系统相关类——java.lang.Math （三）（案例详细拆解小白友好）励志去大厂的菜鸟 Java思想和方法 Java学习白话拆解Java java 开发语言服务器深度学习学习方法
前言：小编打算近期更俩三期类的专栏，一些常用的专集类，给大家分好类别总结和详细的代码举例解释。今天是第三个java.lang.Math类我们一直都是以这样的形式，让新手小白轻松理解复杂晦涩的概念，把Java代码拆解的清清楚楚，每一步都知道他是怎么来的，为什么用这串代码关键字，对比同类型的代码，让大家真正看完以后融会贯通，举一反三，实践应用！！！！①官方定义和大白话拆解对比②举生活中常见贴合例子、图
mysql实用系列:日期格式化 Ven% mysql实用系列数据库 mysql mybatis
在MySQL中，你可以使用DATE_FORMAT()函数来格式化日期。DATE_FORMAT()函数通常用于格式化DATETIME或TIMESTAMP类型的字段。这个函数允许你按照指定的格式来显示日期和时间。下面是一些常见的日期格式化的例子：显示年-月-日：SELECTDATE_FORMAT(NOW(),'%Y-%m-%d');显示月/日/年：SELECTDATE_FORMAT(NOW(),'%m
sql里面的asc和desc排序原理 one996 记录程序员 sql
最近遇到一个数据库的问题，sql语句是对版本进行降序排列。如下例子：用下载sql去查询，没有排序的效果。SELECT*FROMdata2WHEREpn=''ANDwsid=''ANDorder_ork=''ORDERBY'tpver'desc如下两个版本V3.7.2-R1.0Z1.3.1V3.11-R9.0Z1.4因为desc的排序方式是hashcode，按照我的理解，应该是从R开始比较，R3相等
【设计模式-行为型】访问者模式博一波设计模式访问者模式 java
一、什么是访问者模式说起来访问者模式，其实很少用。我一直在思考该用什么样的例子把这个设计模式表述清晰，最近突然想到一个例子也许他就是访问者。港片有过很辉煌的年代，小的时候一直在看港片觉得拍的非常好，而且演员的演技也在线。不知道大家看没有看过一个金典的穿越剧----《寻秦记》，其中的项少龙（古天乐）就是专业的访问者。项少龙的经历可以很好地体现访问者模式的核心思想。项少龙作为一个现代人，穿越到战国时期
【大数据入门核心技术-Hive】（十六）hive表加载csv格式数据或者json格式数据 forest_long 大数据技术入门到21天通关大数据 hive hadoop 开发语言后端数据仓库
一、环境准备hive安装部署参考：【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、hive加载Json格式数据1、数据准备vistu.json[{"id":111,"name":"name111"},{"id":222,"name":"name22"}]上传到hdfshadoopfs-putstu.j
【Java 学习】Java抽象类详解：从理论到实践，带你迈向面向对象的深度思考！ Code哈哈笑 Java拾光之旅 java 学习开发语言
欢迎讨论：如对文章内容有疑问或见解，欢迎在评论区留言，我需要您的帮助！点赞、收藏与分享：如果这篇文章对您有所帮助，请不吝点赞、收藏或分享，谢谢您的支持！传播技术之美：期待您将这篇文章推荐给更多对需要学习Java语言、低代码开发感兴趣的朋友，让我们共同学习、成长！1.什么是抽象类？举一个Animal类、Cat类和Dog类的例子：classAnimal{publicvoideat(){System.o
分布式微服务搭建 Xi-Tong 微服务架构云原生 linux centos bash jdk
分布式微服务架构搭建（举出一个项目搭建的例子，其他项目可参考本文档）基于Nginx作为web服务器、JDK作为Java运行环境、MySQL作为关系型数据库、Nacos作为服务发现和配置中心、Maven作为项目管理工具、Redis作为缓存和消息中间件（视具体需求而定）、Node.js与npm作为某些微服务（如前端服务或特定业务逻辑服务）的开发和依赖管理工具，可以搭建一个完整的分布式微服务架构项目。以
Web安全：缓存欺骗攻击；基于缓存、CDN的新型Web漏洞 Fly不安全 Web安全基础 web安全缓存缓存欺骗攻击 Nginx CDN web
基于缓存、CDN的新型Web漏洞漏洞原理利用方式解决方法Web缓存欺骗漏洞（WebCacheDeception）是一种利用不安全的缓存机制来泄露用户敏感信息的攻击方式。攻击者通过操控请求URL诱导缓存系统将敏感信息缓存并对其他用户公开，可能导致用户数据泄露等严重问题。漏洞原理缓存：现代大多数Web应用会在应用前置CDN或缓存代理，再通过URL来决定是否缓存内容。下面这里放一个Nginx的例子loc
计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
使用 @EmbeddedId 和 @ManyToOne 实现复合主键的 JPA 实践 t0_54manong 个人开发
在实际的软件开发中，我们常常需要处理复杂的实体关系，尤其是在数据库设计中，复合主键的使用场景非常常见。本文将通过一个具体的例子，展示如何在JavaPersistenceAPI(JPA)中使用@EmbeddedId和@ManyToOne注解来实现复合主键，并通过Hibernate进行数据持久化和查询。一、背景与需求假设我们有一个员工任务管理系统，其中员工（Employee）和任务（Task）是一对多
【成人版python基础入门】第一章循环与条件判断——让程序“活”起来精通代码大仙 python python 服务器
循环与条件判断——让程序“活”起来在与Python的第一次浪漫相遇之后，我们已经学会了如何使用变量、数据类型、输入输出和基本运算符。现在，是时候让我们的程序“活”起来，让它能够像人一样思考和做出决策。这一篇教程将带你深入学习Python的循环和条件判断，这些基本概念是编写复杂程序的基石。通过风趣的例子和实际代码示例，我们将一起探索Python的逻辑世界。条件判断：if、elif、else语句条件判
Spring在业务中常见的使用方式孜泽 spring java spring
通过IOC实现策略模式很多时候，我们需要对不同的场景进行不同的业务逻辑处理，举个例子，譬如不同的场景需要不同支付方式，普通的逻辑是使用if-else，如下所示：//if-else实现publicvoiduse(Scenescene){if(scene==TENCENT){doWeiXinPay();}elseif(scene==ALIBABA){doAlipay();}else{doDothing
vue组件学习三(插槽) @爱学习的小姜 vue.js
目录1、匿名插槽2、渲染作用域3、默认内容4、具名插槽5、条件插槽6、作用域插槽7、具名作用域插槽最后1、匿名插槽父组件调用Mycomponet1组件clickme子组件为最后结果为clickme2、渲染作用域因为插槽的内容是在父组件中定义的，所以能访问到父组件中的数据作用域，无法访问到子组件的数据。3、默认内容在我们没有从父组件中提供插槽内容时，可以提供一个默认值例如：默认内容在这个例子中，父组
easyexcel读取写入excel easyexceldemo JavaNice哥 java excel
1.新建springboot项目2.添加pom依赖excelexcelspringboot例子org.springframework.bootspring-boot-starter-parent2.2.1.RELEASEUTF-8UTF-81.81.81.82.3.0org.springframework.bootspring-boot-starter-weborg.springframework
easyexcel读取写入excel easyexceldemo JavaNice哥 java excel
1.新建springboot项目2.添加pom依赖excelexcelspringboot例子org.springframework.bootspring-boot-starter-parent2.2.1.RELEASEUTF-8UTF-81.81.81.82.3.0org.springframework.bootspring-boot-starter-weborg.springframework
cascading 入门（一） zhumin726
1cascading是什么cascading是一个架构在Hadoop上的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用，而不用考虑背后的MapReduce。Cascading目前依赖于Hadoop提供存储和执行架构，但是CascadingAPI为开发者隔离了Hadoop的技术细节，提供了不需要改变初始流程工作流定义就可以在不同的计算框架内运行的能力。
【odoo】odoo基本视图中的kanban视图种花的人_ odoo python
文章目录概要看板视图的基本特点：看板视图的工作流程：看板视图的优点：举个例子关键要素解析总结概要Odoo看板视图（KanbanView）是Odoo中的一种可视化视图，它通常用于管理任务、项目、销售机会、库存管理等业务流程。看板视图的设计灵感来源于“看板管理”方法，这种方法源于日本丰田汽车生产体系，它注重流程的可视化和任务的快速流转。通过看板视图，用户可以更直观地查看工作状态、追踪任务进度，并快速对
oracle开源审计,Oracle审计功能如水蜜 oracle开源审计
设置审计的实例：对试图尝试口令的访问的审计本节讨论的是一个审计的实例，用于记录尝试通过野蛮尝试法破译ORACLE帐号口令的例子：1.修改审计相关参数(参照上一节介绍的方法)2.重启数据库3.设置审计信息SQL>AUDITALLBYACCESSWHENEVERNOTSUCCESSFUL4.查询AUD$SQL>selectreturncode,action#,userid,userhost,termi
Java中的注解 @valid @RequestBody @ApiOperation @Builder@NoArgsConstructor@AllArgsConstructor@Data xt_ java java 开发语言
1、@valid在Java中，特别是在Spring框架中，@Valid是一个常用的注解，用于在方法参数上执行BeanValidation。BeanValidation是JavaEE的一部分，它提供了一组用于验证JavaBean属性的注解。当你使用@Valid注解时，Spring会检查标注了该注解的对象的属性，以确保它们满足指定的验证规则。这里有一个简单的例子：首先，定义一个简单的实体类，并使用Be
【设计模式-行为型】命令模式博一波设计模式命令模式
一、什么是命令模式什么是命令模式？就是字面理解，下命令，但是还不能这么快下定义，可以举一个例子来说明一下。好多电影里面经常会有一个神秘的杀手组织，他们只管要钱和目标。不管是谁的委托，经常有个大富豪，说“为了确保万无一失，无论多少钱，我要求派出江湖第一杀手”，他们可是把命令模式玩的飞起。就好像《这个杀手不太冷》中主角杀手莱昂接受任务和执行任务的过程。在电影中，莱昂（里昂）是一个职业杀手，他通过中间人
搭建单机伪分布式Hadoop+spark+scala 啥也不会0-0 分布式 hadoop spark
目录一、准备环境包：二、创建centos7虚拟机并配置ip三、链接Xshell并上环境包四、安装JDK1.解压jdk2.设置JAVA环境变量3.执行source使设置生效：4.检查JAVA是否可用。五、免密登陆1.创建ssh秘钥，输入如下命令，生成公私密钥2.将master公钥id_dsa复制到master进行公钥认证，实现本机免密登陆，测试完exit退出六、安装Hadoop软件1.解压hadoo
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
RabbitMQ消息监听异常问题探究风树种子 RabbitMQ RabbitMQ spring Wireshark 异常 requeue
问题场景在使用SpringRabbitMQ做消息监听时，如果监听程序处理异常了，且未对异常进行捕获，会一直重复接收消息，然后一直抛异常。为了更好的描述问题，下面写个简单的例子。通过访问null对象来引发空指针异常，消息监听处理程序代码清单:packageamqp;importorg.springframework.amqp.core.Message;importorg.springframewor
虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala 落枫兮 hadoop spark scala
参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
table多行表头合并 vue_vue elementUI table 自定义表头和行合并 weixin_39540704 table多行表头合并 vue
最近项目中做表格比较多，对element表格的使用，只需要传递进去数据，然后写死表头即可渲染。但现实中应用中，如果写死表头，并且每个组件中写自己的表格，不仅浪费时间而且消耗性能。这个时候需要动态渲染表头。而官方例子都是写死表头，那么为了满足项目需求，只能自己来研究一下。1、自定义表头代码如下，其实就是分了两部分，表格主数据是在TableData对象中，表头的数据保存在headerDatas，hea
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

hadoop例子

1.排序：

1）数据：

3）测试：

2.去重：

1）数据：

2）代码：

（1）map和reduce：

（2）配置输出：

3）测试：

3.过滤：

1）数据：

2）代码：

（1）map和reduce：

（2）配置输出：

3）测试：

4.TopN：

1）数据：

2）代码1-最大值：

（1）map和reduce：

（2）配置输出：

3）测试1：

4）代码2-TopN：

（1）map和reduce：

（2）配置输出：

5）测试2：

5.单表关联：

1）数据：

2）代码：

（1）map和reduce：

（2）配置输出：

3）测试：

6.双表关联：

1）数据：

2）代码：

（1）map和reduce：

（2）配置输出：

3）测试：

你可能感兴趣的:(hadoop例子)