忌颓废

Hadoop 之Mapreduce wordcount词频统计案例（详解）

阅读目录

一、创建项目：example-hdfs
二、项目目录
三、WordCountMapper.class
四、WordCountReducer.class
五、WordCounfDriver.class
六、pom.xml
七、打包jar包
八、在SecureCRT软件上传刚刚生成的jar包
九、运行
十、解决问题：

MapReduce是什么？
Map Reduce是Google公司开源的一项重要技术，它是一个编程模型，用以进行大数据量的计算。MapReduce采用“分而治之”思想，把对大规模数据集的操作，分发给一个主节点管理下的各个子节点共同完成，然后整合各个子节点的中间结果，得到最终的计算结果。
MapReduce实现WordCount的实现思路：
将hdfs上的文本作为输入，MapReduce通过InputFormat会将文本进行切片处理（按行读入），每出现一个单词就标记一个数字1，经过在map函数处理，输出中间结果<单词,1>的形式，并在reduce函数中完成对每个单词的词频统计。

软件：IntelliJ IDEA

一、创建项目：example-hdfs

二、项目目录

三、WordCountMapper.class

继承Mapper类实现自己的Mapper类，并重写map()方法

package cn.it.cast.hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable> {
    @Override   
    //每传入一个,该方法就被调用一次
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //拿到传入的传入进来的一行内容，把数据类型转化为String
        String line = value.toString();
        //将这一行内容按照分隔符进行一行内容的切割，切割成一个单词数组
        String[] words = line.split(" ");
        //遍历数组，每出现一个单词，就标记一个数字1，<单词，1>
        for(String word:words){
            context.write(new Text(word),new IntWritable(1));
        }//使用mr程序的上下文context，把Map阶段处理的数据发送出去，作为reduce节点的输入数据
    }
}

四、WordCountReducer.class

继承Reducer类，实现自己的Reduce类，并重写reduce（）方法

package cn.it.cast.hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReducer extends Reducer<Text, IntWritable, Text,IntWritable> {
    @Override
    //reduce接收所有来自map阶段处理的数据之后，按照key的字典序进行排序
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //定义一个计数器
        int count = 0;
        //遍历一组迭代器，把每一个数量1累加起来就构成了单词的总次数
        for(IntWritable value:values){
            count += value.get();
        }
        //把最终结果输出
        context.write(key,new IntWritable(count));
    }
}

五、WordCounfDriver.class

程序主入口类：

package cn.it.cast.hadoop.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountDriver {
    //把job提交给集群去运行
    public static void main(String[] args) throws Exception{
//        System.setProperty("HADOOP_USER_NAME", "root");
        Job job = Job.getInstance(new Configuration());
        //指定我这个job所在的jar包
        job.setJarByClass(WordCountDriver.class);
        //指定本次mr 所用的mapper reduce类分别是什么
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);
        //指定本次mr mapper阶段的输出 k v类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //指定本次mr 最终输出的 k v类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //指定本次mr 输入的数据路径，和最终输出结果存放在什么位置
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        //提交程序，并且监控打印程序执行的结果
        boolean b = job.waitForCompletion(true);
        System.exit(b?0:1);
    }
}

六、pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>example-mr</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>jdk.tools</groupId>
            <artifactId>jdk.tools</artifactId>
            <version>1.8</version>
            <scope>system</scope>
            <systemPath>C:/Program Files/Java/jdk1.8.0_131/lib/tools.jar</systemPath>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>3.2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>3.2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>3.2.1</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <version>2.4</version>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <classpathPrefix>lib</classpathPrefix>
                            <mainClass>cn.it.cast.hadoop.mr.WordCountDriver</mainClass>
                        </manifest>
                    </archive>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>
                </configuration>
            </plugin>
        </plugins>
    </build>
</project>

七、打包jar包

在target目录有我们刚刚打包的jar（为了方便，重命名 wc.jar)

八、在SecureCRT软件上传刚刚生成的jar包

把jar包拖动到主节点上

九、运行

编写data1.txt 文件
vi data1.txt

hello hadoop
hadoop spark

创建目录/input

hadoop fs mkdir -p /input

上传文件到 /input

hadoop fs -put data1.txt /input

执行 jar包

 hadoop jar wc.jar /input/data1.txt /output/wc

查看结果：

hadoop fs -cat /output/wc/part-r-00000

在网页中可以看到生成两个文件

十、解决问题：

1、 yum -y install lrzsz

2、如果运行jar包遇到图片的问题

可以在每个节点的mapred-site.xml添加以下内容
（/usr/local/hadoop改成你安装hadoop的路径！）

<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
</property>
<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
</property>
<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
</property>

你可能感兴趣的:(hadoop+spark)

基于 Java 的大数据分布式计算在基因编辑数据分析与精准医疗中的应用进展知识产权13937636601 计算机 java 分布式计算基因编辑
随着基因测序成本断崖式下降（单人类全基因组低于100）和CRISPR基因编辑技术成熟，全球日均产生超20PB基因数据。传统单机生物信息学工具难以应对海量多组学数据的整合、分析与临床转化。本文将系统阐述**Java技术栈如何构建新一代基因大数据计算中枢**：基于Hadoop+Spark的分布式架构实现千倍加速的基因组比对；通过Flink流式计算引擎支撑CRISPR脱靶效应实时预测；利用ApacheA
CentOS7 + JDK8 虚拟机安装与 Hadoop + Spark 集群搭建实践簌簌曌 hadoop spark 大数据
前言在大数据时代，Hadoop和Spark是两种非常重要的分布式计算框架。本文将详细介绍如何在CentOS7+JDK8的虚拟机环境中搭建Hadoop+Spark分布式集群，包括SparkStandalone和Hadoop+SparkonYARN两种模式，并提供具体的代码示例。一、CentOS7+JDK8虚拟机安装与基础配置1.虚拟机准备使用已安装好的CentOS7操作系统虚拟机文件，克隆出三台虚拟
大数据经典技术解析：Hadoop+Spark大数据分析原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介大数据时代已经来临。随着互联网、移动互联网、物联网等新兴技术的出现，海量数据开始涌现。而在这些海量数据的基础上进行有效的处理，成为迫切需要解决的问题之一。ApacheHadoop和ApacheSpark是目前主流开源大数据框架。由于其易于部署、高容错性、并行计算能力强、适应数据量大、可编程、社区支持广泛等特点，大大提升了大数据应用的效率和效果。本文通过对Hado
计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartssparkmys
基于hadoop+spark的旅游大数据分析平台源码空间站11 hadoop spark 旅游
S2023132基于hadoop+spark的旅游大数据分析平台使用BeautifulSoup爬取数据，爬取成功以后使用spark分析数据，将分析的结果保存到mysql，flask读取mysql数据，结合echarts制作可视化大屏
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
计算机毕业设计hadoop+spark知识图谱美食推荐系统美食价格预测美团推荐系统美团爬虫大众点评爬虫美食数据分析美食可视化大屏大数据毕设计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集大众点评美食数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartsspar
计算机毕业设计hadoop+spark知识图谱高考分数预测系统高考志愿推荐系统高考可视化大屏高考大数据高考数据分析高考爬虫大数据毕业设计计算机毕业设计大全
开发技术hadoopsparkspringbootvue.jsPython爬虫、机器学习、深度学习mybatis-plusneo4j知识图谱图数据库mysql协同过滤算法(基于物品、基于用户模式)MLP模型SVD神经网络CNN、KNN、GNN卷积神经网络预测算法阿里云平台百度AI平台阿里大于短信平台lstm模型创新点4种机器学习推荐算法进行高考志愿学校推荐1种深度学习模型进行高考分数线预测hado
基于hadoop+spark的大规模日志的一种处理方案码农心语日志处理大规模大数据 hadoop spark cdn
概述：CDN服务平台上有为客户提供访问日志下载的功能，主要是为了满足在给CDN客户提供服务的过程中，要对所有的记录访问日志，按照客户定制的格式化需求以小时为粒度（或者其他任意时间粒度）进行排序、压缩、打包，供客户进行下载，以便进行后续的核对和分析的诉求。而且CDN上的访问日志一般都非常大，需要用大数据处理架构来进行处理，本文描述了一种利用hadoop+spark来处理大量CDN日志的方法，当然本方
分享2024年第一期！全国高校大数据与人工智能师资研修班泰迪智能科技师资培训大数据人工智能
全国高校大数据与人工智能师资研修班2024年第一期上海线下班：数据采集与机器学习实战广州线下班：大数据技术应用实战（Hadoop+Spark）线上班（十一大专题）PyTorch深度学习与大模型应用实战数据采集与处理实战大数据分析与机器学习实战大数据技术应用实战（Hadoop+Spark）商务数据分析实战（Excel+PowerBI）商务数据分析实战（Python）计算机视觉应用实战（Pytorch
大数据应用开发线上班（学徒班）课程大纲泰迪智能科技大数据项目实战大数据人工智能 python
互联网技术突飞猛进，人们进去信息爆炸时代，大数据人才也成为当今社会最后欢迎的群体。泰迪智能科技大数据应用开发线上班课程使用当下流行的Hadoop+Spark大数据框架，全面、深入地探讨了大数据开发、大数据分析、数据仓库等技术。课程按照企业实际岗位需求进行编排设计，所有内容皆以企业实际项目作为贯穿。大数据应用开发线上班课程大纲主要包括：阶段一大数据基础Java编程基础MySQL数据库基础MySQL实
2023年第七期丨全国高校大数据与人工智能师资研修班泰迪智能科技大数据大数据人工智能
全国高校大数据与人工智能师资研修班邀请函2023年第七期线下班（昆明）：数据采集与机器学习实战线上班（七大专题）:PyTorch深度学习与大模型应用实战数据采集与处理实战大数据分析与机器学习实战大数据技术应用实战（Hadoop+Spark）商务数据分析实战TensorFlow与人工智能实战计算机视觉应用实战
hadoop+spark 整合葡小萄家的猫
zookeeper安装zookeeper3.4.6安装spark高可用安装完成spark高可用安装hadoop安装hadoop安装整合hadoop+spark配置spark+hadoopHADOOP_CONF_DIR=/expport/servers/hadoop/etc/hadoop然后将配置文件分发到各个子节点
空间节省50%，时序性能提升5倍，三一重工从Hadoop+Spark到MatrixDB架构变迁实现One for ALL YMatrix 官方技术社区 hadoop spark 架构时序数据库 postgresql
工业互联网快速崛起在“工程机械之都”湖南•长沙如何高效走向制造业转型升级三一泵机引入超融合时序数据库MatrixDB更大满足各种业务场景需求作者于成铭-智能化所副所长褚凤天-大数据工程师工业设备互联采集是数字化工厂建设的基础，设备在运行的过程中会产生大量有价值的数据，例如：新泵车运行状态、搅拌压力、总泵送方量、异常报警信息等，为后续的数据分析挖掘提供最可靠的数据来源。MatrixDB专门针对工业互
阿里腾讯云 hadoop+spark集群搭建（2） karwik 大数据
阿里腾讯云hadoop+spark集群搭建（2）linux版本：centos7hadoop版本：3.1.1spark版本：2.3.2在1中已经搭建好了hadoop，接下来就是spark。为方便起见，用shell脚本完成下载spark、hive（后面再搭，先把spark跑起来）的操作。download_file.sh-------------------------------#!/bin/bash
hadoop+spark集群的版本配置关系 qweqwesx1 hadoop spark
刚开始部署分布式计算的时候，常常会遇到这样的问题；如何搭配不同软件的版本呢？我们来梳理一下他们的关系。1首先hadoop的底层开发是基于java开发的，自然是依赖于java的版本。2另外spark的底层开发是基于scala开发的，而scala是一种范式语言，两者的共同点是都需要在JVM上运行。范式语言的好处是可以支持java,或者python。不会受到开发语言的过分限制。3目前hadoop有两个大
Hadoop+Spark Windows系统环境搭建 marklin 大数据 windows hadoop spark
Hadoop环境变量配置：HADOOP_HOME:D:\ProgramData\BigData\Hadoop\hadoop-2.7.4Path：%HADOOP_HOME%\binSpark环境变量配置：SPARK_HOME：D:\ProgramData\BigData\Spark\spark-2.2.0Path：%SPARK_HOME%\bin修改hadoop配置文件：[1].编辑D:\Progr
CENTOS上的网络安全工具（二十四）Windows下的Hadoop+Spark编程环境构建 lhyzws centos hadoop linux
前面我们搭建了hadoop集群，spark集群，也利用容器构建了spark的编程环境。但是一般来说，就并行计算程序的开发，一刚开始一般是在单机上的，比如hadoop的singlenode。但是老师弄个容器或虚拟机用vscode远程访问式开发，终究还是有些不爽。还好，hadoop和spark都是支持windows的。不妨，我们弄个windows下的开发环境。然而，windows下开发环境的构建，需要
数据分析 | MAC Big Sur搭建hadoop+spark环境 Ricsy
一、组件包下载组件包名称下载链接备注JavaHadoophadoop-3.2.0.tar.gzSparkspark-3.1.2-bin-hadoop3.2.tgz二、安装步骤2.1环境变量配置vim.zsh_profile或vim.bash_profile变量名变量值备注JAVA_HOMEHADOOP_HOMEexportHADOOP_HOME=/Users/ricsy/hadoop/hadoop
源码经验分享会计算机毕业设计吊炸天Hadoop+Spark电影推荐系统电影用户画像系统电影可视化电影数据分析电影爬虫电影大数据大数据毕业设计大数据毕设 haochengxu2022 推荐系统机器学习 python数据分析大数据经验分享课程设计
开发技术前端：vue.js、websocket、echarts后端：springboot+mybatis-plus数据库：mysql虚拟机服务器：es、redis、mongodb、kafka、hadoop、spark机器学习/深度学习：SparkML包、协同过滤算法、ALS、基于隐语义模型的推荐算法、LFM等10种推荐算法数据集/爬虫：scrapy爬取豆瓣、IMDB等国内外网站创新点推荐算法、短信
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细） showswoller 大数据 kafka spark hadoop flume
Flume简介Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。Flume主要由3个重要的组件构成：1）Source：完成对日志数据的收集，分成transtion和event打入到channel之中。2）Channel
【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释） showswoller 大数据 spark hadoop sql 分布式
一、SparkSQL简介parkSQL是spark的一个模块，主要用于进行结构化数据的SQL查询引擎，开发人员能够通过使用SQL语句，实现对结构化数据的处理，开发人员可以不了解Scala语言和Spark常用API，通过sparkSQL，可以使用Spark框架提供的强大的数据分析能力。sparkSQL前身为Shark。Shark是Spark上的数据仓库，最初设计成与Hive兼容，但是该项目于2014
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码） showswoller 大数据 hadoop spark scala RDD
需要源码和数据集请点赞关注收藏后评论区留言私信~~~一、RDD的创建Spark可以从Hadoop支持的任何存储源中加载数据去创建RDD，包括本地文件系统和HDFS等文件系统。我们通过Spark中的SparkContext对象调用textFile()方法加载数据创建RDD。1、从文件系统加载数据创建RDD从运行结果反馈的信息可以看出，wordfile是一个String类型的RDD，或者以后可以简单称
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解（图文解释） showswoller 大数据 spark hadoop 分布式架构
一、Spark概述Spark最初由美国加州伯克利大学（UCBerkeley）的AMP（Algorithms，MachinesandPeople）实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目，其诸多核心理念均源自学术研究论文。2013年，Spark加入Apache孵化器项目后，开始获得迅猛的发展，如今已成为
【大数据技术Hadoop+Spark】HBase分布式数据库架构、特点、数据存储方式、寻址机制详解（图文解释） showswoller hbase 大数据 hadoop 分布式数据库
一、HBase简介HBase起源于2006年Google发表的BigTable论文。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库，利用HBase可在廉价PC服务器上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。二、HBase架构HBase构建在HadoopHDFS之上，Hado
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示（附SQL语句） showswoller hive 大数据 hadoop sql spark
Hive基础SQL语法1：DDL操作DDL是数据定义语言，与关系数据库操作相似，创建数据库CREATEDATABASE|SCHEMA[IFNOTEXISTS]database_name显示数据库SHOWdatabases；查看数据库详情DESCDATABASE|SCHEMAdatabase_name切换数据库USEdatabase_name修改数据库ALTER(DATABASE|SCHEMA)da
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细） showswoller 大数据 hadoop hive mapreduce 数据仓库
一、Hive简介Hive起源于Facebook，Facebook公司有着大量的日志数据，而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架，可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发，但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具，而Hive就诞生于此，只要懂SQL语言，就
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解（超详细必看） showswoller 大数据 hadoop hdfs 分布式架构
一、相关基本概念文件系统。文件系统是操作系统提供的用于解决“如何在磁盘上组织文件”的一系列方法和数据结构。分布式文件系统。分布式文件系统是指利用多台计算机协同作用解决单台计算机所不能解决的存储问题的文件系统。如单机负载高、数据不安全等问题。HDFS。英文全称为HadoopDistributedFileSystem，是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，它是基于流式数据访
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战（超详细附源码） showswoller 大数据 java hdfs hadoop spark
需要源码请点赞关注收藏后评论区留言私信~~~一、HDFS的Shell介绍Shell在计算机科学中俗称“壳”，是提供给使用者使用界面的进行与系统交互的软件，通过接收用户输入的命令执行相应的操作，Shell分为图形界面Shell和命令行式Shell。文件系统（FS）Shell包含了各种的类Shell的命令，可以直接与Hadoop分布式文件系统以及其他文件系统进行交互。常用命令如下二、案例-Shell命
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解（超详细） showswoller hadoop 大数据 mapreduce 分布式 spark
MapReduce是Hadoop系统核心组件之一，它是一种可用于大数据并行处理的计算模型、框架和平台，主要解决海量数据的计算，是目前分布式计算模型中应用较为广泛的一种。一、MapReduce核心思想MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他