最美的词

基于Hadoop的地震数据分析统计

源码下载地址：http://download.csdn.net/detail/huhui_bj/5645641

opencsv下载地址：http://download.csdn.net/detail/huhui_bj/5645661

地震数据下载地址：http://download.csdn.net/detail/huhui_bj/5645685

1 项目说明

本文实现的是用Hadoop的MapReduce计算框架，对国内2013年1月至6月这半年以来的地震数据进行了统计和分析。分别按照地震时间和地震地点进行分析。

地震数据来源于国家地震科学数据共享中心，地址： http://data.earthquake.cn/data/index.jsp?no11&number=28

2 项目准备

首先是开发环境，我所使用的是Eclipse开发环境，eclipse中集成了hadoop开发插件。如何安装单机hadoop，请移步 hadoop安装

从国家地震科学数据共享中心下载下来的数据是excel文件，需要转化成CSV文件，这样便于解析。CSV文件中的数据大约有20000条左右，是这半年以来全国各地的地震情况监测数据。全国各地每天都有很多个小型地震发生。其中大部分发生在地壳深处，没有人能高觉到，尽管如此，地震监听站仍会记录这些小型地震。

下面是几行地震数据

日期,时间,纬度(°),经度(°),深度(km),震级类型,震级值,事件类型,参考地名
2013-06-25,06:04:13.0,10.70,-42.60,10,Ms,6.5,eq,中大西洋海岭北部
2013-06-24,14:34:48.7,44.33,84.10,6,Ms,4.1,eq,新疆维吾尔自治区塔城地区乌苏市
2013-06-24,13:02:01.9,44.31,84.17,8,Ms,4.3,eq,新疆维吾尔自治区塔城地区乌苏市
2013-06-24,11:44:20.8,39.42,95.50,6,Ms,3.4,eq,甘肃省酒泉市肃北蒙古族自治县

下面，提出两个问题：

a. 每天有多少次地震发生；

b. 这六个月的时间内，各个地点总共发生了多少次地震。

3 程序说明

3.1 解析CSV文件

CSV文件前面两行是文件头，其它每一行都是一系列逗号分隔开的数据值。我们只对3列数据感兴趣：日期、地点和震级。为了解析CSV文件，我们使用了一个很棒的开源库opencsv，用它能够很容易的解析CSV文件。

我们从CSV文件中复制一条数据作为测试数据，确认我们可以用opencsv来获取我们想要的信息。

/**
 * 测试读取csv文件中的地震数据
 */
package com.eq.test;

import java.io.IOException;

import au.com.bytecode.opencsv.CSVParser;

public class CSVProcessingTest {

	/**
	 * @param args
	 */
	// 从csv文件复制一行数据
	private final String LINE = "2013-06-23,22:31:30.3,24.70,99.21,5,ML,1.4,eq,云南施甸";

	public void testReadingOneLine() {
		String[] lines = null;
		try {
			// 用opencsv解析
			lines = new CSVParser().parseLine(LINE);
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		// 打印解析结果
		for (String line : lines) {
			System.out.println(line);
		}
	}

	public static void main(String[] args) {
		// TODO Auto-generated method stub
		CSVProcessingTest csvProcessingTest = new CSVProcessingTest();
		csvProcessingTest.testReadingOneLine();
	}

}

opencsv处理逗号分隔值值非常简单，该解析器仅返回一组String数组。

3.2 编写map函数

EarthQuakeLocationMapper类继承了hadoop的Mapper对象。它指定输出键为一个Text对象，将其值制定为IntWritable，IntWritable实质上是一个整数。而LongWritable和Text分别表示字节数和文本行数。

/**
 * 统计地震次数的区域的map
 */
package com.eq.map;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import au.com.bytecode.opencsv.CSVParser;

public class EarthQuakeLocationMapper extends
		Mapper {
	@Override
	protected void map(LongWritable key, Text value, Context context)
			throws IOException, InterruptedException {
		if (key.get() > 0) {
			String[] lines = new CSVParser().parseLine(value.toString());
			context.write(new Text(lines[8]), new IntWritable(1));
		}
	}
}

map函数十分简单。首先我们检查字节数（key对象）是否为0，这样可以避免CSV文件头部数据。然后传入地名，设置传出键。就是说，我们为每个地名编写一个计数器，当下文中reduce实现被调用时，获取一个键和一系列值。本例中，键是地名及其值，如下面所示：

"四川汶川":[1,1,1,1,1,1,1,1]
"甘肃天祝":[1,1,1,1]
"广西平果":[1,1,1,1,1,1]

注意：context.write(new Text(lines[8]), new IntWritable(1))构建了如上面所示的逻辑关系集合。context是一个保存各种信息的hadoop的数据结构。context将被传递到reduce实现，reduce获取这些值为1的值然后叠加起来，算出总数。因此，一个reduce的输出视图将是这样的：

"四川汶川":[8]
"甘肃天祝":[4]
"广西平果":[6]

3.3 编写reduce函数

reduce实现如下。与Mapper一样，Reducer被参数化了：前两个参数是传入的键类型（Text）和值类型（IntWritable），后两个参数是输出类型：键和值。

package com.eq.reduce;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class EarthQuakeLocationReducer extends
		Reducer {
	@Override
	protected void reduce(Text key, Iterable values,
			Context context) throws IOException, InterruptedException {
		int count = 0;
		for (IntWritable value : values) {
			count++;
		}
		if (count >= 10) {
			context.write(key, new IntWritable(count));
		}
	}
}

reduce的实现也是非常简单的，传入到reduce中实际上是一个值的集合，我们所做的就是将他们加起来，然后写出一个新键值对来表示地点和次数。

"四川汶川":[1,1,1,1,1,1,1,1]  -->  "四川汶川":8

3.3 编写Hadoop的Job

现在我们已经写完了map和reduce，接下来要做的就是将所有这一切链接到一个Hadoop的Job。定义一个Job比较简单：你需要提供输入和输出、map和reduce实现以及输出类型。

/**
 * 定义一个hadoop job，用于统计不同地域的地震次数
 */
package com.eq.job;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.eq.map.EarthQuakeLocationMapper;
import com.eq.map.EarthQuakesPerDateMapper;
import com.eq.reduce.EarthQuakeLocationReducer;
import com.eq.reduce.EarthQuakesPerDateReducer;
import org.apache.hadoop.io.Text;

public class EarthQuakesLocationJob {

	/**
	 * @param args
	 */
	
	public static void main(String[] args) throws Throwable {
		// TODO Auto-generated method stub
		Job job = new Job();
		job.setJarByClass(EarthQuakesLocationJob.class);
		FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/input/earthquake_data.csv"));//csv文件所在目录
		FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/output"));
		
		job.setMapperClass(EarthQuakeLocationMapper.class);
		job.setReducerClass(EarthQuakeLocationReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		System.exit(job.waitForCompletion(true)?0:1);
	}

}

3.4程序运行结果

reduce输出的结果，可以在 http://localhost:50070中查看。以上只是结果的一部分。

通过上文的叙述，我们解答了前文提到的两个问题的第二个问题。还有第一个问题，就是统计每个时间地震发生的次数。

在源代码中，map函数如下：

/**
 * map函数的实现
 */
package com.eq.map;

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import au.com.bytecode.opencsv.CSVParser;

public class EarthQuakesPerDateMapper extends
		Mapper {

	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException {
		if (key.get() > 0) {
			try {
				// csv解析器
				CSVParser parser = new CSVParser();
				// 解析csv数据
				String[] lines = parser.parseLine(value.toString());
				String dtstr = lines[0];
				//map输出
				context.write(new Text(dtstr), new IntWritable(1));
			} catch (Exception e) {
				// TODO: handle exception
				e.printStackTrace();
			}
		}
	}

}

reduce函数如下：

package com.eq.reduce;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class EarthQuakesPerDateReducer extends
		Reducer {

	@Override
	protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
		int count = 0;
		for (IntWritable value : values) {
			count++;
		}
		context.write(key, new IntWritable(count));
	}
}

Job如下：

/**
 * 定义一个hadoop job
 */
package com.eq.job;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.eq.map.EarthQuakesPerDateMapper;
import com.eq.reduce.EarthQuakesPerDateReducer;
import org.apache.hadoop.io.Text;

public class EarthQuakesPerDayJob {

	/**
	 * @param args
	 */
	
	public static void main(String[] args) throws Throwable {
		// TODO Auto-generated method stub
		Job job = new Job();
		job.setJarByClass(EarthQuakesPerDayJob.class);
		FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/input/all_month.csv"));//csv文件所在目录
		FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/output"));
		
		job.setMapperClass(EarthQuakesPerDateMapper.class);
		job.setReducerClass(EarthQuakesPerDateReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		System.exit(job.waitForCompletion(true)?0:1);
	}

}

这几段代码和之前的很相似，此处不再赘述。

浪潮 M5系列服务器IPMI无法监控存储RAID卡问题. Songxwn 硬件服务器服务器运维
简介浪潮的M5代服务器，可能有WebBMC无法查看存储RAID/SAS卡状态的情况，可以通过以下方式修改。修改完成后重启BMC即可生效。ESXiIPMITools使用：https://songxwn.com/ESXi8_IPMI/（Linux也可以直接使用）Linux/ESXiIPMITool下载：https://songxwn.com/file/ipmitoolWindows下载：https:/
unblock with ‘mysqladmin flush-hosts‘ 解决方法祈祷平安,加油数据库常见问题 oracle 数据库
MySqlHostisblockedbecauseofmanyconnectionerrors;unblockwith'mysqladminflush-hosts'解决方法环境：linux，mysql5.5.21错误：Hostisblockedbecauseofmanyconnectionerrors;unblockwith'mysqladminflush-hosts'原因：同一个ip在短时间内产
1.计算机处理器架构+嵌入式处理器架构及知识 vv 啊 arm-linux学习 linux 系统架构
目录一：x86-64处理器架构二：Intel80386处理器（i386）1.i3862.i686三：嵌入式Linux知识：1.MinGW2.GNU计划2.1GNU工具链概述此次只分享英特尔和ADM处理器有关于x86的架构，至于嵌入式处理器架构请查看https://en.wikipedia.org/wiki/List_of_ARM_processors一：x86-64处理器架构x86-64，也称为x
linux基础命令（一）运维搬运工 linux linux 服务器 centos
Linux基础命令1、设置主机名1.1、hostname查看主机名[root@ansible~]#cat/etc/hostnameansible或[root@ansible~]#hostnameansible注意：主机名中不允许使用下划线“_”，可以用短横线“-”1.2、hostname临时修改主机名#临时修改直接修改的是内存中的，重启会失效[root@ansible~]#hostnameansi
docker基础（一）运维搬运工容器-docker docker 容器运维
相关概念介绍Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖到一个可移植的容器中，然后发布到任何流行的linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，互相之间不会有任何接口。Docker有几个重要概念：dockerfile，配置文件，用来生成dockerimagedockerimage，交付部署的最小单元docker命令与API，定义命令与接口，支持第三方系统集
linux安装docker及docker-compose 部署spring boot项目时而有事儿 docker linux docker linux spring boot
linux系统环境：centos5.14本篇描述的是在centos系统版本下安装docker，如果是ubuntu版本，请看这篇文章：linuxubuntu20安装docker和docker-compose-CSDN博客正文：安装docker和docker-compose安装docker---------运行命名等待安装完成遇到选择直接输入yyuminstall-yyum-utilsdevice-m
检测usb口HotPlug-netlink cany1000 linux
为了完成内核空间与用户空间通信，Linux提供了基于Socket的NetLink通信机制。SELinux，Linux系统的防火墙分为内核态的netfilter和用户态的iptables，netfilter与iptables的数据交换就是通过Netlink机制完成。下面看一个检测usb口的例子：s32InitUsbHotPlug(void){s32nSockFd=0;//套接字地址structsoc
Linux学习系列之vim编辑器（一） llibertyll linux 学习
vi编辑器的操作模式输入模式—aio等—>命令模式<—：键—末行模式从输入/末行模式切换到命令模式都是需要按ESC键注:a光标后输入，i光标前输入，o直接向下加一行输入，O向上加一行输入在vi编辑器中光标的移动（命令行模式下）键组合（命令）光标的移动$光标移动到当前行的结尾0（零）光标移动到当前行的开始GG光标移动到最后一行gg光标移动到第一行在命令行模式下删除与复制的操作键组合（命令）含义dd删
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
Linux初学（十）shell脚本王依硕 Linux linux 运维服务器
一、for循环1.1循环的格式for变量in列表do代码代码....done循环的逻辑：将列表中的每个元素逐一赋值给变量每赋值一次，do和done之间的代码就会执行一次1.2列表的生成方式方法1：直接给出列表元素【用空格分隔多个元素】133129hahabaidu方法2：用通配符来生成元素/home/a*方法3：用命令来生成元素ls/etc/方法4：用{}展开的形式生成元素{3..7}{a..e}
Ubuntu下安装Chrome浏览器(简单,使用) Starry-sky(jing) [linux操作系统笔记]chrome 深度学习 linux
下载安装GoogleChrome浏览器deb包极速下载:下载链接32位wgethttps://dl.google.com/linux/direct/google-chrome-stable_current_i386.deb64位wgethttps://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb安装sudodpk
【Linux】PyCharm无法启动报错及解决方法不是AI python 软件操作 Linux linux pycharm 运维
一、问题描述如图，笔者试图在Ubuntu18.04虚拟机上运行PyCharm开发工具（已安装，安装过程可以参考我的博客Ubuntu安装PyCharm），无法启动，报错：CannotconnecttoalreadyrunningIDEinstance.Exception:Process2574isstillrunning.报错截图如下：二、解决方法通过报错信息看出，出于某种原因，进程（PID为257
Linux（centos7）部署hive 灯下夜无眠 Linux linux hive 运维 dbeaver hive客户端
前提环境：已部署完hadoop(HDFS、MapReduce、YARN)1、安装元数据服务MySQL切换root用户#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysqL-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch.
Linux通过Tuned实现动态调优系统性能星河_赵梓宇 linux 运维服务器
Linux通过Tuned实现动态调优系统性能Tuned简介对于普通用户来说，优化Linux应用环境可能是相当具有挑战性的。它涵盖了各种领域，并且有许多参数需要考虑，比如CPU、存储、缓存策略和内存管理。尽管Linux有默认设置可以处理大多数情况和场景，但是对于高性能、高并发和高可用性系统等特殊场景，需要进行调整。本文讨论的特性是tuned，它是Linux系统中常用的一种调优服务。tuned由两个程
vscode配置go远程linux gdut17 golang
Toolsenvironment:GOPATH=/root/goInstalling9toolsat/root/go/bininmodulemode.gopkgsgo-outlinegotestsgomodifytagsimplgoplaydlvgolintgoplsInstallinggithub.com/uudashr/gopkgs/v2/cmd/gopkgs(/root/go/bin/gop
部署es集群 liushaojiax elasticsearch java 大数据
我们会在单机上利用docker容器运行多个es实例来模拟es集群。不过生产环境推荐大家每一台服务节点仅部署一个es的实例。部署es集群可以直接使用docker-compose来完成，但这要求你的Linux虚拟机至少有4G的内存空间创建es集群首先编写一个docker-compose文件，内容如下：version:'2.2'services:es01:image:elasticsearch:7.12
在 Linux/Ubuntu/Debian 上安装 SQL Server 2019 理工男老K ubuntu linux 运维 debian sqlserver
Microsoft为Linux发行版（包括Ubuntu）提供SQLServer。以下是有关如何执行此操作的基本指南：注册MicrosoftUbuntu存储库并添加公共存储库GPG密钥：sudowget-qO-https://packages.microsoft.com/keys/microsoft.asc|sudoapt-keyadd-sudoadd-apt-repository"$(wget-q
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
生信星球学习小组第80期 Day3笔记--ZJUSKY ZJUSKY
Conda简介Conda是一个开源的软件包管理系统和环境管理系统，用于安装多个版本的软件包及其依赖关系，并在它们之间轻松切换。简单来说Conda就是Linux系统下的应用商店，你可以在通过Conda下载，安装很多软件。这里我们推荐miniconda,它只包含了最基本的内容，python和conda，以及相关的必须依赖项。精简的miniconda足够满足日常生信使用。下载miniconda推荐使用清
Linux系统及操作 (04) 3s不会飞 Linux 基础常识 linux 运维服务器
Linux系统及操作(03)RPM软件包网络下载对应软件包光盘镜像文件，具备软件包Windows系统软件包的管理可以指定安装位置安装是集中安装到一个目录Linux系统与Windows系统相反。常见的软件包（生态）类型电脑入侵99%都是通过软件包的漏洞进行的。window生态Android生态ios生态rpm软件包：扩展名为.rpm,适用于RedHat系统。deb软件包：扩展名为.deb适用于Deb
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
RockyLinux8 & RockyLinux9安装postgresql16-devel开发包 ynzhangyao postgresql
1、PG的插件扩展有些需要自行编译，需要安装PG开发包2、RockyLinux8安装#创建用户先useraddpostgressudodnfinstall-yhttps://download.postgresql.org/pub/repos/yum/reporpms/EL-8-x86_64/pgdg-redhat-repo-latest.noarch.rpmsudodnf-qymoduledisa
Linux系统定时备份mysql数据库 er_得一数据库 mysql oracle
1、创建shell脚本mysql_db_backup并赋予执行权限#!/bin/bash#备份目录BACKUP=/data/backup/db#当前时间DATETIME=$(date+%Y-%m-%d_%H%M%S)echo$DATETIME#数据库地址HOST=localhost#数据库用户名DB_USER=root#数据库密码DB_PW=pwd@123#备份的数据库名DATABASE=Apol
Linux中PATH、LIBRARY_PATH、LD_LIBRARY_PATH的作用 zhang-ge Linux C linux
1、PATHPATH是存储可执行文件搜索路径的系统环境变量，它包含了一组由冒号:分隔的目录列表。当运行一个命令时，操作系统会在这些目录中查找相应的可执行文件，并在找到后执行它。例如，在命令行中执行ls命令时，就会依次在PATH变量列出的目录中查找ls命令，如果找到则执行，否则会提示找不到该命令。可以通过以下方式修改PATH环境变量：exportPATH=$PATH:/exe_path/bin永久修
RabbitMQ的安装白泽27 rabbitmq 分布式
典型应用场景：异步处理。把消息放入消息中间件中，等到需要的时候再去处理。流量削峰。例如秒杀活动，在短时间内访问量急剧增加，使用消息队列，当消息队列满了就拒绝响应，跳转到错误页面，这样就可以使得系统不会因为超负载而崩溃Linux下安装#拉取镜像dockerpullrabbitmq:3.8-management#创建容器启动dockerrun-d--restart=always-p5672:5672-
linux环境下 python import找不到自定义模块的解决方法强哥的博客 python
问题现象：Linux环境中自定义的模块basic，importbasic出错。basic模块在/quoteEastmoney/目录下。两种方法：1.在导入模块之前（每个.py文件都需要加）importsyssys.path.append('/quoteEastmoney/')2.更改环境变量（一次修改永久生效）管理员权限修改：/etc/profile。在最后一行加上exportPYTHONPATH
03-10Linux的文件系统圆缘1987
Linux的文件系统：根文件系统（rootfs）：rootfilesystemLSB,FHS/boot：引导文件存放目录：内核文件（vmlinuz），引导加载器（bootloader,grub）都存放于此目录/bin：供所有用户使用的基本命令；不能关联至独立分区，OS启动会用到的程序/sbin：管理类的基本命令；不能关联至独立分区，OS启动会用到的程序/lib：基本共享库文件，以及内核模块文件（/
centos7安装jdk17 小丛的知识窝 java
AmazonCorretto是亚马逊提供的一个免费的、兼容OpenJDK的JDK发行版。以下是在CentOS7系统上安装AmazonCorrettoJDK17的步骤：下载AmazonCorrettoJDK：wgethttps://corretto.aws/downloads/latest/amazon-corretto-17-x64-linux-jdk.tar.gz解压JDK17文件：在服务器上执
Ambari——编译——解决解决windows和linux下phantomjs链接超时问题空了虾摸索 Ambari ambari-排错 ambari windows linux
您的支持是我继续创作与分享的动力源泉!!!您的支持是我继续创作与分享的动力源泉!!!您的支持是我继续创作与分享的动力源泉!!!错误日志：[INFO]CopyingextractedfolderC:\Users\LENOVO\AppData\Local\Temp\phantomjs\phantomjs-2.1.1-windows.zip-extract-1786692611821\phantomjs
Linux下复制粘贴快捷键 huzimu_ 笔记
Linux下复制粘贴快捷键终端下：复制：ctrl+shift+c粘贴：ctrl+shift+v控制台下：复制：ctrl+insert或鼠标选中粘贴：shift+insert或单击鼠标左键
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st