python 实现Hadoop的partitioner和二次排序

我们知道，一个典型的Map-Reduce过程包括：Input->Map->Partition->Reduce->Output。

Partition负责把Map任务输出的中间结果按key分发给不同的Reduce任务进行处理。

Hadoop 提供了一个很有用的partitioner类KeyFieldBasedPartitioner，通过配置对应的參数就能够使用。通过 KeyFieldBasedPartitioner能够方便地实现二次排序。
用法：
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
一般配合：
-D map.output.key.field.separator

-D num.key.fields.for.partition使用。
map.output.key.field.separator指定key内部的分隔符
num.key.fields.for.partition指定对key分出来的前几部分做partition而不是整个key

演示样例：
1. 编写map程序mapper.sh；reduce程序reducer.sh; 測试数据test.txt

view plain

mapper.sh:

#!/bin/sh cat

reducer.sh:

#!/bin/sh sort

test.txt内容：

1,2,1,1,1

1,2,2,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

1,2,3,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

2. 測试数据test.txt放入hdfs，执行map-reduce程序

view plain

$ hadoop streaming /

-D stream.map.output.field.separator=, /

-D stream.num.map.output.key.fields=4 /

-D map.output.key.field.separator=, /

-D num.key.fields.for.partition=2 /

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /

-input /app/test/test.txt /

-output /app/test/test_result /
-mapper ./mapper.sh /

-reducer ./reducer.sh /

-file mapper.sh /

-file reducer.sh /

-jobconf mapre.job.name="sep_test"

$ hadoop fs –cat /app/test/test_result/part-00003

1,2,1,1 1

1,2,2,1 1

1,2,3,1 1

$ hadoop fs –cat /app/test/test_result/part-00004

1,3,1,1 1

1,3,2,1 1

1,3,3,1 1

通过这样的方式，就做到前4个字段是key，可是通过前两个字段进行partition的目的

注意：

-D map.output.key.field.separator=, /

这个分隔符使用TAB键貌似无论用

Hadoop Streaming 是一个工具，取代编写Java的实现类，而利用可运行程序来完毕map-reduce过程

工作流程　：　

InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles

理解 :　
1 输入文件，能够是指定远程文件系统内的目录下的 *
2 通过集群自己分解到各个PC上，每一个mapper是一个可运行文件，对应的启动一个进程，来实现你的逻辑
3 mapper　的输入为标准输入，所以，不论什么可以支持标准输入的可运行的东西，c,c++(编译出来的可运行文件),python,......都可以作为mapper 和 reducer　mapper的输出为标准输出，假设有Partitioner,就给它，假设没有，它的输出将作为reducer的输入
4 Partitioner 为可选的项，二次排序，能够对结果进行分类打到结果文件中面,它的输入是mapper的标准输出，它的输出，将作为reducer的标准输入
5 reducer 同 mapper
6 输出目录，在远端文件不能重名

Hadoop Streaming

1 ： hadoop-streaming.jar 的位置： $HADOOP_HOME/contrib/streaming 内

官方上面关于hadoop-streaming 的介绍已经非常具体了，并且也有了关于python的样例，我就不说了,这里总结下自己的经验

1 指定 mapper or reducer 的 task 官方上说要用 -jobconf　可是这个參数已经过时，不能够用了，官方说要用 -D, 注意这个-D是要作为最開始的配置出现的，由于是在maper 和 reducer　运行之前，就须要硬性指定好的，所以要出如今參数的最前面 ./bin/hadoop jar hadoop-0.19.2-streaming.jar -D .........-input ........　类似这样，这样，即使你程序最后仅仅指定了一个输出管道，可是还是会有你指定的task数量的结果文件，仅仅只是多余的就是空的　实验下面就知道了

2 关于二次排序，因为是用的streaming 所以，在可运行文件内，仅仅可以处理逻辑，还有就是输出，当然我们也可以指定二次排序，可是因为是所有參数化，不是非常灵活。比方:
10.2.3.40    1
11.22.33.33    1
www.renren.com 1
www.baidu.com    1
10.2.3.40    1

这样一个非常规整的输入文件，需求是要把记录独立的ip和url的count　可是输出文件要分切割出来。

官方站点的样例，是指定 key　然后对key 指定主-key　和 key　用来排序，而主-key 用来二次排序，这样会输出你想要的东西，　可是对于上面最简单的需求，对于传递參数，我们怎样做呢?

事实上我们还是能够利用这一点，在我们mapper　里面，还是依照/t来切割key value　可是我们要给key指定一个主-key　用来给Partitioner 来实现二次排序，所以我们能够略微处理下这个KEY,我们能够简单的推断出来ip　和 url　的差别，这样，我们就人为的加上一个主-key　我们在mapper里面，给每一个key人为的加上一个"标签"，用来给partitioner做二次排序用，比方我们的mapper的输出是这样

D&10.2.3.40    1
D&11.22.33.33    1
W&www.renren.com 1
W&www.baidu.com    1
D&10.2.3.40    1

然后通过传递命令參数

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner //指定要求二次排序
-jobconf map.output.key.field.separator='&'　//这里假设不加两个单引號的话我的命令会死掉
-jobconf num.key.fields.for.partition=1　//这里指第一个 &　符号来切割，保证不会出错

这样我们就能够通过 partitioner　来实现二次排序了

在reducer里面，我们再把"标签"摘掉(不费吹灰之力)就能够做到悄无声息的完毕二次排序了。

3:　关于模块化

(强调　：　没有在集群上測试，仅仅在单机上做測试)

程序猿最悲剧的就是不能代码复用，做这个也一样，用hadoop-streaming　也一样，要做到代码重用，是我第一个考虑的问题
当我看到 -file(具体能够看官方站点上的解说)　的时候，我就想到利用这个东西，果然，我的在本机上建立了一个py模块，简单的一个函数
然后在我的mapper里面import 它，本地測试通过后，利用-file　把模块所在的问价夹用 -file moudle/*　这个參数，传入streaming
运行的结果毫无错误，这样，我们就能够抽象出来一些模块的东西，来实现我们模块化的需求

注 : 不要忘记 chmod +x *.py 　将py　变成可运行的，不然不能够运行

代码 :　

1: 模块代码 mg.py 用来给 mapper　贴标签

def mgFunction(line):
if(line[0] >= '0' and line[0] <= '9'):
return "D&" + line
return "W&" + line

2: mapper.py

#!/usr/bin/env python
import sys
sys.path.append('/home/liuguoqing/Desktop/hadoop-0.19.2/moudle')
import mg
for line in sys.stdin:
line = mg.mgFunction(line)
line = line.strip()
# print line
words = line.split()
print '%s\t%s' % (words[0], words[1])

3: reducer.py

#!/usr/bin/env python
import sys
user_login_day = {}

for line in sys.stdin:
line = line[2:]//去掉帽子
line = line.strip()
userid, day = line.split('\t', 1)
user_login_day[userid] = user_login_day.get(userid, 0) + 1

for uid in user_login_day.keys():
print '%s\t%d' % (uid, user_login_day[uid])

这样就实现了模块化的能够二次排序的hadoop-streaming

命令　

./bin/hadoop jar hadoop-0.19.2-streaming.jar \
#streaming jar
-D mapred.reduce.tasks=2  \
#指定2个reduce来处理
-input user_login_day-input2/*  \
#指定输入文件　能够用 dir/*　方式
-output user_login_day-output102
#指定输出目录
-mapper ~/Desktop/hadoop-0.19.2/python/mapper/get_user_login_day_back.py  \
#指定mapper　可运行文件我用全路径，好像用相对路径会出错...
-reducer ~/Desktop/hadoop-0.19.2/python/reducer/get_user_login_day_back.py \
#指定reducer 可运行文件　
-file ~/Desktop/hadoop-0.19.2/moudle/* \
#指定模块化的库文件 dir/*　模式
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \此处报错 -partitioner: command not found
#指定 partitioner　參数为class
-jobconf map.output.key.field.separator='&' \
#指定　主-key　的切割符号为 '&'
-jobconf num.key.fields.for.partition=1
#指定为第一个‘&’

liuguoqing@liuguoqing-desktop:~/Desktop/hadoop-0.19.2$ ./bin/hadoop jar hadoop-0.19.2-streaming.jar -D mapred.reduce.tasks=2 -input user_login_day-input2/* -output user_login_day-output102 -mapper ~/Desktop/hadoop-0.19.2/python/mapper/get_user_login_day_back.py -reducer ~/Desktop/hadoop-0.19.2/python/reducer/get_user_login_day_back.py -file ~/Desktop/hadoop-0.19.2/moudle/* -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner -jobconf map.output.key.field.separator='&' -jobconf num.key.fields.for.partition=1
10/01/24 03:19:15 WARN streaming.StreamJob: -jobconf option is deprecated, please use -D instead.
packageJobJar: [/home/liuguoqing/Desktop/hadoop-0.19.2/moudle/mg.py, /home/liuguoqing/Desktop/hadoop-0.19.2/moudle/mg.pyc, /tmp/hadoop-liuguoqing/hadoop-unjar6780057097425964518/] [] /tmp/streamjob3100401358387519950.jar tmpDir=null
10/01/24 03:19:15 INFO mapred.FileInputFormat: Total input paths to process : 2
10/01/24 03:19:15 INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-liuguoqing/mapred/local]
10/01/24 03:19:15 INFO streaming.StreamJob: Running job: job_201001221008_0065
10/01/24 03:19:15 INFO streaming.StreamJob: To kill this job, run:
10/01/24 03:19:15 INFO streaming.StreamJob: /home/liuguoqing/Desktop/hadoop-0.19.2/bin/../bin/hadoop job  -Dmapred.job.tracker=hdfs://localhost:9881 -kill job_201001221008_0065
10/01/24 03:19:15 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201001221008_0065
10/01/24 03:19:16 INFO streaming.StreamJob:  map 0%  reduce 0%
10/01/24 03:19:17 INFO streaming.StreamJob:  map 33%  reduce 0%
10/01/24 03:19:18 INFO streaming.StreamJob:  map 67%  reduce 0%
10/01/24 03:19:19 INFO streaming.StreamJob:  map 100%  reduce 0%
10/01/24 03:19:27 INFO streaming.StreamJob:  map 100%  reduce 50%
10/01/24 03:19:32 INFO streaming.StreamJob:  map 100%  reduce 100%
10/01/24 03:19:32 INFO streaming.StreamJob: Job complete: job_201001221008_0065
10/01/24 03:19:32 INFO streaming.StreamJob: Output: user_login_day-output102
liuguoqing@liuguoqing-desktop:~/Desktop/hadoop-0.19.2$ ./bin/hadoop dfs -ls user_login_day-output102
Found 3 items
drwxr-xr-x   - liuguoqing supergroup          0 2010-01-24 03:19 /user/liuguoqing/user_login_day-output102/_logs
-rw-r--r--   1 liuguoqing supergroup         25 2010-01-24 03:19 /user/liuguoqing/user_login_day-output102/part-00000
-rw-r--r--   1 liuguoqing supergroup         47 2010-01-24 03:19 /user/liuguoqing/user_login_day-output102/part-00001

liuguoqing@liuguoqing-desktop:~/Desktop/hadoop-0.19.2$ ./bin/hadoop dfs -cat user_login_day-output102/part-00000
54321    2
99999    1
12345    12
liuguoqing@liuguoqing-desktop:~/Desktop/hadoop-0.19.2$ ./bin/hadoop dfs -cat user_login_day-output102/part-00001
http://www.renren.com    3
http://www.baidu.com    3

以上为操作结果显示

自定义分区我的K8409 Hadoop hdfs hadoop 大数据
通过简单例子了解partition分区类的重写方法分区是在MR的过程中进行的，属于Shuffle阶段但是在Job端不要忘记进行调用：job.setPartitionerClass(xxx.class)按照年龄分区：classAgePartitionerextendsPartitioner{@OverridepublicintgetPartition(MyComparablekey,NullWrit
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
Kafka系列之：kafka命令详细总结快乐骑行^_^ 日常分享专栏 Kafka Kafka系列 kafka命令详细总结
Kafka系列之：kafka命令详细总结一、添加和删除topic二、修改topic三、平衡领导者四、检查消费者位置五、管理消费者群体一、添加和删除topicbin/kafka-topics.sh--bootstrap-serverbroker_host:port--create--topicmy_topic_name\--partitions20--replication-factor3--con
ROW_NUMBER() 向日葵般的数学人～ SQL sql
ROW_NUMBER()OVER(PARTITIONBY...ORDERBY...)是一个窗口函数，用于生成每个分组内的唯一行号。这个函数非常适合在分组数据中进行排序，并为每一行分配一个序号。下面是对你的具体示例的详细解释：ROW_NUMBER()OVER(PARTITIONBYMONTH(p.fdate)ORDERBYCOUNT(p.user_id)DESC,s.song_id)ASsong_r
Kafka的ack机制香山上的麻雀
ack=0/1/-1的不同情况：0：producer不等待broker的ack，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；-1：producer等待broker的ack，partition的
Online Conversion of a Non-Partitioned Table to a Partitioned Table in Oracle Database 12c Release 2 IT皮特数据库 oracle
从12.2开始，通过MODIFYTABLE可以在线实现普通表转分区表。一、创建测试表：DROPTABLEt1PURGE;CREATETABLEt1(idNUMBER,descriptionVARCHAR2(50),created_dateDATE,CONSTRAINTt1_pkPRIMARYKEY(id));CREATEINDEXt1_created_date_idxONt1(created_da
Kafka 实战 - Kafka分区和副本机制理解用心去追梦 kafka 分布式
ApacheKafka的分区（Partition）和副本（Replica）机制是其核心架构和可靠性保证的关键组成部分。以下是对其理解的详细解释：分区（Partition）分区概念：在Kafka中，每个主题（Topic）可以被划分为多个分区。分区是一个有序的、不可变的消息序列。这意味着消息在分区中按生成顺序存储，每个消息都有一个唯一的偏移量（Offset）。目的：分区的主要目的是为了水平扩展和并行处
分区Partition DashVector embedding 数据库 python 人工智能数据挖掘
理解Partition向量检索服务DashVector的Collection具有分区（Partition）的能力，同一个Collection下的Doc可通过不同的Partition进行物理和逻辑上的分区。各种Doc操作（如插入Doc、检索Doc等）若指定Partition，则该操作将限定在该指定的Paritition内进行。通过合理的Partition设置，可有效提升Doc操作的效率。同一个Col
老版本kafka查询topic消费情况(python查询) 代码是谁 kafka python 分布式
由于老版本的kafka缺少shell，导致无法通过命令直接进行查询，所以通过python代码，实现消费情况查询安装必须的包#pyhon2.5pipinstallkafka-python==1.4.7python脚本#!/usr/bin/envpythonimportsysfromkafkaimportKafkaConsumer,TopicPartitioniflen(sys.argv)!=2:pr
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
python产生随机整数数组_生成随机整数数组长迦 python产生随机整数数组
这是一个精确的(每个合法的和都有相同的概率)解。它使用所有合法和的枚举，并不是说我们要遍历每个和，而是给定一个数字n，我们可以直接计算枚举中的第n个和。由于我们也知道合法和的总数，我们可以简单地画出统一的整数并对其进行转换：importnumpyasnpimportfunctoolsasft#[email protected]_cache(None)defcapped_pc(N,k,m):
Spring Cloud全解析：注册中心之Eureka架构介绍拾光师 springcloud java
Eureka架构介绍Eureka在设计时采用的是AP原则，是Netflix的一个子模块，用于微服务的服务注册与发现P:Partitiontolerance,网络分区容错。类似多机房部署，保证服务稳定性A:Availability，可用性C:Consistency，一致性对于任意一个系统只能同时满足两个，一个分布式系统不可能同时很好的满足一致性、可用性和分区容错性CA单点集群，满足一致性和可用性，在
Kafka是如何实现高性能的明斯克开源 Java 经验分享架构 java
将写磁盘的过程变为顺序写Kafka的整个设计中，Partition相当于一个非常长的数组，而Broker接收到的所有消息顺序写入这个大数组中。同时Consumer通过Offset顺序消费这些数据，并且不删除已经消费的数据，从而避免了随机写磁盘的过程。由于磁盘有限，不可能保存所有数据，实际上作为消息系统Kafka也没必要保存所有数据，需要删除旧的数据。而这个删除过程，并非通过使用“读-写”模式去修改
ClickHouse实战处理（一）：MergeTree系列引擎 sheep8521 clickhouse 数据库大数据
MergeTree作为家族系列最基础的表引擎，主要有以下特点：存储的数据按照主键排序：创建稀疏索引加快数据查询速度。支持数据分区，可以通过PARTITIONBY语句指定分区字段。支持数据副本。支持数据采样。总之适用于高负载任务的最通用和功能最强大的表引擎。可以快速插入数据并进行后续的后台数据处理。支持数据复制（使用Replicated*的引擎版本）、分区和其他引擎不支持的特性MergeTree系列
【Hot100】LeetCode—215. 数组中的第K个最大元素山脚ice #Hot100 leetcode 算法
目录1-思路快速选择2-实现⭐215.数组中的第K个最大元素——题解思路3-ACM实现原题连接：215.数组中的第K个最大元素1-思路快速选择第k大的元素的数组下标：inttarget=nums.length-k1-根据partition分割的区间来判断当前处理方式如果返回的int等于target说明找到了，直接返回如果返回的int小于target说明要在当前区间的右侧寻找，也就是[pivotIn
pairwise chanTwo_00 数据结构开发语言
pairwise是itertools模块中的一个函数，它用于生成输入序列中相邻元素的配对。在Python3.10中被引入。可以使用pairwise来简化查找相邻元素差值的代码fromitertoolsimportpairwiseclassSolution:deffindValueOfPartition(self,nums:List[int])->int:nums.sort()min_differe
Python酷库之旅-第三方库Pandas(081) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲336、pandas.Series.str.rpartition方法336-1、语法336-2、参数336-3、功能336-4、返回值336-5、说明336-6、用法336-6-1、数据准备336-6-2、代码示例336-6-3、结果输出337、pandas.Series.str.slice方法337-1、语法337-2、参数337-3、功能337-4、返回值337-5、说明337
Kafka Broker处于高负载状态（例如消息处理量大或系统资源不足），无法及时响应消费者的请求战族狼魂消息队列 java kafka 分布式
Causedby:org.apache.kafka.common.errors.TimeoutException:Timeoutof60000msexpiredbeforethepositionforpartitionactivity-0couldbedetermined。出现这个错误的原因是Kafka消费者在尝试获取分区(activity-0)的位置信息时，超时了。在60秒内无法确定该分区的最新
大数据秋招面经之spark系列 wq17629260466 大数据 spark
文章目录前言spark高频面试题汇总1.spark介绍2.spark分组取TopN方案总结：方案2是最佳方案。3.repartition与coalesce4.spark的oom问题怎么产生的以及解决方案5.storm与flink,sparkstreaming之间的区别6.spark的几种部署方式：7.复习spark的yarn-cluster模式执行流程：8.spark的job提交流程：9.spar
【笔记】Explain执行计划怎么看寻梦的小柳
来源来源当Explain与SQL语句一起使用时，MySQL会显示来自优化器关于SQL执行的信息。也就是说，MySQL解释了它将如何处理该语句，包括如何连接表以及什么顺序连接表等。Explain执行计划包含字段信息如下：分别是id、select_type、table、partitions、type、possible_keys、key、key_len、ref、rows、filtered、Extra12
Kafka-设计原理姜希成 Kafka kafka
ControllerLeader-PartitionRebalance消息发布机制HW与LEO日志分段ControllerKafka核心总控制器Controller：在Kafka集群中会有一个或者多个broker，其中有一个broker会被选举为控制器（KafkaController），它负责管理整个集群中所有分区和副本的状态当某个分区的leader副本出现故障时，由控制器负责为该分区选举新的le
Java 7.1 - 理论 & 算法 & 协议没有韭菜的饺子 java 开发语言
什么是CAP理论？C：Consistency一致性A：Availability可用性P：Partition分区容错性对于理论计算机科学，CAP定理指出，对于一个分布式系统而言，CAP中的三个只能同时满足两个。分区容错性：分布式系统出现网络分区的时候，仍然可以向外提供服务。*网络分区分布式系统中，多个节点之间的网络本来是相连的。但现在因为某些原因，某些节点之间不再连通，网络会被分成多个区域，这就叫网
关于PostgreSQL的分区表的历史及分区裁剪参数enable_partition_pruning与constraint_exclusion的区别胖胖小李胡 postgresql postgresql 数据库
1.疑惑我们知道控制分区裁剪的参数有两个：enable_partition_pruningconstraint_exclusion这两个参数有什么区别呢？2.解答要说明这两个参数的区别需要先讲一讲PostgreSQL数据库中分区的历史，在PostgreSQL10版本之前，PostgreSQL数据库实际上是没有单独的创建分区表的DDL语句，都是通过表继承的原理来创建分区表，这样使得在PostgreS
132. Palindrome Partitioning II (Hard) Ysgc
Description:Givenastrings,partitionssuchthateverysubstringofthepartitionisapalindrome.Returntheminimumcutsneededforapalindromepartitioningofs.Example:Input:"aab"Output:1Explanation:Thepalindromepartit
Kafka~Kafka命令行参数使用教程飞Link 大数据 kafka zookeeper 分布式
一、kafka-topics.sh1.参数参数描述–bootstrap-server连接的KafkaBroker主机名称和端口号–topic操作的topic名称–create创建主题–delete删除主题–alter修改主题–list查看所有主题–describe查看主题详细描述–partition设置分区数–replication-factor设置分区副本–config更新系统默认的配置2.实例
【openGauss5.0.0版本】分区表新增的特性 - 示例若兰幽竹 openGauss openGauss
openGauss5.0.0版本中，List和range分区新增功能如下：List分区键最大数由1扩展为16列:createtabletp16(c1int,c2int,c3int,c4int,c5int,c6int,c7int,c8int,c9int,c10int,c11int,c12int,c13int,c14int,c15int,c16int)partitionbylist(c1,c2,c3,
hive学习（五） 2301_79721847 hive 学习 hadoop
一、hive的DML操作1.load（向表中装载数据）hive>loaddata[local]inpath'路径'[overwrite]intotable表名[partition(partcol1=val1,…)];特殊说明1）local：标识从本地加载数据到Hive表，若没有local的话从HDFS加载数据到Hive表2）overwrite：表示覆盖原有数据，若没有追加在原有数据上3）若目标是分
hive学习（四） 2301_79721847 hive 学习 hadoop
一、分区表的数据导入1.静态分区（需要手动指定分区字段的值）直接将文件数据导入到分区表语法：loaddata[local]inpath'filepath'intotabletablenamepartition(分区字段1='分区值1',分区字段2='分区值2'...);loaddata[local]inpath'/root/hive/data/c.txtintotablenickypartitio
VirtualBox Debian 自动安装脚本入秋的大橘开发问题解决 Linux 开发环境 debian chrome 运维
概览相较于原脚本（安装目录/UnattendedTemplates/debian_pressed.cfg）更新如下内容：配置清华镜像源配置仅主机网卡（后续只需添加仅主机网卡即可）配置Root用户远程登录配置用户sudo组脚本debian_pressed.cfg###Partitioningd-ipartman-auto/diskstring/dev/sdad-ipartman-auto/metho
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

python 实现Hadoop的partitioner和二次排序

你可能感兴趣的:(partition)