qq_860556105

大数据环境配置分布式安装hdoop

Hadoop完全分布式安装教程

一、软件版本....................................................... 2

二、安装教程....................................................... 2

1、VMWare安装教程.............................................. 2

2、Ubuntu安装教程.............................................. 2

3、安装VMWare-Tools............................................ 5

4、用户创建..................................................... 8

5、主机配置..................................................... 8

6、SSH无密码验证配置........................................... 9

7、Java环境配置................................................ 9

8、hadoop集群安装............................................. 10

三、运行wordcount程序............................................ 20

一、软件版本

Hadoop版本号：hadoop-2.6.0.tar；

VMWare版本号：VMware-workstation-full-11.0.0-2305329

Ubuntu版本号：ubuntu-14.04.1-desktop-i386其他版本也可

Jdk版本号：jdk-6u45-linux-i586.bin

后三项对版本要求不严格，如果使用Hbase1.0.0版本，需要JDK1.8以上版本。

二、安装教程

1、VMWare安装教程

VMWare虚拟机是个软件，安装后可用来创建虚拟机，在虚拟机上再安装系统，在这个虚拟系统上再安装应用软件，所有应用就像操作一台真正的电脑，

请直接到VMWare官方网站下载相关软件

http://www.vmware.com/cn/products/workstation/workstation-evaluation

以上链接如果因为官方网站变动发生变化，可以直接在搜索引擎中搜索VMWare来查找其下载地址，建议不要在非官方网站下载。

安装试用版后有30天的试用期。

2、Ubuntu安装教程

打开VMWare点击创建新的虚拟机

选择典型

点击浏览

选择ubuntu

暂时只建两个虚拟机，注意分别给两个虚拟机起名为Ubuntu1和Ubuntu2；也可以按照自己的习惯取名，但是后续的许多配置文件要相应更改，会带来一些麻烦。

密码也请记牢，后面会经常使用。

3、安装VMWare-Tools

Ubuntu中会显示有光盘插入了光驱

双击打开光盘将光盘中VMwareTools-9.6.1-1378637.tar.gz复制到桌面，复制方法类似windows系统操作。

点击Extract Here

从菜单打开Ubuntu的控制终端

cdDesktop/vmware-tools-distrib/

sudo./vmware-install.pl

输入root密码，一路回车，重启系统

原理

编辑

在sudo于1980年前后被写出之前，一般用户管理系统的方式是利用su切换为超级用户。但是使用su的缺点之一在于必须要先告知超级用户的密码。

sudo使一般用户不需要知道超级用户的密码即可获得权限。首先超级用户将普通用户的名字、可以执行的特定命令、按照哪种用户或用户组的身份执行等信息，登记在特殊的文件中（通常是/etc/sudoers），即完成对该用户的授权（此时该用户称为“sudoer”）；在一般用户需要取得特殊权限时，其可在命令前加上“sudo”，此时sudo将会询问该用户自己的密码（以确认终端机前的是该用户本人），回答后系统即会将该命令的进程以超级用户的权限运行。之后的一段时间内（默认为5分钟，可在/etc/sudoers自定义），使用sudo不需要再次输入密码。

由于不需要超级用户的密码，部分Unix系统甚至利用sudo使一般用户取代超级用户作为管理帐号，例如Ubuntu、Mac OS X等。

注意： ubuntu安装后，root 用户默认是被锁定了的，不允许登录，也不允许“ su” 到root 。

允许 su 到root

非常简单，下面是设置的方法：

注意：ubuntu安装后要更新软件源：

cd /etc/apt

sudo apt-get update

安装各种软件比较方便

4、用户创建

创建hadoop用户组：sudo addgroup hadoop

创建hduser用户：sudoadduser -ingroup hadoop hduser

注意这里为hduser用户设置同主用户相同的密码

为hadoop用户添加权限：sudogedit /etc/sudoers，在root ALL=(ALL) ALL下添加

hduser ALL=(ALL) ALL。

执行命令报错切换到目录编辑

设置好后重启机器：sudo reboot

切换到hduser用户登录；

5、主机配置

Hadoop集群中包括2个节点：1个Master，2个Salve，其中虚拟机Ubuntu1既做Master,也做Slave；虚拟机Ubuntu2只做Slave。

配置hostname：Ubuntu下修改机器名称:sudo gedit /etc/hostname ，改为Ubuntu1；修改成功后用重启命令：hostname,查看当前主机名是否设置成功；

此时可以用虚拟机克隆的方式再复制一个。（先关机 vmware 菜单--虚拟机-管理--克隆）

注意：修改克隆的主机名为Ubuntu2。

配置hosts文件：查看Ubuntu1和Ubuntu2的ip：ifconfig；

打开hosts文件：sudogedit /etc/hosts

，添加如下内容：

192.168.xxx.xxx Ubuntu1

192.168.xxx.xxx Ubuntu2

注意这里的ip地址需要学员根据自己的电脑的ip设置。

在Ubuntu1上执行命令：pingUbuntu2，若能ping通，则说明执行正确。

$$$$$$$$$$$$配置ssh连接linux 速度快

sudo vi /etc/ssh/sshd_config

2.在sshd_config配置文件末尾中添加：

[java] view plain copy

1. Ciphers aes128-cbc,aes192-cbc,aes256-cbc,aes128-ctr,aes192-ctr,aes256-ctr,3des-cbc,arcfour128,arcfour256,arcfour,blowfish-cbc,cast128-cbc

2. MACs hmac-md5,hmac-sha1,umac-64@openssh.com,hmac-ripemd160,hmac-sha1-96,hmac-md5-96

3. KexAlgorithms diffie-hellman-group1-sha1,diffie-hellman-group14-sha1,diffie-hellman-group-exchange-sha1,diffie-hellman-group-exchange-sha256,ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521,diffie-hellman-group1-sha1,curve25519-sha256@libssh.org

或

Ciphersaes128-cbc,aes192-cbc,aes256-cbc,aes128-ctr,aes192-ctr,aes256-ctr,3des-cbc,arcfour128,arcfour256,arcfour,blowfish-cbc,cast128-cbc
MACshmac-md5,hmac-sha1,[email protected],hmac-ripemd160,hmac-sha1-96,hmac-md5-96
KexAlgorithms diffie-hellman-group1-sha1,diffie-hellman-group14-sha1,diffie-hellman-group-exchange-sha1,diffie-hellman-group-exchange-sha256,ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521,diffie-hellman-group1-sha1,[email protected]

3.重启sshd服务后，即可正常连接:

[java] view plain copy

1. sudo /etc/init.d/ssh restart

或

sudo /etc/init.d/ssh restart

$$$$$$$$$$$$配置ssh连接linux 速度快

6、SSH无密码验证配置

安装ssh服务器，默认安装了ssh客户端：sudoapt-get install openssh-server；

在Ubuntu1上生成公钥和秘钥：ssh-keygen-t rsa -P "" ；

查看路径/home/hduser/.ssh文件里是否有id_rsa和id_rsa.pub；
将公钥赋给authorized_keys：cat$HOME/hduser/.ssh/id_rsa.pub >> $HOME/hduser/.ssh/authorized_keys；

cat id_rsa.pub >> authorized_keys

无密码登录：sshlocalhost；

无密码登陆到Ubuntu2，在Ubuntu1上执行：ssh-copy-idUbuntu2，查看Ubuntu2的/home/hduser/.ssh文件里是否有authorized_keys；

在Ubuntu1上执行命令：sshUbuntu2，首次登陆需要输入密码，再次登陆则无需密码；

若要使Ubuntu2无密码登录Ubuntu1，则在Ubutu2上执行上述相同操作即可。

注：若无密码登录设置不成功，则很有可能是文件夹/文件权限问题，修改文件夹/文件权限即可。sudochmod 777 “文件夹” 即可。

root@Ubuntu1:/home/hduser#

root@Ubuntu1:/home/hduser# ssh Ubuntu2--不能用root用户连接ubuntu2无权限

root@ubuntu2's password:

Permission denied, please try again.

7、Java环境配置

获取opt文件夹权限：sudo chmod 777 /opt

将java压缩包放在/opt/，root模式执行sudo./jdk-6u45-linux-i586.bin

配置jdk的环境变量：sudo gedit /etc/profile，将一下内容复制进去并保存

# java

exportJAVA_HOME=/opt/jdk1.6.0_45

exportJRE_HOME=$JAVA_HOME/jre

exportCLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

exportPATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

执行命令，使配置生效：source/etc/profile；

执行命令：java-version，若出现java版本号，则说明安装成功。

sudo apt-get install openjdk-7-jdk-headless

http://openjdk.java.net/install/

8、hadoop集群安装

8.1 安装

将hadoop压缩包hadoop-2.6.0.tar.gz放在/home/hduser目录下，并解压缩到本地，重命名为hadoop；配置hadoop环境变量，执行：sudogedit /etc/profile，将以下复制到profile内：

#hadoop

exportHADOOP_HOME=/home/hduser/hadoop

exportPATH=$HADOOP_HOME/bin:$PATH

执行：source /etc/profile

注意：Ubuntu1、ubuntu2都要配置以上步骤；

8.2 配置

主要涉及的配置文件有7个：都在/hadoop/etc/hadoop文件夹下，可以用gedit命令对其进行编辑。

（1）进去hadoop配置文件目录

cd /home/hduser/hadoop/etc/hadoop/

（2）配置 hadoop-env.sh文件-->修改JAVA_HOME

gedit hadoop-env.sh

添加如下内容

# The java implementation to use.

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386/

#JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386

（3）配置 yarn-env.sh 文件-->>修改JAVA_HOME

添加如下内容

# some Java parameters

exportJAVA_HOME=/opt/jdk1.6.0_45

（4）配置slaves文件-->>增加slave节点

（删除原来的localhost）

添加如下内容

Ubuntu1

Ubuntu2

（5）配置 core-site.xml文件-->>增加hadoop核心配置

（hdfs文件端口是9000、file:/home/hduser/hadoop/tmp）

添加如下内容

fs.defaultFS
hdfs://Ubuntu1:9000

io.file.buffer.size
131072

hadoop.tmp.dir
file:/home/hduser/hadoop/tmp
Abasefor other temporarydirectories.

hadoop.native.lib
true
Should native hadoop libraries, if present, beused.

（6）配置 hdfs-site.xml 文件-->>增加hdfs配置信息

（namenode、datanode端口和目录位置）

dfs.namenode.secondary.http-address
Ubuntu1:9001

dfs.namenode.name.dir
file:/home/hduser/hadoop/dfs/name

dfs.datanode.data.dir
file:/home/hduser/hadoop/dfs/data

dfs.replication
2

dfs.webhdfs.enabled
true

（7）配置 mapred-site.xml 文件-->>增加mapreduce配置

（使用yarn框架、jobhistory使用地址以及web地址）

mapreduce.framework.name
yarn

mapreduce.jobhistory.address
Ubuntu1:10020

mapreduce.jobhistory.webapp.address
Ubuntu1:19888

（8）配置 yarn-site.xml 文件-->>增加yarn功能

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler

yarn.resourcemanager.address
Ubuntu1:8032

yarn.resourcemanager.scheduler.address
Ubuntu1:8030

yarn.resourcemanager.resource-tracker.address
Ubuntu1:8035

yarn.resourcemanager.admin.address
Ubuntu1:8033

yarn.resourcemanager.webapp.address
Ubuntu1:8088

（9）将配置好的Ubuntu1中/hadoop/etc/hadoop文件夹复制到到Ubuntu2对应位置（删除Ubuntu2原来的文件夹/hadoop/etc/hadoop）

scp-r /home/hduser/hadoop/etc/hadoop/ hduser@Ubuntu2:/home/hduser/hadoop/etc/

8.3 验证

下面验证Hadoop配置是否正确：

（1）格式化namenode:

hduser@Ubuntu1:~$ cd hadoop

hduser@Ubuntu1:~/hadoop$ ./bin/hdfs namenode -format

hduser@Ubuntu2:~$ cd hadoop

hduser@Ubuntu2:~/hadoop$ ./bin/hdfs namenode -format

（2）启动hdfs:

hduser@Ubuntu1:~/hadoop$ ./sbin/start-dfs.sh

15/04/2704:18:45 WARN util.NativeCodeLoader: Unable to load native-hadoop library foryour platform... using builtin-java classes where applicable

Startingnamenodes on [Ubuntu1]

Ubuntu1:starting namenode, logging to/home/hduser/hadoop/logs/hadoop-hduser-namenode-Ubuntu1.out

Ubuntu1:starting datanode, logging to /home/hduser/hadoop/logs/hadoop-hduser-datanode-Ubuntu1.out

Ubuntu2:starting datanode, logging to/home/hduser/hadoop/logs/hadoop-hduser-datanode-Ubuntu2.out

Startingsecondary namenodes [Ubuntu1]

Ubuntu1:starting secondarynamenode, logging to /home/hduser/hadoop/logs/hadoop-hduser-secondarynamenode-Ubuntu1.out

15/04/2704:19:07 WARN util.NativeCodeLoader: Unable to load native-hadoop library foryour platform... using builtin-java classes where applicable

查看java进程（Java Virtual Machine Process Status Tool）

hduser@Ubuntu1:~/hadoop$ jps

8008 NameNode

8443 Jps

8158 DataNode

8314SecondaryNameNode

使用 jps发现NameNode进程没有正确运行，

停止服务，

重新格式化namenode，hadoop namenode -format

start-all.sh

NameNode进程已运行

（3）停止hdfs:

hduser@Ubuntu1:~/hadoop$ ./sbin/stop-dfs.sh

Stoppingnamenodes on [Ubuntu1]

Ubuntu1:stopping namenode

Ubuntu1:stopping datanode

Ubuntu2:stopping datanode

Stoppingsecondary namenodes [Ubuntu1]

Ubuntu1:stopping secondarynamenode

查看java进程

hduser@Ubuntu1:~/hadoop$ jps

8850 Jps

（4）启动yarn:

hduser@Ubuntu1:~/hadoop$ ./sbin/start-yarn.sh

starting yarndaemons

startingresourcemanager, logging to/home/hduser/hadoop/logs/yarn-hduser-resourcemanager-Ubuntu1.out

Ubuntu2:starting nodemanager, logging to/home/hduser/hadoop/logs/yarn-hduser-nodemanager-Ubuntu2.out

Ubuntu1:starting nodemanager, logging to/home/hduser/hadoop/logs/yarn-hduser-nodemanager-Ubuntu1.out

查看java进程

hduser@Ubuntu1:~/hadoop$jps

8911ResourceManager

9247 Jps

9034NodeManager

（5）停止yarn:

hduser@Ubuntu1:~/hadoop$ ./sbin/stop-yarn.sh

stopping yarndaemons

stoppingresourcemanager

Ubuntu1:stopping nodemanager

Ubuntu2:stopping nodemanager

no proxyserverto stop

查看java进程

hduser@Ubuntu1:~/hadoop$jps

9542 Jps

（6）查看集群状态：

首先启动集群：./sbin/start-dfs.sh

hduser@Ubuntu1:~/hadoop$./bin/hdfs dfsadmin -report

ConfiguredCapacity: 39891361792 (37.15 GB)

Present Capacity:28707627008 (26.74 GB)

DFS Remaining: 28707569664(26.74 GB)

DFS Used: 57344(56 KB)

DFS Used%: 0.00%

Under replicatedblocks: 0

Blocks withcorrupt replicas: 0

Missing blocks: 0

-------------------------------------------------

Live datanodes(2):

Name:192.168.159.132:50010 (Ubuntu2)

Hostname: Ubuntu2

DecommissionStatus : Normal

ConfiguredCapacity: 19945680896 (18.58 GB)

DFS Used: 28672(28 KB)

Non DFS Used:5575745536 (5.19 GB)

DFS Remaining:14369906688 (13.38 GB)

DFS Used%: 0.00%

DFS Remaining%:72.05%

Configured CacheCapacity: 0 (0 B)

Cache Used: 0 (0B)

Cache Remaining: 0(0 B)

Cache Used%:100.00%

Cache Remaining%:0.00%

Xceivers: 1

Last contact: MonApr 27 04:26:09 PDT 2015

Name:192.168.159.131:50010 (Ubuntu1)

Hostname: Ubuntu1

DecommissionStatus : Normal

ConfiguredCapacity: 19945680896 (18.58 GB)

DFS Used: 28672(28 KB)

Non DFS Used:5607989248 (5.22 GB)

DFS Remaining:14337662976 (13.35 GB)

DFS Used%: 0.00%

DFS Remaining%:71.88%

Configured CacheCapacity: 0 (0 B)

Cache Used: 0 (0B)

Cache Remaining: 0(0 B)

Cache Used%:100.00%

Cache Remaining%:0.00%

Xceivers: 1

Last contact: MonApr 27 04:26:08 PDT 2015

（7）查看hdfs：http://Ubuntu1:50070/

三、运行wordcount程序

（1）创建 file目录

hduser@Ubuntu1:~$ mkdir file

（2）在file创建file1.txt、file2.txt并写内容（在图形界面）

分别填写如下内容

file1.txt输入内容：Hello world hiHADOOP

file2.txt输入内容：Hello hadoop hiCHINA

创建后查看：

hduser@Ubuntu1:~ /hadoop $ cat file/file1.txt

Hello world hiHADOOP

hduser@Ubuntu1:~ /hadoop $ cat file/file2.txt

Hello hadoop hiCHINA

（3）在hdfs创建/input2目录

hduser@Ubuntu1:~/hadoop$ ./bin/hadoop fs -mkdir/input2

bin/hdfs dfs-mkdir -p /input

（4）将file1.txt、file2.txt文件copy到hdfs /input2目录

hduser@Ubuntu1:~/hadoop$ ./bin/hadoop fs -putfile/file*.txt /input2

（5）查看hdfs上是否有file1.txt、file2.txt文件

hduser@Ubuntu1:~/hadoop$ bin/hadoop fs -ls /input2/

bin/hdfs dfs-put ../file/file*.txt /input2

Found 2 items

-rw-r--r-- 2 hduser supergroup 21 2015-04-27 05:54 /input2/file1.txt

-rw-r--r-- 2 hduser supergroup 24 2015-04-27 05:54 /input2/file2.txt

（6）执行wordcount程序

先启动hdfs和yarn(注意jar包名)

hduser@Ubuntu1:~/hadoop$ ./bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input2//output2/wordcount1

15/04/27 05:57:17 WARN util.NativeCodeLoader: Unable to load native-hadooplibrary for your platform... using builtin-java classes where applicable

15/04/27 05:57:17 INFO client.RMProxy: Connecting to ResourceManager atUbuntu1/192.168.159.131:8032

15/04/27 05:57:19 INFO input.FileInputFormat: Total input paths to process: 2

15/04/27 05:57:19 INFO mapreduce.JobSubmitter: number of splits:2

15/04/27 05:57:19 INFO mapreduce.JobSubmitter: Submitting tokens for job:job_1430138907536_0001

15/04/27 05:57:20 INFO impl.YarnClientImpl: Submitted applicationapplication_1430138907536_0001

15/04/27 05:57:20 INFO mapreduce.Job: The url to track the job:http://Ubuntu1:8088/proxy/application_1430138907536_0001/

15/04/27 05:57:20 INFO mapreduce.Job: Running job: job_1430138907536_0001

15/04/27 05:57:32 INFO mapreduce.Job: Job job_1430138907536_0001 runningin uber mode : false

15/04/27 05:57:32 INFO mapreduce.Job: map 0% reduce 0%

15/04/27 05:57:43 INFO mapreduce.Job: map 100% reduce 0%

15/04/27 05:57:58 INFO mapreduce.Job: map 100% reduce 100%

15/04/27 05:57:59 INFO mapreduce.Job: Job job_1430138907536_0001 completedsuccessfully

15/04/27 05:57:59 INFO mapreduce.Job: Counters: 49

File System Counters

FILE: Number of bytesread=84

FILE: Number of byteswritten=317849

FILE: Number of readoperations=0

FILE: Number of largeread operations=0

FILE: Number of writeoperations=0

HDFS: Number of bytesread=247

HDFS: Number of byteswritten=37

HDFS: Number of readoperations=9

HDFS: Number of largeread operations=0

HDFS: Number of writeoperations=2

Job Counters

Launched map tasks=2

Launched reduce tasks=1

Data-local map tasks=2

Total time spent by allmaps in occupied slots (ms)=16813

Total time spent by allreduces in occupied slots (ms)=12443

Total time spent by allmap tasks (ms)=16813

Total time spent by allreduce tasks (ms)=12443

Total vcore-secondstaken by all map tasks=16813

Total vcore-secondstaken by all reduce tasks=12443

Total megabyte-secondstaken by all map tasks=17216512

Total megabyte-secondstaken by all reduce tasks=12741632

Map-Reduce Framework

Map input records=2

Map output records=8

Map output bytes=75

Map output materializedbytes=90

Input split bytes=202

Combine input records=8

Combine outputrecords=7

Reduce input groups=5

Reduce shuffle bytes=90

Reduce input records=7

Reduce output records=5

Spilled Records=14

Shuffled Maps =2

Failed Shuffles=0

Merged Map outputs=2

GC time elapsed(ms)=622

CPU time spent(ms)=2000

Physical memory (bytes)snapshot=390164480

Virtual memory (bytes)snapshot=1179254784

Total committed heapusage (bytes)=257892352

Shuffle Errors

BAD_ID=0

CONNECTION=0

IO_ERROR=0

WRONG_LENGTH=0

WRONG_MAP=0

WRONG_REDUCE=0

File Input Format Counters

Bytes Read=45

File Output Format Counters

Bytes Written=37

（7）查看运行结果

hduser@Ubuntu1:~/hadoop$ ./bin/hdfs dfs -cat /output2/wordcount1/*

CHINA 1

Hello 2

hadoop 2

hi 2

world 1

——————————————

显示出以上结果，表明您已经成功安装了Hadoop！

3、环境变量的添加：

echo "export PATH=:./:$PATH:/usr/local/eclipse" >> /etc/profile

echo "export PATH=:./:$PATH:/usr/local/eclipse" >> ~/.bashrc

source /et/profile

source ~/.bashrc

Eclipse开发环境的建立

1，需要下载eclipse

2，需要插件，插件的终极解决方案是

https://github.com/winghc/hadoop2x-eclipse-plugin下载并编译。

也可用提供好的插件。

3，复制编译好的jar到eclipse插件目录，重启eclipse

4，配置hadoop 安装目录

window ->preference -> hadoopMap/Reduce -> Hadoop installation directory

5，配置Map/Reduce 视图

window ->Open Perspective ->other->Map/Reduce -> 点击“OK”

windows → show view →other->Map/Reduce Locations-> 点击“OK”

6，在“Map/Reduce Locations”Tab页点击图标<大象+>或者在空白的地方右键，选择“New Hadoop location…”，弹出对话框“New hadoop location…”，

进行相应配置

MR Master和DFS Master配置必须和mapred-site.xml和core-site.xml等配置文件一致

7，打开Project Explorer,查看HDFS文件系统。

8，新建Map/Reduce任务

需要先启动Hadoop服务

File->New->project->Map/ReduceProject->Next

编写WordCount类：

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

public static class TokenizerMapper

extends Mapper{

private final static IntWritableone = new IntWritable(1);

private Text word = new Text();

public void map(Object key, Text value, Contextcontext) throws IOException, InterruptedException {

// Object key,Text value就是输入的key和value, Context记录输入的key和value

StringTokenizer itr = newStringTokenizer(value.toString());

while (itr.hasMoreTokens()) {

word.set(itr.nextToken());

context.write(word, one);

}

public static class IntSumReducer

extendsReducer {

private IntWritable result = newIntWritable();

public void reduce(Text key,Iterable values,

Context context

) throwsIOException, InterruptedException {

//reduce函数与map函数基本相同，但value是一个迭代器的形式Iterablevalues，也就是说reduce的输入是一个key对应一组的值的value

int sum = 0;

for (IntWritable val : values){

sum += val.get();

}

result.set(sum);

context.write(key, result);//结果例如World, 2

}

public static void main(String[]args) throws Exception {

Configuration conf = newConfiguration();

Job job = Job.getInstance(conf,"word count");//指定job名称，及运行对象

job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); //指定map函数

job.setCombinerClass(IntSumReducer.class); // combiner整合

job.setReducerClass(IntSumReducer.class);//设定reduce函数

job.setOutputKeyClass(Text.class);//设定输出key数据类型

job.setOutputValueClass(IntWritable.class);//设定输出value数据类型

FileInputFormat.addInputPath(job,new Path(args[0]));//设定输入目录

FileOutputFormat.setOutputPath(job, new Path(args[1]));

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

}
音乐记录倒排索引

MapReduce程序开发

1、我们的任务要求是：

有一批音乐播放记录清单，包含歌曲被播放的用户

tom LittleApple

jack YesterdayOnceMore

Rose MyHeartWillGoOn

jack LittleApple

John MyHeartWillGoOn

kissinger LittleApple

kissinger YesterdayOnceMore

2、我们的任务输出结果是：

完成一个倒排索引形成的文本文件如下

LittleApple tom| jack| kissinger

YesterdayOnceMore jack|kissinger

MyHeartWillGoOn Rose|John

3、我们的算法思路是：

将源文件按照每行进行分割，在mapper 过程中以歌曲名（LittleApple）作为key，以用户名（Tom）作为value，在reducer过程中是相同个歌曲码汇总，输出为倒排索引。

tom LittleApple

jack YesterdayOnceMore

Rose MyHeartWillGoOn

Map函数对应的是

< YesterdayOnceMore, Jack >

< MyHeartWillGoOn, Rose>

Reduce函数将歌曲汇总

输出是

LittleApple tom

Jack

Kissinger

最终输出到HDFS为结果

LittleApple tom| jack| kissinger

YesterdayOnceMore jack|kissinger

MyHeartWillGoOn Rose|John

4、倒排索引源程序的注释：

importjava.io.IOException;

importorg.apache.hadoop.conf.Configuration;

importorg.apache.hadoop.conf.Configured;

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.*;

importorg.apache.hadoop.mapreduce.*;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

importorg.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

importorg.apache.hadoop.util.Tool;

importorg.apache.hadoop.util.ToolRunner;

publicclass Test_1 extends Configured implements Tool

{

enum Counter

{

LINESKIP, // 出错的行

}

public static class Map extendsMapper

{

public void map(LongWritable key, Textvalue, Context context) throws IOException, InterruptedException

{

Stringline = value.toString(); // 读取源数据，将其字符串化

try

{

// 数据处理

String[] lineSplit = line.split("");

//将数据用空格进行分割，例如Tom LittleApple

String anum = lineSplit[0]; //此处anum为Tom

String bnum = lineSplit[1]; //此处bnum为 LittleApple

context.write(new Text(bnum), newText(anum));

// 输出到context的键值对为

}

catch(java.lang.ArrayIndexOutOfBoundsException e) //出错保障

{

context.getCounter(Counter.LINESKIP).increment(1);

return;

}

public static class Reduce extendsReducer

{

public void reduce(Text key,Iterable values, Context context) throws IOException,InterruptedException

{

String valueString;

String out = "";

for (Text value : values)

{

valueString = value.toString();

out += valueString +"|"; //将听同一歌曲用|分隔符隔开累加

//System.out.println("Ruduce:key="+key+" value="+value);

}

context.write(key, new Text(out));

}

@Override

public int run(String[] args) throwsException

{

Configuration conf = this.getConf();

Job job = new Job(conf,"Test_1"); // 任务名

job.setJarByClass(Test_1.class); // 指定Class

FileInputFormat.addInputPath(job, new Path(args[0]));// 输入路径

FileOutputFormat.setOutputPath(job, newPath(args[1])); // 输出路径

job.setMapperClass(Map.class); // 调用上面Map类作为Map任务代码

job.setReducerClass(Reduce.class); // 调用上面Reduce类作为Reduce任务代码

job.setOutputFormatClass(TextOutputFormat.class);

job.setOutputKeyClass(Text.class); // 指定输出的KEY的格式

job.setOutputValueClass(Text.class); // 指定输出的VALUE的格式

job.waitForCompletion(true);

return job.isSuccessful()?0:1;

}

public static void main(String[] args) throwsException

{

// 运行任务

int res = ToolRunner.run(newConfiguration(), new Test_1(), args);

System.exit(res);

}

5、注意设置输入输出的路径：

可以在eclipse上直接运行，也可打成jar包后运行。

你可能感兴趣的:(大数据)

Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
TDengine 使用教程：从入门到实践遇见伯灵说 tdengine 大数据时序数据库
TDengine是一款专为物联网（IoT）和大数据实时分析设计的时序数据库。它能够高效地处理海量的时序数据，并提供低延迟、高吞吐量的性能表现。在本文中，我们将带领大家从TDengine的安装、基本操作到一些高级功能，帮助你快速上手。1.TDengine简介TDengine是一个高效的时序数据存储解决方案，支持高并发写入和快速的实时分析。它适用于各种物联网应用场景，如传感器数据监控、日志数据处理等。
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
掌握大数据时代的心跳：实时数据处理的崛起 Echo_Wish 大数据大数据
掌握大数据时代的心跳：实时数据处理的崛起在大数据时代，我们每天都在生成海量的数据——从社交媒体上的点赞到物联网设备上传的传感器数据，数据无处不在。然而，仅仅存储这些数据已经无法满足现代业务的需求，“实时数据处理”已经从一项可选技术跃升为业务成功的关键所在。如何让数据在其生成的瞬间就能被分析、处理并驱动决策，这是我们今天要探讨的重点。为什么实时数据处理如此重要？想象一下这样两个场景：在线交易平台：当
老板既要又要还要......我用Doris+Hudi把不可能变成了日常一臻数据大数据 Doris 大数据数据分析数据库
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了Doris与Hudi的"天作之合"，顿时开启了"飞毛腿"模式——查询速度快得连老板都不敢相信！如今，这个传说
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
AI大模型时代，2025大龄程序员如何轻松转型赢未来？ AI大模型学习不迷路人工智能自然语言处理大模型大语言模型语言模型程序员转行
当前大龄程序员的处境在科技行业的高速发展中，大龄程序员这一群体正面临着前所未有的挑战。随着新兴技术的不断涌现，如云计算、大数据、人工智能等，传统的编程技能逐渐显得“过时”。同时，年轻一代的程序员以更加低廉的薪酬和旺盛的精力涌入市场，加剧了职场的竞争。对于大龄程序员而言，他们不仅需要应对技能更新的压力，还常常受到年龄歧视的影响，尤其是在追求创新和速度的科技公司中。许多大龄程序员发现自己处于尴尬境地，
数字孪生对于新基建的价值浅析，算是抛砖引玉。大牛工控设计师人工智能信息可视化前端
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
向量库集成指南三月七꧁ ꧂ langchain+llm 集成学习自然语言处理语言模型机器学习人工智能 gpt llama
文章目录向量库集成指南Chroma集成Pinecone集成MiLvus集成向量库集成指南向量库是一种索引和存储向量嵌入以实现高效管理和快速检索的数据库。与单独的向量索引不同，像Pinecone这样的向量数据库提供了额外的功能，例如，索引管理、数据管理、元数据存储和过滤，以及水平扩展。特别是在处理大数据和复杂查询时，向量库在多种应用场景中发挥着关键作用。其中，语义文本搜索是一个典型的应用，用
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
2025年2月中国数据库排行榜：OceanBase迎来开门红，金仓、GBASE排名节节高
2025年2月，中国数据库流行度排行榜正式发布。在春节之际，DeepSeek凭借突破性的技术成功出圈，而在此前，各大数据库厂商便已开始探索AI与数据库的深度融合，并陆续推出了相关产品和功能。相信在这股技术革新的浪潮下，将涌现越来越多的新产品和解决方案。接下来，我们将逐一盘点各大数据库的最新动态，探索未来的潜力与挑战。一、金仓、GBASE排名再攀升，TDSQL升第九与上月相比，榜单前十的位次出现了细
出海行动派 | 全球服务新征程！Bonree ONE海外版正式发布运维
在云计算、大数据与物联网深度融合的驱动下，全球IT运维行业正经历从被动响应到主动智能的深刻变革。Gartner最新数据显示，可观测性市场规模将从2021年的68亿美元跃升至2027年的111亿美元，复合年增长率达8.3%，标志着企业对应用稳定性与用户体验的极致追求已成为数字化转型的核心命题。与此同时，全球化进程中的文化差异与合规要求，对运维解决方案的本地化适配能力提出了更高挑战。BonreeONE
.net 插件式开发——实现web框架中大数据算法嵌入(BP算法逼近) weixin_34219944 json 人工智能
关于算法的引入：插件式架构设计，可移植性强，利于算法的升级。【插件式开发相关资料】https://www.cnblogs.com/lenic/p/4129096.html以BP算法为例：1、首先定义一个接口规范////////插件的统一入口///publicinterfaceIPluginPerfrom{//////统一算法插件入口//////输出参数的个数///输出参数///输入参数///str
Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
C#带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c#数据仓库云计算 sql
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的C#代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错时的错误信息，每次每个查询导出数据的
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
上万个Map运行时链接ApplicationMaster超时FAILED 500佰大数据云计算 big data mapreduce
#MapReduce业务常见故障#大数据#生产环境真实案例#MapReduce#批计算#离线业务#整理#经验总结说明：此篇总结MapReduce业务常见故障案例处理方案结合自身经历总结不易+关注+收藏欢迎留言更多专题(详见)：MapReduce计算引擎详解--项目优化(指导书)上万个Map运行时链接ApplicationMaster超时FAILED症状Mapreduce任务会并发起几万个map,会
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
pandas常用数据格式IO性能对比 lining808 Python pandas python 数据分析
前言本文对pandas支持的一些数据格式进行IO（读写）的性能测试，大数据时代以数据为基础，经常会遇到操作大量数据的情景，数据的IO性能尤为重要，本文对常见的数据格式csv、feather、hdf5、jay、parquet、pickle性能进行对比。csvCSV（Comma-SeparatedValues）是一种用于存储表格数据的简单文件格式。在CSV文件中，每一行通常代表一条记录，字段（列）由逗
如何设计高效的数据湖架构？晴天彩虹雨架构大数据数据仓库
1.引言在大数据时代，数据湖（DataLake）逐渐成为企业存储和处理海量数据的重要基础设施。相比于传统数据仓库，数据湖能够支持结构化、半结构化和非结构化数据，同时提供更灵活的存储与计算能力。然而，如何合理设计数据湖架构，优化存储策略、Schema演进以及数据生命周期管理，是数据架构师必须深入思考的问题。本篇文章将深入探讨数据湖架构的设计方法，结合Hudi、Iceberg、DeltaLake等技术
2024年上半年系统架构设计师论文真题任铄软考2024年上半年真题系统架构设计师架构设计软考 2024 论文范文真题
一、论大数据lambda架构大数据处理架构是专门用于处理和分析巨量复杂数据集的软件架构。它通常包括数据收集、存储、处理、分析和可视化等多个层面，旨在从海量、多样化的数据中提取有价值的信息。Lambda架构是大数据平台里最成熟、最稳定的架构，它是一种将批处理和流处理结合起来的大数据处理系统架构，其核心思想是将批处理作业和实时流处理作业分离，各自独立运行，资源互相隔离，解决传统批处理架构的延迟问题和流
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_