sunwinner

Homework - HBase Shell, Java Client and MapReduce Job

Env:

Single Node with CentOS 6.2 x86_64, 2 processors, 4Gb memory
CDH4.3 with Cloudera Manager 4.5
HBase 0.94.6-cdh4.3.0
HBase 0.94.6-cdh4.3.0
HBase shell exercise:

[root@n8 ~]# hbase shell
13/07/21 21:11:25 WARN conf.Configuration: hadoop.native.lib is deprecated. Instead, use io.native.lib.available
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version 0.94.6-cdh4.3.0, rUnknown, Mon May 27 20:22:05 PDT 2013

hbase(main):001:0> list
TABLE                                                                                          
TestTable                                                                                      
mytable                                                                                        
twits                                                                                          
users                                                                                          
4 row(s) in 0.8200 seconds

hbase(main):002:0> create 't1', 'f1', 'f2', 'fn'
0 row(s) in 1.1490 seconds

=> Hbase::Table - t1
hbase(main):003:0> describe 't1'
DESCRIPTION                                                   ENABLED                          
 {NAME => 't1', FAMILIES => [{NAME => 'f1', DATA_BLOCK_ENCODI true                             
 NG => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0                                  
 ', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS => '                                  
 0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOC                                  
 KSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK => 't                                  
 rue', BLOCKCACHE => 'true'}, {NAME => 'f2', DATA_BLOCK_ENCOD                                  
 ING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '                                  
 0', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS =>                                   
 '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLO                                  
 CKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK => '                                  
 true', BLOCKCACHE => 'true'}, {NAME => 'fn', DATA_BLOCK_ENCO                                  
 DING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE =>                                   
 '0', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS =>                                  
  '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BL                                  
 OCKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK =>                                   
 'true', BLOCKCACHE => 'true'}]}                                                               
1 row(s) in 0.0520 seconds

hbase(main):004:0> put 't1', 'r1', 'f1', 'v1'
0 row(s) in 0.0390 seconds

hbase(main):005:0> put 't1', 'r1', 'f1:c1', 'v2'
0 row(s) in 0.0050 seconds

hbase(main):006:0> put 't1', 'r2', 'f2', 'v3'
0 row(s) in 0.0040 seconds

hbase(main):007:0> put 't1', 'r2', 'f2:c2', 'v4'
0 row(s) in 0.0050 seconds

hbase(main):008:0> get 't1', 'r1'
COLUMN                   CELL                                                                  
 f1:                     timestamp=1374412382919, value=v1                                     
 f1:c1                   timestamp=1374412396462, value=v2                                     
2 row(s) in 0.0260 seconds

hbase(main):009:0> get 't1', 'r1', {column=> 'f1:c1'}
NameError: undefined local variable or method `column' for #<Object:0x5b3ac14d>

hbase(main):010:0> get 't1', 'r1', {COLUMN => 'f1:c1'}
COLUMN                   CELL                                                                  
 f1:c1                   timestamp=1374412396462, value=v2                                     
1 row(s) in 0.0120 seconds

hbase(main):011:0> deleteall 't1', 'r1'
0 row(s) in 0.1040 seconds

hbase(main):012:0> scan 't1'
ROW                      COLUMN+CELL                                                           
 r2                      column=f2:, timestamp=1374412422750, value=v3                         
 r2                      column=f2:c2, timestamp=1374412437015, value=v4                       
1 row(s) in 0.0470 seconds

hbase(main):013:0> disable 't1'
0 row(s) in 2.0510 seconds

hbase(main):014:0> alter 't1', {NAME => 'f3'}
Updating all regions with the new schema...
1/1 regions updated.
Done.
0 row(s) in 1.1410 seconds

hbase(main):015:0> enable 't1'
0 row(s) in 2.0450 seconds

hbase(main):016:0> describe 't1'
DESCRIPTION                                                   ENABLED                          
 {NAME => 't1', FAMILIES => [{NAME => 'f1', DATA_BLOCK_ENCODI true                             
 NG => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0                                  
 ', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS => '                                  
 0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOC                                  
 KSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK => 't                                  
 rue', BLOCKCACHE => 'true'}, {NAME => 'f2', DATA_BLOCK_ENCOD                                  
 ING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '                                  
 0', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS =>                                   
 '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLO                                  
 CKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK => '                                  
 true', BLOCKCACHE => 'true'}, {NAME => 'f3', DATA_BLOCK_ENCO                                  
 DING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE =>                                   
 '0', COMPRESSION => 'NONE', VERSIONS => '3', TTL => '2147483                                  
 647', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BL                                  
 OCKSIZE => '65536', ENCODE_ON_DISK => 'true', IN_MEMORY => '                                  
 false', BLOCKCACHE => 'true'}, {NAME => 'fn', DATA_BLOCK_ENC                                  
 ODING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE =>                                  
  '0', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS =                                  
 > '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', B                                  
 LOCKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK =>                                  
  'true', BLOCKCACHE => 'true'}]}                                                              
1 row(s) in 0.0510 seconds

hbase(main):017:0> disable 't1'
0 row(s) in 2.0490 seconds

hbase(main):018:0> alter 't1', {NAME => 'f1', METHOD => 'delete'}
Updating all regions with the new schema...
1/1 regions updated.
Done.
0 row(s) in 1.1600 seconds

hbase(main):019:0> enable 't1'
0 row(s) in 2.0380 seconds

hbase(main):020:0> describe 't1'
DESCRIPTION                                                   ENABLED                          
 {NAME => 't1', FAMILIES => [{NAME => 'f2', DATA_BLOCK_ENCODI true                             
 NG => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0                                  
 ', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS => '                                  
 0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOC                                  
 KSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK => 't                                  
 rue', BLOCKCACHE => 'true'}, {NAME => 'f3', DATA_BLOCK_ENCOD                                  
 ING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '                                  
 0', COMPRESSION => 'NONE', VERSIONS => '3', TTL => '21474836                                  
 47', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLO                                  
 CKSIZE => '65536', ENCODE_ON_DISK => 'true', IN_MEMORY => 'f                                  
 alse', BLOCKCACHE => 'true'}, {NAME => 'fn', DATA_BLOCK_ENCO                                  
 DING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE =>                                   
 '0', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS =>                                  
  '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BL                                  
 OCKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DISK =>                                   
 'true', BLOCKCACHE => 'true'}]}                                                               
1 row(s) in 0.0500 seconds

hbase(main):021:0> status
1 servers, 0 dead, 7.0000 average load

hbase(main):022:0> truncate 't1'
Truncating 't1' table (it may take a while):
 - Disabling table...
 - Dropping table...
 - Creating table...
0 row(s) in 4.1820 seconds

hbase(main):023:0> disable 't1'
0 row(s) in 2.0420 seconds

hbase(main):024:0> drop 't1'
0 row(s) in 1.0690 seconds

Running HBaseClient.java:

package hbaseworkshop;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.util.Bytes;

/**
 * Following shows how to connect to HBase from java.
 *
 * @author srinath
 */
public class HBaseClient {

    public static void main(String[] args) throws Exception {

        Configuration config = HBaseConfiguration.create();
        HTable table = new HTable(config, "test");

        //put data
        Put put = new Put("row1".getBytes());
        put.add("cf".getBytes(), "b".getBytes(), "val2".getBytes());
        table.put(put);

        //read data
        Scan s = new Scan();
        s.addFamily(Bytes.toBytes("cf"));
        ResultScanner results = table.getScanner(s);

        try {
            for (Result result : results) {
                KeyValue[] keyValuePairs = result.raw();
                System.out.println(new String(result.getRow()));
                for (KeyValue keyValue : keyValuePairs) {
                    System.out.println(new String(keyValue.getFamily()) + " "
                            + new String(keyValue.getQualifier())
                            + "=" + new String(keyValue.getValue()));
                }
            }
        } finally {
            results.close();
        }

    }

}

Output:

[root@n8 examples]# java -cp cdh4-examples.jar:`hbase classpath` hbaseworkshop.HBaseClient
#Verbose output removed here...
row1
cf a=var1
cf b=val2

Running HDIDataUploader.java:

Prepare the HBase table to be used by this example:

hbase(main):002:0> create 'HDI','ByCountry'
0 row(s) in 1.1190 seconds

=> Hbase::Table - HDI
hbase(main):003:0> list 'HDI'
TABLE                                                                                          
HDI                                                                                            
1 row(s) in 0.0570 seconds

hbase(main):004:0> create 'HDIResult', 'data'
0 row(s) in 1.0370 seconds

=> Hbase::Table - HDIResult
hbase(main):005:0> list 'HDIResult'
TABLE                                                                                          
HDIResult                                                                                      
1 row(s) in 0.0370 seconds

package hbaseworkshop;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

/**
 * This class read the data file from resources/chapter5/hdi-data.csv
 * and upload the data to HBase running in the local machine.
 *
 * @author srinath
 */
public class HDIDataUploader {

    private static final String TABLE_NAME = "HDI";

    public static void main(String[] args) throws Exception {

        Configuration config = HBaseConfiguration.create();
        HTable table = new HTable(config, TABLE_NAME);

        //The input file.
        BufferedReader reader = new BufferedReader(new InputStreamReader(
                HDIDataUploader.class.getResourceAsStream("/workshop/hdi-data.csv")
        ));

        try {
            String line;
            // skip first line
            reader.readLine();
            while ((line = reader.readLine()) != null) {
                try {
                    // line = line.replaceAll("\"(.*),(.*)\"", "$1 $2");

                    String[] tokens = CSVLineParser.tokenizeCSV(line).toArray(new String[0]);
                    String country = tokens[1];
                    double lifeExpectacny = Double.parseDouble(tokens[3].replaceAll(",", ""));
                    double meanYearsOfSchooling = Double.parseDouble(tokens[4].replaceAll(",", ""));
                    double gnip = Double.parseDouble(tokens[6].replaceAll(",", ""));

                    Put put = new Put(Bytes.toBytes(country));
                    put.add("ByCountry".getBytes(), Bytes.toBytes("lifeExpectacny"), Bytes.toBytes(lifeExpectacny));
                    put.add("ByCountry".getBytes(), Bytes.toBytes("meanYearsOfSchooling"),
                            Bytes.toBytes(meanYearsOfSchooling));
                    put.add("ByCountry".getBytes(), Bytes.toBytes("gnip"), Bytes.toBytes(gnip));
                    table.put(put);
                } catch (Exception e) {
                    e.printStackTrace();
                    System.out.println("Error processing " + line + " caused by " + e.getMessage());
                }
            }
        } catch (IOException e) {
            try {
                reader.close();
            } catch (IOException e1) {
                // TODO Auto-generated catch block
                e1.printStackTrace();
            }
        }

        //Following print back the results
        Scan s = new Scan();
        s.addFamily(Bytes.toBytes("ByCountry"));
        ResultScanner results = table.getScanner(s);

        try {
            for (Result result : results) {
                KeyValue[] keyValuePairs = result.raw();
                System.out.println(new String(result.getRow()));
                for (KeyValue keyValue : keyValuePairs) {
                    System.out.println(new String(keyValue.getFamily()) + " " + new String(keyValue.getQualifier())
                            + "=" + Bytes.toDouble(keyValue.getValue()));
                }
            }
        } finally {
            results.close();
        }
    }

}

Output:

[root@n8 examples]# java -cp cdh4-examples.jar:`hbase classpath` hbaseworkshop.HDIDataUploader
13/07/21 22:36:18 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
# Verbose HBase output omitted .....
Afghanistan
ByCountry gnip=1416.0
ByCountry lifeExpectacny=48.7
ByCountry meanYearsOfSchooling=3.3
Albania
ByCountry gnip=7803.0
ByCountry lifeExpectacny=76.9
ByCountry meanYearsOfSchooling=10.4
# Other rows omitted...

Running AverageGINByCountryCalculator.java:

package hbaseworkshop;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.filter.FirstKeyOnlyFilter;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.mapreduce.Job;

/**
 * Calculate the average of Gross National Income (GNI) per capita by country.
 * Dataset can be found from http://hdr.undp.org/en/statistics/data/.
 */

public class AverageGINByCountryCalculator {

    static class Mapper extends TableMapper<ImmutableBytesWritable, DoubleWritable> {

        private int numRecords = 0;

        @Override
        public void map(ImmutableBytesWritable row, Result values, Context context)
                throws IOException {

            byte[] results = values.getValue("ByCountry".getBytes(), "gnip".getBytes());

            // extract userKey from the compositeKey (userId + counter)
            ImmutableBytesWritable userKey = new ImmutableBytesWritable("gnip".getBytes());
            try {
                context.write(userKey, new DoubleWritable(Bytes.toDouble(results)));
            } catch (InterruptedException e) {
                throw new IOException(e);
            }
            numRecords++;
            if ((numRecords % 50) == 0) {
                context.setStatus("mapper processed " + numRecords + " records so far");
            }
        }
    }

    public static class Reducer extends TableReducer<ImmutableBytesWritable,
            DoubleWritable, ImmutableBytesWritable> {

        public void reduce(ImmutableBytesWritable key, Iterable<DoubleWritable> values, Context context)
                throws IOException, InterruptedException {
            double sum = 0;
            int count = 0;
            for (DoubleWritable val : values) {
                sum += val.get();
                count++;
            }

            Put put = new Put(key.get());
            put.add(Bytes.toBytes("data"), Bytes.toBytes("average"), Bytes.toBytes(sum / count));
            System.out.println("Processed " + count + " values and avergae =" + sum / count);
            context.write(key, put);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = HBaseConfiguration.create();
        Job job = new Job(conf, "AverageGINByCountryCalculator");
        job.setJarByClass(AverageGINByCountryCalculator.class);
        Scan scan = new Scan();
        scan.addFamily("ByCountry".getBytes());
        scan.setFilter(new FirstKeyOnlyFilter());
        TableMapReduceUtil.initTableMapperJob("HDI", scan, Mapper.class, ImmutableBytesWritable.class,
                DoubleWritable.class, job);
        TableMapReduceUtil.initTableReducerJob("HDIResult", Reducer.class, job);
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

}

Output:

[root@n8 examples]# java -cp cdh4-examples.jar:`hbase classpath` hbaseworkshop.AverageGINByCountryCalcualtor
13/07/21 22:43:17 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
13/07/21 22:43:17 WARN conf.Configuration: dfs.df.interval is deprecated. Instead, use fs.df.interval
13/07/21 22:43:17 WARN conf.Configuration: hadoop.native.lib is deprecated. Instead, use io.native.lib.available
13/07/21 22:43:17 WARN conf.Configuration: fs.default.name is deprecated. Instead, use fs.defaultFS
13/07/21 22:43:17 WARN conf.Configuration: topology.script.number.args is deprecated. Instead, use net.topology.script.number.args
13/07/21 22:43:17 WARN conf.Configuration: dfs.umaskmode is deprecated. Instead, use fs.permissions.umask-mode
13/07/21 22:43:17 WARN conf.Configuration: topology.node.switch.mapping.impl is deprecated. Instead, use net.topology.node.switch.mapping.impl
13/07/21 22:43:18 WARN conf.Configuration: fs.default.name is deprecated. Instead, use fs.defaultFS
13/07/21 22:43:18 WARN conf.Configuration: io.bytes.per.checksum is deprecated. Instead, use dfs.bytes-per-checksum
13/07/21 22:43:18 WARN conf.Configuration: dfs.max.objects is deprecated. Instead, use dfs.namenode.max.objects
13/07/21 22:43:18 WARN conf.Configuration: dfs.data.dir is deprecated. Instead, use dfs.datanode.data.dir
13/07/21 22:43:18 WARN conf.Configuration: dfs.name.dir is deprecated. Instead, use dfs.namenode.name.dir
13/07/21 22:43:18 WARN conf.Configuration: fs.checkpoint.dir is deprecated. Instead, use dfs.namenode.checkpoint.dir
13/07/21 22:43:18 WARN conf.Configuration: dfs.block.size is deprecated. Instead, use dfs.blocksize
13/07/21 22:43:18 WARN conf.Configuration: dfs.access.time.precision is deprecated. Instead, use dfs.namenode.accesstime.precision
13/07/21 22:43:18 WARN conf.Configuration: dfs.replication.min is deprecated. Instead, use dfs.namenode.replication.min
13/07/21 22:43:18 WARN conf.Configuration: dfs.name.edits.dir is deprecated. Instead, use dfs.namenode.edits.dir
13/07/21 22:43:18 WARN conf.Configuration: dfs.replication.considerLoad is deprecated. Instead, use dfs.namenode.replication.considerLoad
13/07/21 22:43:18 WARN conf.Configuration: dfs.balance.bandwidthPerSec is deprecated. Instead, use dfs.datanode.balance.bandwidthPerSec
13/07/21 22:43:18 WARN conf.Configuration: dfs.safemode.threshold.pct is deprecated. Instead, use dfs.namenode.safemode.threshold-pct
13/07/21 22:43:18 WARN conf.Configuration: dfs.http.address is deprecated. Instead, use dfs.namenode.http-address
13/07/21 22:43:18 WARN conf.Configuration: dfs.name.dir.restore is deprecated. Instead, use dfs.namenode.name.dir.restore
13/07/21 22:43:18 WARN conf.Configuration: dfs.https.client.keystore.resource is deprecated. Instead, use dfs.client.https.keystore.resource
13/07/21 22:43:18 WARN conf.Configuration: dfs.backup.address is deprecated. Instead, use dfs.namenode.backup.address
13/07/21 22:43:18 WARN conf.Configuration: dfs.backup.http.address is deprecated. Instead, use dfs.namenode.backup.http-address
13/07/21 22:43:18 WARN conf.Configuration: dfs.permissions is deprecated. Instead, use dfs.permissions.enabled
13/07/21 22:43:18 WARN conf.Configuration: dfs.safemode.extension is deprecated. Instead, use dfs.namenode.safemode.extension
13/07/21 22:43:18 WARN conf.Configuration: dfs.datanode.max.xcievers is deprecated. Instead, use dfs.datanode.max.transfer.threads
13/07/21 22:43:18 WARN conf.Configuration: dfs.https.need.client.auth is deprecated. Instead, use dfs.client.https.need-auth
13/07/21 22:43:18 WARN conf.Configuration: dfs.https.address is deprecated. Instead, use dfs.namenode.https-address
13/07/21 22:43:18 WARN conf.Configuration: dfs.replication.interval is deprecated. Instead, use dfs.namenode.replication.interval
13/07/21 22:43:18 WARN conf.Configuration: fs.checkpoint.edits.dir is deprecated. Instead, use dfs.namenode.checkpoint.edits.dir
13/07/21 22:43:18 WARN conf.Configuration: dfs.write.packet.size is deprecated. Instead, use dfs.client-write-packet-size
13/07/21 22:43:18 WARN conf.Configuration: dfs.permissions.supergroup is deprecated. Instead, use dfs.permissions.superusergroup
13/07/21 22:43:18 WARN conf.Configuration: dfs.secondary.http.address is deprecated. Instead, use dfs.namenode.secondary.http-address
13/07/21 22:43:18 WARN conf.Configuration: fs.checkpoint.period is deprecated. Instead, use dfs.namenode.checkpoint.period
13/07/21 22:43:19 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
13/07/21 22:43:20 WARN conf.Configuration: fs.default.name is deprecated. Instead, use fs.defaultFS
13/07/21 22:43:20 WARN conf.Configuration: io.bytes.per.checksum is deprecated. Instead, use dfs.bytes-per-checksum
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:zookeeper.version=3.4.5-cdh4.3.0--1, built on 05/28/2013 02:01 GMT
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:host.name=n8.example.com
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:java.version=1.6.0_31
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:java.vendor=Sun Microsystems Inc.
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:java.home=/usr/java/jdk1.6.0_31/jre
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client 
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:java.library.path=/usr/java/jdk1.6.0_31/jre/lib/amd64/server:/usr/java/jdk1.6.0_31/jre/lib/amd64:/usr/java/jdk1.6.0_31/jre/../lib/amd64:/usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:java.io.tmpdir=/tmp
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:java.compiler=<NA>
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:os.name=Linux
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:os.arch=amd64
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:os.version=2.6.32-358.14.1.el6.x86_64
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:user.name=root
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:user.home=/root
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Client environment:user.dir=/root/examples
13/07/21 22:43:20 INFO zookeeper.ZooKeeper: Initiating client connection, connectString=n8.example.com:2181 sessionTimeout=60000 watcher=hconnection
13/07/21 22:43:20 INFO zookeeper.RecoverableZooKeeper: The identifier of this process is [email protected]
13/07/21 22:43:20 INFO zookeeper.ClientCnxn: Opening socket connection to server n8.example.com/192.168.1.208:2181. Will not attempt to authenticate using SASL (Unable to locate a login configuration)
13/07/21 22:43:20 INFO zookeeper.ClientCnxn: Socket connection established to n8.example.com/192.168.1.208:2181, initiating session
13/07/21 22:43:20 INFO zookeeper.ClientCnxn: Session establishment complete on server n8.example.com/192.168.1.208:2181, sessionid = 0x140015565be00e6, negotiated timeout = 60000
13/07/21 22:43:20 INFO mapreduce.TableOutputFormat: Created table instance for HDIResult
13/07/21 22:43:20 ERROR mapreduce.TableInputFormatBase: Cannot resolve the host name for /192.168.1.208 because of javax.naming.NameNotFoundException: DNS name not found [response code 3]; remaining name '208.1.168.192.in-addr.arpa'
13/07/21 22:43:20 WARN conf.Configuration: fs.default.name is deprecated. Instead, use fs.defaultFS
13/07/21 22:43:20 WARN conf.Configuration: io.bytes.per.checksum is deprecated. Instead, use dfs.bytes-per-checksum
13/07/21 22:43:21 INFO mapred.JobClient: Running job: job_201307212105_0001
13/07/21 22:43:22 INFO mapred.JobClient:  map 0% reduce 0%
13/07/21 22:43:33 INFO mapred.JobClient:  map 100% reduce 0%
13/07/21 22:43:37 INFO mapred.JobClient:  map 100% reduce 100%
13/07/21 22:43:39 INFO mapred.JobClient: Job complete: job_201307212105_0001
13/07/21 22:43:39 INFO mapred.JobClient: Counters: 42
13/07/21 22:43:39 INFO mapred.JobClient:   File System Counters
13/07/21 22:43:39 INFO mapred.JobClient:     FILE: Number of bytes read=1167
13/07/21 22:43:39 INFO mapred.JobClient:     FILE: Number of bytes written=404963
13/07/21 22:43:39 INFO mapred.JobClient:     FILE: Number of read operations=0
13/07/21 22:43:39 INFO mapred.JobClient:     FILE: Number of large read operations=0
13/07/21 22:43:39 INFO mapred.JobClient:     FILE: Number of write operations=0
13/07/21 22:43:39 INFO mapred.JobClient:     HDFS: Number of bytes read=68
13/07/21 22:43:39 INFO mapred.JobClient:     HDFS: Number of bytes written=0
13/07/21 22:43:39 INFO mapred.JobClient:     HDFS: Number of read operations=1
13/07/21 22:43:39 INFO mapred.JobClient:     HDFS: Number of large read operations=0
13/07/21 22:43:39 INFO mapred.JobClient:     HDFS: Number of write operations=0
13/07/21 22:43:39 INFO mapred.JobClient:   Job Counters 
13/07/21 22:43:39 INFO mapred.JobClient:     Launched map tasks=1
13/07/21 22:43:39 INFO mapred.JobClient:     Launched reduce tasks=1
13/07/21 22:43:39 INFO mapred.JobClient:     Data-local map tasks=1
13/07/21 22:43:39 INFO mapred.JobClient:     Total time spent by all maps in occupied slots (ms)=10657
13/07/21 22:43:39 INFO mapred.JobClient:     Total time spent by all reduces in occupied slots (ms)=3520
13/07/21 22:43:39 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
13/07/21 22:43:39 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
13/07/21 22:43:39 INFO mapred.JobClient:   Map-Reduce Framework
13/07/21 22:43:39 INFO mapred.JobClient:     Map input records=187
13/07/21 22:43:39 INFO mapred.JobClient:     Map output records=187
13/07/21 22:43:39 INFO mapred.JobClient:     Map output bytes=2992
13/07/21 22:43:39 INFO mapred.JobClient:     Input split bytes=68
13/07/21 22:43:39 INFO mapred.JobClient:     Combine input records=0
13/07/21 22:43:39 INFO mapred.JobClient:     Combine output records=0
13/07/21 22:43:39 INFO mapred.JobClient:     Reduce input groups=1
13/07/21 22:43:39 INFO mapred.JobClient:     Reduce shuffle bytes=1163
13/07/21 22:43:39 INFO mapred.JobClient:     Reduce input records=187
13/07/21 22:43:39 INFO mapred.JobClient:     Reduce output records=1
13/07/21 22:43:39 INFO mapred.JobClient:     Spilled Records=374
13/07/21 22:43:39 INFO mapred.JobClient:     CPU time spent (ms)=2130
13/07/21 22:43:39 INFO mapred.JobClient:     Physical memory (bytes) snapshot=293376000
13/07/21 22:43:39 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=1340674048
13/07/21 22:43:39 INFO mapred.JobClient:     Total committed heap usage (bytes)=169148416
13/07/21 22:43:39 INFO mapred.JobClient:   HBase Counters
13/07/21 22:43:39 INFO mapred.JobClient:     BYTES_IN_REMOTE_RESULTS=0
13/07/21 22:43:39 INFO mapred.JobClient:     BYTES_IN_RESULTS=10288
13/07/21 22:43:39 INFO mapred.JobClient:     MILLIS_BETWEEN_NEXTS=251
13/07/21 22:43:39 INFO mapred.JobClient:     NOT_SERVING_REGION_EXCEPTION=0
13/07/21 22:43:39 INFO mapred.JobClient:     NUM_SCANNER_RESTARTS=0
13/07/21 22:43:39 INFO mapred.JobClient:     REGIONS_SCANNED=1
13/07/21 22:43:39 INFO mapred.JobClient:     REMOTE_RPC_CALLS=0
13/07/21 22:43:39 INFO mapred.JobClient:     REMOTE_RPC_RETRIES=0
13/07/21 22:43:39 INFO mapred.JobClient:     RPC_CALLS=190
13/07/21 22:43:39 INFO mapred.JobClient:     RPC_RETRIES=0

Scan the result in HBase:

hbase(main):023:0* scan 'HDIResult'
ROW                                              COLUMN+CELL                                                                                                                                  
 gnip                                            column=data:average, timestamp=1374418873267, value=@\xC8\xF7\x1Ba2\xA7\x04                                                                  
1 row(s) in 0.0260 seconds

Although the result in HBase is correct, there was a line of error log within above MapReduce job output:

13/07/21 22:43:20 ERROR mapreduce.TableInputFormatBase: Cannot resolve the host name for /192.168.1.208 because of javax.naming.NameNotFoundException: DNS name not found [response code 3]; remaining name '208.1.168.192.in-addr.arpa'

The reason is that HBase TableInputFormat will try to do reverse DNS resolvation. As below source code snippet of HBase shown:

// In TableInputFormatBase.java
private String reverseDNS(InetAddress ipAddress) throws NamingException {
    String hostName = this.reverseDNSCacheMap.get(ipAddress);
    if (hostName == null) {
      hostName = Strings.domainNamePointerToHostName(DNS.reverseDns(ipAddress, this.nameServer));
      this.reverseDNSCacheMap.put(ipAddress, hostName);
    }
    return hostName;
  }

I tried to workaround it by configuring job Configuration as below,

conf.set("hbase.nameserver.address", "192.168.1.208");

But the error still pop up, no final solution by now. After googling, one developer reported a workaround by explicitly specifying lo interfaces for master and regionserver, see the details via this link. I have not tried yet, apparently this is not the ultimate solution.

你可能感兴趣的:(mapreduce)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
ArcGIS地图切片原理与算法数智侠 GIS
ArcGIS地图切图系列之（一）切片原理解析点击打开链接ArcGIS地图切图系列之（二）JAVA实现点击打开链接ArcGIS地图切图系列之（三）MapReduce实现点击打开链接
数据中台建设方案-基于大数据平台(下) FRDATA1550333 大数据数据库架构数据库开发数据库
数据中台建设方案-基于大数据平台(下)1数据中台建设方案1.1总体建设方案1.2大数据集成平台1.3大数据计算平台1.3.1数据计算层建设计算层技术含量最高，最为活跃，发展也最为迅速。计算层主要实现各类数据的加工、处理和计算，为上层应用提供良好和充分的数据支持。大数据基础平台技术能力的高低，主要依赖于该层组件的发展。本建设方案满足甲方对于数据计算层建设的基本要求：利用了MapReduce、Spar
MIT6.824 课程-MapReduce 余为民同志 6.824 mapreduce 分布式 6.824
MapReduce：在大型集群上简化数据处理概要MapReduce是一种编程模型，它是一种用于处理和生成大型数据集的实现。用户通过指定一个用来处理键值对(Key/Value)的map函数来生成一个中间键值对集合。然后，再指定一个reduce函数，它用来合并所有的具有相同中间key的中间value。现实生活中有许多任务可以通过该模型进行表达，具体案例会在论文中展现出来。以这种函数式风格编写的程序能够
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
浅析大数据Hadoop之YARN架构 haotian1685 python 数据清洗人工智能大数据大数据学习深度学习大数据大数据学习 YARN hadoop
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述，读者可参考Hadoop官方简介。使用和学习过老Hadoop框架（0.20.0及之前版本）的同仁应该很熟悉如下的原MapReduce框架图：1.2H
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
Spark概念知识笔记 kuntoria
最近总结了个人的各项能力，发现在大数据这方面几乎没有涉及，因此想补充这方面的知识，丰富自己的知识体系，大数据生态主要包含：Hadoop和Spark两个部分，Spark作用相当于MapReduceMapReduce和Spark对比如下磁盘由于其物理特性现在，速度提升非常困难，远远跟不上CPU和内存的发展速度。近几十年来，内存的发展一直遵循摩尔定律，价格在下降，内存在增加。现在主流的服务器，几百GB或
【Hadoop】- MapReduce & YARN 初体验[9] 星星法术嗲人 hadoop hadoop mapreduce
目录提交MapReduce程序至YARN运行1、提交wordcount示例程序1.1、先准备words.txt文件上传到hdfs，文件内容如下：1.2、在hdfs中创建两个文件夹，分别为/input、/output1.3、将创建好的words.txt文件上传到hdfs中/input1.4、提交MapReduce程序至YARN1.5、可通过node1:8088查看1.6、返回我们的服务器，检查输出文
DAG (directed acyclic graph) 作为大数据执行引擎的优点 joeywen 分布式计算 Storm Spark Storm 杂谈 Storm spark DAG
TL;DR-ConceptuallyDAGmodelisastrictgeneralizationofMapReducemodel.DAG-basedsystemslikeSparkandTezthatareawareofthewholeDAGofoperationscandobetterglobaloptimizationsthansystemslikeHadoopMapReducewhicha
Hadoop组件静听山水 Hadoop hadoop
这张图片展示了Hadoop生态系统的一些主要组件。Hadoop是一个开源的大数据处理框架，由Apache基金会维护。以下是每个组件的简短介绍：HBase：一个分布式、面向列的NoSQL数据库，基于GoogleBigTable的设计理念构建。HBase提供了实时读写访问大量结构化和半结构化数据的能力，非常适合大规模数据存储。Pig：一种高级数据流语言和执行引擎，用于编写MapReduce任务。Pig
Hadoop-MapReduce机制原理 H.S.T不想卷大数据 hadoop mapreduce 大数据
MapReduce机制原理1、MapReduce概述2、MapReduce特点3、MapReduce局限性4、MapTask5、Map阶段步骤：6、Reduce阶段步骤：7、MapReduce阶段图1、MapReduce概述 HadoopMapReduce是一个分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群（数千个节点）上的大量数据（多TB数据集）
EMR组件部署指南 ivwdcwso 运维 EMR 大数据开源运维
EMR(ElasticMapReduce)是一个大数据处理和分析平台,包含了多个开源组件。本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScalaSparkHive准备工作所有操作都在/data目录下进行。首先安装JDK1.8:yuminstalljava-1.8.0-openjdk部署
hive学习记录 2302_80695227 hive 学习 hadoop
一、Hive的基本概念定义：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive将HQL（HiveQueryLanguage）转化成MapReduce程序或其他分布式计算引擎（如Tez、Spark）的任务进行计算。数据存储：Hive处理的数据存储在HDFS（HadoopDistributedFileSystem）上。执行引擎：Hive的
Mapreduce是什么 whisky丶
简单来说，MapReduce是一个编程模型，用以进行大数据量的计算。HadoopMapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。Mapreduce的特点：软件框架并行处理可靠且容错大规模集群海量数据集
Hadoop之MapReduce qq_43198449
1.MapReduce解决的问题1)数据问题：10G的TXT文件2)生活问题：统计分类上海市的图书馆的书2.MapReduce是什么MapReduce是一种分布式的离线计算框架，是一种编程模型，用于大规模数据集(大于1TB)的并行运算将自己的程序运行在分布式系统上。概念是：Map(映射)"和"Reduce(归约)指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduc
生产环境中MapReduce的最佳实践大数据深度洞察 Hadoop mapreduce 大数据
目录MapReduce跑的慢的原因MapReduce常用调优参数1.MapTask相关参数2.ReduceTask相关参数3.总体调优参数4.其他重要参数调优策略MapReduce数据倾斜问题1.数据预处理2.自定义Partitioner3.调整Reduce任务数4.小文件问题处理5.二次排序6.使用桶表7.使用随机前缀8.参数调优实施步骤MapReduce跑的慢的原因MapReduce程序效率的
Hive 运行在 Tez 上爱吃酸梨大数据
Tez介绍Tez是一种基于内存的计算框架，速度比MapReduce要快解释：浅蓝色方块表示Map任务，绿色方块表示Reduce任务，蓝色边框的云朵表示中间结果落地磁盘。Tez下载Tez官网Tez在Hive上的运用前提要有Hadoop集群上传Tez压缩包到Hive节点上tar-zxvfapache-tez-0.9.1-bin.tar.gz-C/opt/module/tez-0.9.1修改$HIVE_
经验笔记：Hadoop 漆黑的莫莫随手笔记笔记 hadoop 大数据
Hadoop经验笔记一、Hadoop概述Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。其设计目的是为了在商用硬件上运行，具备高容错性和可扩展性。Hadoop的核心是HadoopDistributedFileSystem(HDFS)和YARN(YetAnotherResourceNegotiator)，这两个组件加上MapReduce编程模型，构成了Hadoop的基本架构。二、H
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
Data-Intensive Text Processing with MapReduce 西二旗小码农自然语言处理（NLP）mapreduce processing 算法 integer hadoop pair
大量高效的MapReduce程序因为它简单的编写方法而产生：除了准备输入数据之外，程序员只需要实现mapper和ruducer接口，或加上合并器（combiner）和分配器（partitioner）。所有其他方面的执行都透明地控制在由一个节点到上千个节点组成的，数据级别达到GB到PB级别的集群的执行框架中。然而，这就意味着程序员想在上面实现的算法必须表现为一些严格定义的组件，必须用特殊的方法把它们
双十一云起实验室体验专场，七大场景，体验有礼阿里云天池体验场景活动云计算大数据容器云原生
云起实验室云起实验室是阿里云为开发者打造的一站式体验学习平台，在这里你可以了解并亲自动手体验各类云产品和云计算基础，无需关注资源开通和底层产品，无需任何费用。只要有一颗想要了解云、学习云、体验云的心，这里就是你的上云第一站。场景介绍此次体验《双十一云起实验室体验专场》，涉及七大技术场景实践体验，云上实践，云上成长。\大数据计算场景《基于EMR离线数据分析》E-MapReduce（简称“EMR”）是
小白学习大数据测试之hadoop hdfs和MapReduce小实战大数据学习02
转发是对小编的最大支持在湿货|大数据测试之hadoop单机环境搭建(超级详细版)这个基础上，我们来运行一个官网的MapReducedemo程序来看看效果和处理过程。大致步骤如下：新建一个文件test.txt，内容为HelloHadoopHelloxiaoqiangHellotestingbangHellohttp://xqtesting.sxl.cn将test.txt上传到hdfs的根目录/usr
虚拟机安装hadoop，hbase（单机伪集群模式）流~星~雨大数据相关 hadoop hbase 大数据
虚拟机安装Hadoop，Hbase工作中遇到了大数据方面的一些技术栈，没有退路可言，只能去学习掌握它，就像当初做爬虫一样（虽然很简单），在数据爆发的现在，传统的数据库mysql，oracle显然在处理大数据量级的数据时显得力不从心，所以有些特定的业务需要引进能够处理大数据量的数据库，hadoop提供了分布式文件系统（HDFS）来存储数据，又提供了分布式计算框架（mapreduce）来对这些数据进行
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那