lianggangzzu

hadoop连接mysql数据库执行数据读写数据库操作

目录(?)[+]

为了方便 MapReduce 直接访问关系型数据库（Mysql,Oracle），Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS，根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。

运行MapReduce时候报错：java.io.IOException: com.mysql.jdbc.Driver，一般是由于程序找不到mysql驱动包。解决方法是让每个tasktracker运行MapReduce程序时都可以找到该驱动包。

添加包有两种方式：

（1）在每个节点下的${HADOOP_HOME}/lib下添加该包。重启集群，一般是比较原始的方法。

（2）a)把包传到集群上： Hadoop fs -put MySQL-connector-Java-5.1.0- bin.jar /hdfsPath/

b)在mr程序提交job前，添加语句：DistributedCache.addFileToClassPath(new Path(“/hdfsPath/mysql- connector-java-5.1.0-bin.jar”),conf);

mysql数据库存储到hadoop hdfs

mysql表创建和数据初始化

[sql]  view plain 
       copy 
      
 print ? 
     
 DROP TABLE IF EXISTS `wu_testhadoop`;  
 CREATE TABLE `wu_testhadoop` (  
   `id` int(11) NOT NULL AUTO_INCREMENT,  
   `title` varchar(255) DEFAULT NULL,  
   `content` varchar(255) DEFAULT NULL,  
   PRIMARY KEY (`id`)  
 ) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8;  
   
 -- ----------------------------  
 -- Records of wu_testhadoop  
 -- ----------------------------  
 INSERT INTO `wu_testhadoop` VALUES ('1', '123', '122312');  
 INSERT INTO `wu_testhadoop` VALUES ('2', '123', '123456');  

定义hadoop数据访问

mysql表创建完毕后，我们需要定义hadoop访问mysql的规则；

hadoop提供了org.apache.hadoop.io.Writable接口来实现简单的高效的可序列化的协议，该类基于DataInput和DataOutput来实现相关的功能。

hadoop对数据库访问也提供了org.apache.hadoop.mapred.lib.db.DBWritable接口，其中write方法用于对PreparedStatement对象设定值，readFields方法用于对从数据库读取出来的对象进行列的值绑定；

以上两个接口的使用如下（内容是从源码得来）

writable

[java]  view plain 
       copy 
      
 print ? 
     
 public class MyWritable implements Writable {  
       // Some data       
       private int counter;  
       private long timestamp;  
         
       public void write(DataOutput out) throws IOException {  
         out.writeInt(counter);  
         out.writeLong(timestamp);  
       }  
         
       public void readFields(DataInput in) throws IOException {  
         counter = in.readInt();  
         timestamp = in.readLong();  
       }  
         
       public static MyWritable read(DataInput in) throws IOException {  
         MyWritable w = new MyWritable();  
         w.readFields(in);  
         return w;  
       }  
     }  

DBWritable

[java]  view plain 
       copy 
      
 print ? 
     
 public class MyWritable implements Writable, DBWritable {  
    // Some data       
    private int counter;  
    private long timestamp;  
          
    //Writable#write() implementation  
    public void write(DataOutput out) throws IOException {  
      out.writeInt(counter);  
      out.writeLong(timestamp);  
    }  
          
    //Writable#readFields() implementation  
    public void readFields(DataInput in) throws IOException {  
      counter = in.readInt();  
      timestamp = in.readLong();  
    }  
          
    public void write(PreparedStatement statement) throws SQLException {  
      statement.setInt(1, counter);  
      statement.setLong(2, timestamp);  
    }  
          
    public void readFields(ResultSet resultSet) throws SQLException {  
      counter = resultSet.getInt(1);  
      timestamp = resultSet.getLong(2);  
    }   
  }  

数据库对应的实现

[java]  view plain 
       copy 
      
 print ? 
     
 package com.wyg.hadoop.mysql.bean;  
   
 import java.io.DataInput;  
 import java.io.DataOutput;  
 import java.io.IOException;  
 import java.sql.PreparedStatement;  
 import java.sql.ResultSet;  
 import java.sql.SQLException;  
   
 import org.apache.hadoop.io.Text;  
 import org.apache.hadoop.io.Writable;  
 import org.apache.hadoop.mapred.lib.db.DBWritable;  
   
 public class DBRecord implements Writable, DBWritable{  
     private int id;  
     private String title;  
     private String content;  
     public int getId() {  
         return id;  
     }  
   
     public void setId(int id) {  
         this.id = id;  
     }  
   
     public String getTitle() {  
         return title;  
     }  
   
     public void setTitle(String title) {  
         this.title = title;  
     }  
   
     public String getContent() {  
         return content;  
     }  
   
     public void setContent(String content) {  
         this.content = content;  
     }  
   
     @Override  
     public void readFields(ResultSet set) throws SQLException {  
         this.id = set.getInt("id");  
         this.title = set.getString("title");  
         this.content = set.getString("content");  
     }  
   
     @Override  
     public void write(PreparedStatement pst) throws SQLException {  
         pst.setInt(1, id);  
         pst.setString(2, title);  
         pst.setString(3, content);  
     }  
   
     @Override  
     public void readFields(DataInput in) throws IOException {  
         this.id = in.readInt();  
         this.title = Text.readString(in);  
         this.content = Text.readString(in);  
     }  
   
     @Override  
     public void write(DataOutput out) throws IOException {  
         out.writeInt(this.id);  
         Text.writeString(out, this.title);  
         Text.writeString(out, this.content);  
     }  
   
     @Override  
     public String toString() {  
          return this.id + " " + this.title + " " + this.content;    
     }  
 }  

实现Map/Reduce

[java]  view plain 
       copy 
      
 print ? 
     
 package com.wyg.hadoop.mysql.mapper;  
   
 import java.io.IOException;  
   
 import org.apache.hadoop.io.LongWritable;  
 import org.apache.hadoop.io.Text;  
 import org.apache.hadoop.mapred.MapReduceBase;  
 import org.apache.hadoop.mapred.Mapper;  
 import org.apache.hadoop.mapred.OutputCollector;  
 import org.apache.hadoop.mapred.Reporter;  
   
 import com.wyg.hadoop.mysql.bean.DBRecord;  
   
 @SuppressWarnings("deprecation")  
 public class DBRecordMapper extends MapReduceBase implements Mapper{  
   
     @Override  
     public void map(LongWritable key, DBRecord value,  
             OutputCollector collector, Reporter reporter)  
             throws IOException {  
         collector.collect(new LongWritable(value.getId()), new Text(value.toString()));    
     }  
       
 }  

测试hadoop连接mysql并将数据存储到hdfs

[java]  view plain 
       copy 
      
 print ? 
     
 package com.wyg.hadoop.mysql.db;  
 import java.io.IOException;  
   
 import org.apache.hadoop.fs.Path;  
 import org.apache.hadoop.io.LongWritable;  
 import org.apache.hadoop.io.Text;  
 import org.apache.hadoop.mapred.FileOutputFormat;  
 import org.apache.hadoop.mapred.JobClient;  
 import org.apache.hadoop.mapred.JobConf;  
 import org.apache.hadoop.mapred.lib.IdentityReducer;  
 import org.apache.hadoop.mapred.lib.db.DBConfiguration;  
 import org.apache.hadoop.mapred.lib.db.DBInputFormat;  
   
 import com.wyg.hadoop.mysql.bean.DBRecord;  
 import com.wyg.hadoop.mysql.mapper.DBRecordMapper;  
   
 public class DBAccess {  
       public static void main(String[] args) throws IOException {  
              JobConf conf = new JobConf(DBAccess.class);  
              conf.setOutputKeyClass(LongWritable.class);  
              conf.setOutputValueClass(Text.class);  
              conf.setInputFormat(DBInputFormat.class);  
              Path path = new Path("hdfs://192.168.44.129:9000/user/root/dbout");  
              FileOutputFormat.setOutputPath(conf, path);  
              DBConfiguration.configureDB(conf,"com.mysql.jdbc.Driver", "jdbc:mysql://你的ip:3306/数据库名","用户名","密码");  
              String [] fields = {"id", "title", "content"};  
              DBInputFormat.setInput(conf, DBRecord.class, "wu_testhadoop",  
                         null, "id", fields);  
              conf.setMapperClass(DBRecordMapper.class);  
              conf.setReducerClass(IdentityReducer.class);  
              JobClient.runJob(conf);  
       }  
 }  

执行程序，结果如下：

[java]  view plain 
       copy 
      
 print ? 
     
 15/08/11 16:46:18 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=  
 15/08/11 16:46:18 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.  
 15/08/11 16:46:18 WARN mapred.JobClient: No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).  
 15/08/11 16:46:19 INFO mapred.JobClient: Running job: job_local_0001  
 15/08/11 16:46:19 INFO mapred.MapTask: numReduceTasks: 1  
 15/08/11 16:46:19 INFO mapred.MapTask: io.sort.mb = 100  
 15/08/11 16:46:19 INFO mapred.MapTask: data buffer = 79691776/99614720  
 15/08/11 16:46:19 INFO mapred.MapTask: record buffer = 262144/327680  
 15/08/11 16:46:19 INFO mapred.MapTask: Starting flush of map output  
 15/08/11 16:46:19 INFO mapred.MapTask: Finished spill 0  
 15/08/11 16:46:19 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting  
 15/08/11 16:46:19 INFO mapred.LocalJobRunner:   
 15/08/11 16:46:19 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000000_0' done.  
 15/08/11 16:46:19 INFO mapred.LocalJobRunner:   
 15/08/11 16:46:19 INFO mapred.Merger: Merging 1 sorted segments  
 15/08/11 16:46:19 INFO mapred.Merger: Down to the last merge-pass, with 1 segments left of total size: 48 bytes  
 15/08/11 16:46:19 INFO mapred.LocalJobRunner:   
 15/08/11 16:46:19 INFO mapred.TaskRunner: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting  
 15/08/11 16:46:19 INFO mapred.LocalJobRunner:   
 15/08/11 16:46:19 INFO mapred.TaskRunner: Task attempt_local_0001_r_000000_0 is allowed to commit now  
 15/08/11 16:46:19 INFO mapred.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to hdfs://192.168.44.129:9000/user/root/dbout  
 15/08/11 16:46:19 INFO mapred.LocalJobRunner: reduce > reduce  
 15/08/11 16:46:19 INFO mapred.TaskRunner: Task 'attempt_local_0001_r_000000_0' done.  
 15/08/11 16:46:20 INFO mapred.JobClient:  map 100% reduce 100%  
 15/08/11 16:46:20 INFO mapred.JobClient: Job complete: job_local_0001  
 15/08/11 16:46:20 INFO mapred.JobClient: Counters: 14  
 15/08/11 16:46:20 INFO mapred.JobClient:   FileSystemCounters  
 15/08/11 16:46:20 INFO mapred.JobClient:     FILE_BYTES_READ=34606  
 15/08/11 16:46:20 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=69844  
 15/08/11 16:46:20 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=30  
 15/08/11 16:46:20 INFO mapred.JobClient:   Map-Reduce Framework  
 15/08/11 16:46:20 INFO mapred.JobClient:     Reduce input groups=2  
 15/08/11 16:46:20 INFO mapred.JobClient:     Combine output records=0  
 15/08/11 16:46:20 INFO mapred.JobClient:     Map input records=2  
 15/08/11 16:46:20 INFO mapred.JobClient:     Reduce shuffle bytes=0  
 15/08/11 16:46:20 INFO mapred.JobClient:     Reduce output records=2  
 15/08/11 16:46:20 INFO mapred.JobClient:     Spilled Records=4  
 15/08/11 16:46:20 INFO mapred.JobClient:     Map output bytes=42  
 15/08/11 16:46:20 INFO mapred.JobClient:     Map input bytes=2  
 15/08/11 16:46:20 INFO mapred.JobClient:     Combine input records=0  
 15/08/11 16:46:20 INFO mapred.JobClient:     Map output records=2  
 15/08/11 16:46:20 INFO mapred.JobClient:     Reduce input records=2  

同时可以看到hdfs文件系统多了一个dbout的目录，里边的文件保存了数据库对应的数据，内容保存如下

[java]  view plain 
       copy 
      
 print ? 
     
 1   1 123 122312  
 2   2 123 123456  

hdfs数据导入到mysql

hdfs文件存储到mysql，也需要上边的DBRecord类作为辅助，因为数据库的操作都是通过DBInput和DBOutput来进行的；

首先需要定义map和reduce的实现（map用以对hdfs的文档进行解析，reduce解析map的输出并输出）

[java]  view plain 
       copy 
      
 print ? 
     
 package com.wyg.hadoop.mysql.mapper;  
   
 import java.io.IOException;  
 import java.io.DataInput;  
 import java.io.DataOutput;  
 import java.sql.PreparedStatement;  
 import java.sql.ResultSet;  
 import java.sql.SQLException;  
 import java.util.Iterator;  
   
 import org.apache.hadoop.filecache.DistributedCache;  
 import org.apache.hadoop.fs.Path;  
 import org.apache.hadoop.io.IntWritable;  
 import org.apache.hadoop.io.Text;  
 import org.apache.hadoop.io.Writable;  
 import org.apache.hadoop.mapred.JobClient;  
 import org.apache.hadoop.mapred.MapReduceBase;  
 import org.apache.hadoop.mapred.Mapper;  
 import org.apache.hadoop.mapred.OutputCollector;  
 import org.apache.hadoop.mapred.Reducer;  
 import org.apache.hadoop.mapred.Reporter;  
 import com.wyg.hadoop.mysql.bean.DBRecord;  
   
 public class WriteDB {  
     // Map处理过程  
     public static class Map extends MapReduceBase implements  
   
             Mapper {  
         private final static DBRecord one = new DBRecord();  
   
         private Text word = new Text();  
   
         @Override  
   
         public void map(Object key, Text value,  
   
             OutputCollector output, Reporter reporter)  
   
                 throws IOException {  
   
             String line = value.toString();  
             String[] infos = line.split(" ");  
             String id = infos[0].split("    ")[1];  
             one.setId(new Integer(id));  
             one.setTitle(infos[1]);  
             one.setContent(infos[2]);  
             word.set(id);  
             output.collect(word, one);  
         }  
   
     }  
   
     public static class Reduce extends MapReduceBase implements  
             Reducer {  
         @Override  
         public void reduce(Text key, Iterator values,  
                 OutputCollector collector, Reporter reporter)  
                 throws IOException {  
             DBRecord record = values.next();  
             collector.collect(record, new Text());  
         }  
     }  
 }  

测试hdfs导入数据到数据库

[java]  view plain 
       copy 
      
 print ? 
     
 package com.wyg.hadoop.mysql.db;  
   
 import org.apache.hadoop.fs.Path;  
 import org.apache.hadoop.io.IntWritable;  
 import org.apache.hadoop.io.LongWritable;  
 import org.apache.hadoop.io.Text;  
 import org.apache.hadoop.mapred.FileInputFormat;  
 import org.apache.hadoop.mapred.JobClient;  
 import org.apache.hadoop.mapred.JobConf;  
 import org.apache.hadoop.mapred.TextInputFormat;  
 import org.apache.hadoop.mapred.lib.db.DBConfiguration;  
 import org.apache.hadoop.mapred.lib.db.DBInputFormat;  
 import org.apache.hadoop.mapred.lib.db.DBOutputFormat;  
   
 import com.wyg.hadoop.mysql.bean.DBRecord;  
 import com.wyg.hadoop.mysql.mapper.WriteDB;  
   
 public class DBInsert {  
     public static void main(String[] args) throws Exception {  
   
            
   
         JobConf conf = new JobConf(WriteDB.class);  
         // 设置输入输出类型  
   
         conf.setInputFormat(TextInputFormat.class);  
         conf.setOutputFormat(DBOutputFormat.class);  
   
         // 不加这两句，通不过，但是网上给的例子没有这两句。  
         //Text, DBRecord  
         conf.setMapOutputKeyClass(Text.class);  
         conf.setMapOutputValueClass(DBRecord.class);  
         conf.setOutputKeyClass(Text.class);  
         conf.setOutputValueClass(DBRecord.class);  
         // 设置Map和Reduce类  
         conf.setMapperClass(WriteDB.Map.class);  
         conf.setReducerClass(WriteDB.Reduce.class);  
         // 设置输如目录  
         FileInputFormat.setInputPaths(conf, new Path("hdfs://192.168.44.129:9000/user/root/dbout"));  
         // 建立数据库连接  
         DBConfiguration.configureDB(conf,"com.mysql.jdbc.Driver", "jdbc:mysql://数据库ip:3306/数据库名称","用户名","密码");  
         String[] fields = {"id","title","content" };  
         DBOutputFormat.setOutput(conf, "wu_testhadoop", fields);  
         JobClient.runJob(conf);  
     }  
   
 }  

测试结果如下

[java]  view plain 
       copy 
      
 print ? 
     
 15/08/11 18:10:15 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=  
 15/08/11 18:10:15 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.  
 15/08/11 18:10:15 WARN mapred.JobClient: No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).  
 15/08/11 18:10:15 INFO mapred.FileInputFormat: Total input paths to process : 1  
 15/08/11 18:10:15 INFO mapred.JobClient: Running job: job_local_0001  
 15/08/11 18:10:15 INFO mapred.FileInputFormat: Total input paths to process : 1  
 15/08/11 18:10:15 INFO mapred.MapTask: numReduceTasks: 1  
 15/08/11 18:10:15 INFO mapred.MapTask: io.sort.mb = 100  
 15/08/11 18:10:15 INFO mapred.MapTask: data buffer = 79691776/99614720  
 15/08/11 18:10:15 INFO mapred.MapTask: record buffer = 262144/327680  
 15/08/11 18:10:15 INFO mapred.MapTask: Starting flush of map output  
 15/08/11 18:10:16 INFO mapred.MapTask: Finished spill 0  
 15/08/11 18:10:16 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting  
 15/08/11 18:10:16 INFO mapred.LocalJobRunner: hdfs://192.168.44.129:9000/user/root/dbout/part-00000:0+30  
 15/08/11 18:10:16 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000000_0' done.  
 15/08/11 18:10:16 INFO mapred.LocalJobRunner:   
 15/08/11 18:10:16 INFO mapred.Merger: Merging 1 sorted segments  
 15/08/11 18:10:16 INFO mapred.Merger: Down to the last merge-pass, with 1 segments left of total size: 40 bytes  
 15/08/11 18:10:16 INFO mapred.LocalJobRunner:   
 15/08/11 18:10:16 INFO mapred.TaskRunner: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting  
 15/08/11 18:10:16 INFO mapred.LocalJobRunner: reduce > reduce  
 15/08/11 18:10:16 INFO mapred.TaskRunner: Task 'attempt_local_0001_r_000000_0' done.  
 15/08/11 18:10:16 INFO mapred.JobClient:  map 100% reduce 100%  
 15/08/11 18:10:16 INFO mapred.JobClient: Job complete: job_local_0001  
 15/08/11 18:10:16 INFO mapred.JobClient: Counters: 14  
 15/08/11 18:10:16 INFO mapred.JobClient:   FileSystemCounters  
 15/08/11 18:10:16 INFO mapred.JobClient:     FILE_BYTES_READ=34932  
 15/08/11 18:10:16 INFO mapred.JobClient:     HDFS_BYTES_READ=60  
 15/08/11 18:10:16 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=70694  
 15/08/11 18:10:16 INFO mapred.JobClient:   Map-Reduce Framework  
 15/08/11 18:10:16 INFO mapred.JobClient:     Reduce input groups=2  
 15/08/11 18:10:16 INFO mapred.JobClient:     Combine output records=0  
 15/08/11 18:10:16 INFO mapred.JobClient:     Map input records=2  
 15/08/11 18:10:16 INFO mapred.JobClient:     Reduce shuffle bytes=0  
 15/08/11 18:10:16 INFO mapred.JobClient:     Reduce output records=2  
 15/08/11 18:10:16 INFO mapred.JobClient:     Spilled Records=4  
 15/08/11 18:10:16 INFO mapred.JobClient:     Map output bytes=34  
 15/08/11 18:10:16 INFO mapred.JobClient:     Map input bytes=30  
 15/08/11 18:10:16 INFO mapred.JobClient:     Combine input records=0  
 15/08/11 18:10:16 INFO mapred.JobClient:     Map output records=2  
 15/08/11 18:10:16 INFO mapred.JobClient:     Reduce input records=2  

测试之前我对原有表进行了清空处理，可以看到执行后数据库里边添加了两条内容；

下次在执行的时候会报错，属于正常情况，原因在于我们导入数据的时候对id进行赋值了，如果忽略id，是可以一直添加的；

源码下载地址

源码已上传，下载地址为download.csdn.net/detail/wuyinggui10000/8974585

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理