weixin_34248705

Hadoop初体验——搭建hadoop简单实现文本数据全局排序

之前在实现一些机器学习算法时，跑数据量、feature很多的数据集往往要耗费很多时间，尤其是处理大量文本数据时候，单机跑算法的时间让我无法容忍，理论上如果合理的将大数据量分布式并行计算框架（例如hadoop）应用到这些算法上能有效提高算法执行速度(当然，要求算法本身可以全部或部分进行并行化处理)，下一步想要学习Mahout（http://mahout.apache.org/），它的目标是：build scalable machine learning libraries，它是基于hadoop的，所以在此之前需要学习一下Hadoop，先从hadoop搭建开始吧。

1、硬件、软件准备

手头上有三台配置一样的电脑，就不去装虚拟机了，配置如下：

CPU：Intel(R) Pentium(R) Dual CPU E2200 @ 2.20GHz

Memory：2001MiB

Network：NetLink BCM5786 Gigabit Ethernet

三台电脑装有相同的操作系统——Ubuntu 11.04

2、安装过程

任选一台机器作为master，其他机器作为slaves，所有机器拥有相同的用户、相同的环境变量配置、相同的hadoop目录结构、相同的Java目录结构。

（1）、更改host文件

master机器：在终端执行：sudo gedit /etc/hosts，添加以下信息：

172.22.9.209 namenode-m

172.22.9.185 datanode-1

172.22.9.220 datanode-2

slaves机器：处理方式类似。

（2）、安装SSH

1)、为所有机器安装ssh：在终端运行：sudo apt-get install ssh，查看/leozhang目录下是否有.ssh文件夹(需要View->Show Hidden Files才能看见隐藏文件)，如果没有，在终端运行：sudo mkdir .ssh;

2）、在终端运行：

cd .ssh

#生成公钥、私钥密钥对

ssh-keygen #一直回车

#将公钥内容复制到authorized_keys文件
cp id_rsa.pub authorized_keys

#设定authorized_keys文件属性为-rw-r--r--，即文件属主拥有读写权限，与文件属主同组的用户拥有读权限，其他人拥有读权限。

chmod 644 authorized_keys

#将公钥拷贝到slaves

scp authorized_keys datanode-1:/home/leozhang/.ssh #这里也可以是scp authorized_keys leozhang@datanode-1:/home/leozhang/.ssh

scp authorized_keys datanode-2:/home/leozhang/.ssh #同上

最后测试设置是否成功，如：ssh datanode-1，如果不用输入密码就能登录，说明设置成功。

（3）、下载并配置jdk

1）、从http://www.oracle.com/technetwork/java/javase/downloads/java-se-jdk-7-download-432154.html下载jdk-7-linux-i586.tar.gz,解压后得到文件夹：jdk1.7.0，（例如下载并解压到了：/home/leozhang/Downloads）；

2）、在所有机器上做如下操作：在/usr建立文件夹java：在终端执行：sudo mkdir /usr/java，并将jdk1.7.0拷贝到java文件夹：进入/home/leozhang/Downloads目录，在终端执行sudo mv jdk1.7.0 /usr/java;

3)、在终端执行：sudo gedit /etc/profile，在文件末尾添加：

JAVA_HOME="/usr/java/jdk1.7.0"

export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH

export PATH

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$CLASSPATH

export CLASSPATH

4）、在终端执行：

cd /usr/java

scp -r java1.7.0 leozhang@datanode-1:/usr/java

scp -r java1.7.0 leozhang@datanode-2:/usr/java

（4）、下载并配置hadoop

hadoop包含三个部分：

Hadoop Common: The common utilities that support the other Hadoop subprojects.

Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.

Hadoop MapReduce: A software framework for distributed processing of large data sets on compute clusters.

1）、从http://labs.renren.com/apache-mirror//hadoop/core/hadoop-0.20.204.0/下载hadoop-0.20.204.0.tar.gz，解压到home/leozhang中并重命名为hadoop；

2）、在终端执行：sudo gedit /etc/profile，在文件末尾添加：

HADOOP_HOME=/home/leozhang/hadoop

export HADOOP_HOME

export HADOOP=$HADOOP_HOME/bin

export PATH=$HADOOP:$PATH

3）、hadoop配置文件

在hadoop文件夹中有一个conf文件夹，里面是hadoop所需的配置文件，主要关注的有以下几个：

●hadoop-env.sh

需要改动的只有一处，设置JAVA_HOME。

# The java implementation to use. Required.
export JAVA_HOME=/usr/java/jdk1.7.0

●core-site.xml

fs.default.name指出NameNode所在的地址，NameNode要跑在master机器上。

         fs.default.name
         hdfs://172.22.9.209:9000

      hadoop.logfile.size
      10000000
      The max size of each log file

      hadoop.logfile.count
      10
      The max number of log files

●hdfs-site.xml

dfs.replication默认是3，如果DataNode个数小于3会报错。

         dfs.replication
         2

●mapred-site.xml

mapred.job.tracker指出jobtracker所在地址，其它项不去配置则都为默认值。

         mapred.job.tracker
         172.22.9.209:9001

关于配置文件的详细信息可以在http://hadoop.apache.org/common/docs/stable/cluster_setup.html中找到。

●masters

172.22.9.209

●slaves

172.22.9.185
172.22.9.220

4）、在终端执行：

cd /home/leozhang

scp -r hadoop leozhang@datanode-1:/home/leozhang

scp -r hadoop leozhang@datanode-2:/home/leozhang

5）、在终端执行：source /etc/profile，如果不管用就注销然后重新登录。

3、数据全局排序

(1)、工具准备

需要下载eclipse，地址是http://www.eclipse.org/downloads/，也可以在终端运行sudo apt-get install eclipse，可以装个mapreduce的插件，方便在单机调试代码，那个插件在下载的hadoop的目录里，如：/home/leozhang/hadoop/contrib/eclipse-plugin/hadoop-eclipse-plugin-0.20.204.0.jar，把它拷贝到eclipse安装目录的plugins文件夹中即可。

(2)、启动hadoop

第一次使用需要初始化NameNode，在master机器的终端上执行：hadoop namenode -format；

在master机器的终端上执行：start-all.sh，可以用jps来查看本机的java进程，在master上启动了3个进程：JobTracker、SecondaryNameNode、NameNode，而slaves机器上有2个进程：TaskTracker、DataNode；需要停止进程，只要在master机器的终端上执行：stop-all.sh。

在http://localhost:50070/可以看到NameNode的详细信息，如：

在http://localhost:50030可以看到作业的详细信息，如：

(3)、关于mapreduce

mapreduce很适合数据之间相关性较低且数据量庞大的情况，map操作将原始数据经过特定操作打散后输出，作为中间结果，hadoop通过shuffle操作对中间结果排序，之后，reduce操作接收中间结果并进行汇总操作，最后将结果输出到文件中，从这里也可以看到在hadoop中，hdfs是mapreduce的基石。可以用下面这幅图描述map和reduce的过程：

有人用这么一句话解释mapreduce：

We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That's map. The more people we get, the faster it goes.
我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就更快。

Now we get together and add our individual counts. That's reduce.
现在我们到一起，把所有人的统计数加在一起。这就是“Reduce”。

(4)、数据准备

将待排序文本上传到hdfs上并放在input文件夹中，在终端执行：hadoop dfs –mkdir input；

假设数据文件data.txt放在本地磁盘的/home/leozhang/testdata中，在终端执行：cd /home/leozhang/testdata；hadoop dfs –put data input/

(5)、排序思路

借鉴快速排序的思路：假设为升序排序，那么每完成一次partition，pivot左边所有元素的值都小于等于pivot，而pivot右边的所有元素的值都大于等于pivot，如果现在有N个pivot，那么数据就被map成了N+1个区间，让reducer个数等于N+1，将不同区间的数据发送到相应区间的reducer；hadoop利用shuffle操作将这N+1份数据自动排序，reduce操作只需要接收中间结果后直接输出到文件即可。

由此归纳出用hadoop对大量数据排序的步骤：

1）、对待排序数据进行抽样；

2）、对抽样数据进行排序，产生pivot（例如得到的pivot为：3,9,11）；

3）、Map对输入的每条数据计算其处于哪两个pivot之间，之后将数据发给相应的reduce（例如区间划分为：<3、[3,9)、>=9，分别对应reducer0、reducer1、reducer2）；

4）、Reduce将获得数据直接输出。

(6)、简单实现

数据抽样由：RandomSelectMapper和RandomSelectReducer完成，数据划分由ReducerPatition完成，排序输出由SortMapper和SortReducer完成，执行顺序为：RandomSelectMapper –> RandomSelectReducer –> SortMapper –> SortReducer。

这个实现方式总觉得不给力，尤其是数据划分那块儿，不知道大家会怎么做，指导一下我吧，呵呵。代码可以从这里得到。

1）、pivot的选取采用随机的方式：

 
        1: package MRTEST.Sort; 
        2:   
        3: import java.io.IOException; 
        4: import java.util.Random; 
        5: import java.util.StringTokenizer; 
        6:   
        7: import org.apache.hadoop.io.Text; 
        8: import org.apache.hadoop.mapreduce.Mapper; 
        9:   
       10: public class RandomSelectMapper 
       11:         extends Mapper{ 
       12:     private static int currentSize = 0; 
       13:     private Random random = new Random(); 
       14:      
       15:     public void map(Object key, Text value, Context context) 
       16:         throws IOException, InterruptedException{ 
       17:         StringTokenizer itr = new StringTokenizer(value.toString()); 
       18:         while(itr.hasMoreTokens()){ 
       19:             currentSize++; 
       20:             Random ran = new Random(); 
       21:             if(random.nextInt(currentSize) == ran.nextInt(1)){ 
       22:                   Text v = new Text(itr.nextToken()); 
       23:                     context.write(v, v);       
       24:             } 
       25:             else{ 
       26:                 itr.nextToken(); 
       27:             } 
       28:         } 
       29:     } 
       30:   
       31: } 
    

pivot的排序由hadoop完成：

 
        1: package MRTEST.Sort; 
        2:   
        3: import java.io.IOException; 
        4:   
        5: import org.apache.hadoop.io.Text; 
        6: import org.apache.hadoop.mapreduce.Reducer; 
        7:   
        8: public class RandomSelectReducer 
        9:         extends Reducer{ 
       10:      
       11:     public void reduce(Text key, Iterable values, Context context) 
       12:         throws IOException, InterruptedException{ 
       13:          
       14:         for (Text data : values) { 
       15:             context.write(null,data); 
       16:             break; 
       17:         }  
       18:     } 
       19: } 
    

2）、SortMapper直接读取数据：

 
        1: package MRTEST.Sort; 
        2:   
        3: import java.io.IOException; 
        4: import java.util.StringTokenizer; 
        5:   
        6: import org.apache.hadoop.io.Text; 
        7: import org.apache.hadoop.mapreduce.Mapper; 
        8:   
        9: public class SortMapper 
       10:         extends Mapper {         
       11:   
       12:     public void map(Object key, Text values, 
       13:             Context context) throws IOException,InterruptedException { 
       14:           StringTokenizer itr = new StringTokenizer(values.toString()); 
       15:           while (itr.hasMoreTokens()) { 
       16:               Text v = new Text(itr.nextToken()); 
       17:                 context.write(v, v);   
       18:         } 
       19:     } 
       20:                
       21: } 
    

向相应的Reducer分发数据：

 
        1: package MRTEST.Sort; 
        2:   
        3: import org.apache.hadoop.io.Text; 
        4: import org.apache.hadoop.mapreduce.Partitioner; 
        5:   
        6: public class ReducerPartition 
        7:         extends Partitioner{ 
        8:   
        9:     public int getPartition(Text key, Text value ,int numPartitions){         
       10:         return HadoopUtil.getReducerId(value, numPartitions);         
       11:     }     
       12: } 
    

最后由SortReducer输出结果：

 
        1: package MRTEST.Sort; 
        2:   
        3: import java.io.IOException; 
        4:   
        5:   
        6: import org.apache.hadoop.io.Text; 
        7: import org.apache.hadoop.mapreduce.Reducer; 
        8:   
        9: public class SortReducer  
       10:         extends Reducer { 
       11:   
       12:     public void reduce(Text key, Iterable values, 
       13:             Context context) throws IOException, InterruptedException { 
       14:   
       15:         for (Text data : values) { 
       16:             context.write(key,data); 
       17:         } 
       18:     } 
       19: } 
    

3)、作业的组织由SortDriver完成：

 
        1: package MRTEST.Sort; 
        2:   
        3: import java.io.IOException; 
        4:   
        5: import org.apache.hadoop.conf.Configuration; 
        6: import org.apache.hadoop.fs.Path; 
        7: import org.apache.hadoop.io.Text; 
        8: import org.apache.hadoop.mapreduce.Job; 
        9: import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
       10: import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
       11: import org.apache.hadoop.util.GenericOptionsParser; 
       12:   
       13:   
       14: public class SortDriver { 
       15:      
       16:     public static void runPivotSelect(Configuration conf, 
       17:                                       Path input, 
       18:                                       Path output) throws IOException, ClassNotFoundException, InterruptedException{ 
       19:          
       20:         Job job = new Job(conf, "get pivot"); 
       21:         job.setJarByClass(SortDriver.class); 
       22:         job.setMapperClass(RandomSelectMapper.class); 
       23:         job.setReducerClass(RandomSelectReducer.class); 
       24:         job.setOutputKeyClass(Text.class); 
       25:         job.setOutputValueClass(Text.class); 
       26:         FileInputFormat.addInputPath(job, input); 
       27:         FileOutputFormat.setOutputPath(job, output); 
       28:         if(!job.waitForCompletion(true)){ 
       29:             System.exit(2); 
       30:         } 
       31:     } 
       32:      
       33:     public static void runSort(Configuration conf, 
       34:                                Path input, 
       35:                                Path partition, 
       36:                                Path output) throws IOException, ClassNotFoundException, InterruptedException{ 
       37:         Job job = new Job(conf, "sort"); 
       38:         job.setJarByClass(SortDriver.class); 
       39:         job.setMapperClass(SortMapper.class); 
       40:         job.setCombinerClass(SortReducer.class); 
       41:         job.setPartitionerClass(ReducerPartition.class); 
       42:         job.setReducerClass(SortReducer.class); 
       43:         job.setOutputKeyClass(Text.class); 
       44:         job.setOutputValueClass(Text.class); 
       45:         HadoopUtil.readPartition(conf, new Path(partition.toString() + "\\part-r-00000")); 
       46:         job.setNumReduceTasks(HadoopUtil.pivots.size()); 
       47:         FileInputFormat.addInputPath(job, input); 
       48:         FileOutputFormat.setOutputPath(job, output); 
       49:          
       50:         System.exit(job.waitForCompletion(true) ? 0 : 1); 
       51:     } 
       52:   
       53:     public static void main(String[] args) throws Exception { 
       54:         Configuration conf = new Configuration(); 
       55:         String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); 
       56:         if (otherArgs.length != 3) { 
       57:           System.err.println("Usage: sort   "); 
       58:           System.exit(2); 
       59:         }     
       60:          
       61:         Path input = new Path(otherArgs[0]); 
       62:         Path partition = new Path(otherArgs[1]); 
       63:         Path output = new Path(otherArgs[2]); 
       64:          
       65:         HadoopUtil.delete(conf, partition); 
       66:         HadoopUtil.delete(conf, output); 
       67:          
       68:         SortDriver.runPivotSelect(conf,input,partition); 
       69:         SortDriver.runSort(conf,input, partition, output);         
       70:     } 
       71: } 
    

(7)、打包并测试

在master机器上，单击eclipse的File菜单中的Export，选择Java –> JAR file，单击Next，在左边树形结构中把你想打包的文件勾选，单击Next，再单击Next，在Main class里选择应用程序入口(可选项)，最后点Finish，可以看到一个jar文件，例如：Sort.jar。

进入Sort.jar所在路径，在终端输入：hadoop jar Sort.jar input partition output

(8)、查看结果

在http://localhost:50030中可以跟踪所有作业的执行情况。

在hdfs上查看结果，终端输入：hadoop dfs –cat output/*，或者将hdfs上的文件抓到本地查看：hadoop dfs –get output output。

４、参考资料

1、http://hadoop.apache.org/

2、http://subject.csdn.net/hadoop/

3、Hadoop The Definitive Guide 2nd Edition

4、http://hi.baidu.com/gaolongquan/blog/item/2148dc240a0a7026c99559da.html

5、http://stblog.baidu-tech.com/?p=397&cpage=1

转载于:https://www.cnblogs.com/vivounicorn/archive/2011/09/20/2182433.html

你可能感兴趣的:(大数据,java,运维)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D