王劭阳

Hadoop笔记04-Hadoop-Yarn

Yarn资源调度器

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

Yarn基础架构

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。

Yarn工作机制

MapReduce程序提交到客户端所在结点
YarnRunner向ResourceManager申请一个Application
ResourceManager将应用程序的资源路径返回给YarnRunner
程序将运行需要的资源提交到HDFS上
程序提交完毕后，申请运行MRAppMaster
ResourceManager将用户请求初始化为一个Task
其中一个NodeManager获取到Task
该NodeManager创建容器Container，并产生MRAppMaster
Container从HDFS上拷贝资源到本地
MRAppMaster向ResourceManager申请运行MapTask的资源
ResourceManager将MapTask任务分配给另外两个NodeManager，另外两个NodeManager收到任务后创建容器
MapReduce向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager启动MapTask，MapTask对数据分区和排序
MRAppMaster等待所以MapTask执行完毕，向ResourceManager申请容器运行ReduceTask
ReduceTask先MapTask拉取分区数据
程序运行完毕后，MapReduce向ResourceManager申请注销自己，并释放资源

作业提交全过程

Yarn的作业提交过程，就是Yarn的工作机制那张图片，HDFS和MapReduce的作业提交过程类似于MapReduce的工作原理，只不过将数据的输入输出迁移到了HDFS上。

作业提交全过程：

Client调用job.waitForCompletion()方法，向集群提交MapReduce作业
Client向ResourceManager申请一个作业id
ResourceManager给Client返回job资源提交路径和作业id
Client提交jar包、切片信息、配置文件到资源提交路径
Client提交资源，向ResourceManager申请运行MRAppMaster
当ResourceManager收到Client的请求后，将该job添加到容器调度器中
某一个空闲的NodeManager领取到该job
该NodeManager创建Container并产生MRAppMaster
下载Client提交的资源到本地
MRAppMaster向ResourceManager申请运行多个MapTask任务资源
ResourceManager将运行MapTask任务分给另外两个NodeManager，另外两个NodeManager领取任务后分别创建容器
MapReduce向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据进行分区排序
MRAppMaster等待所有MapTask执行完毕后，向ResourceManager申请容器来运行ReduceTask
ReduceTask从MapTask拉取分区数据
程序运行完毕后，MapReduce向ResourceManager申请注销自己

Yarn中的任务将进度和状态返回给AppMaster，Client向AppMaster请求进度更新并展示给Client，频率由mapreduce.client.progressmonitor.pollinterval设置。
除了向AppMaster请求作业进度外，Client每隔5秒会调用waitForCompletion()检查作业是否完成，间隔可以通过 mapreduce.client.completion.pollinterval来设置。作业完成后，AppMaster和Container会执行清理工作，作业的执行记录会被作业历史服务器存储用于后续Client查看。

Yarn调度器和调度算法

Hadoop作业调度器主要有三种：FIFO、容量（Capacity Scheduler）、公平（Fair Scheduler）。Apache Hadoop 3.1.3默认资源调度器是Capacity Scheduler。
CDH框架默认调度器是Fair Scheduler。

先进先出调度器（FIFO）

FIFO调度器（First In First Out）：先进先出队列，根据提交作业的先后顺序，先来先服务。
优点：简单易懂
缺点：不支持多队列，生产环境很少使用

容量调度器（Capacity Scheduler）

Capacity Scheduler是Yahoo开发的多用户调度器。

特点：

多队列：每个队列可以配置一定的资源量，每个队列采用FIFO调度策略
容量保证：管理员可以给每个队列设置资源最低保证和资源使用上限
灵活性：如果一个队列中资源有剩余，可以暂时共享给其他需要资源的队列，一旦该队列有新的应用程序提交，其他队列借调的资源会归还给该队列
多租户：支持多用户共享集群和多应用程序同时运行，为了防止同一用户的作业独占队列中的资源，调度器会对同一用户提交的作业所占资源进行限定

公平调度器（Fair Scheduler）

Fair Scheduler是Facebook开发的多用户调度器。

与容量调度器相同点：

多队列：支持多队列多作业
容量保证：管理员可以给每个队列设置资源最低保证和资源上限
灵活性：如果一个队列中还有资源，可以暂时贡献给其余需要资源的队列，一旦该队列有新的应用提交，其他队列将借调的资源归还回去
多租户：支持多用户共享集群和多应用程序同时运行，为了防止同一用户独占资源，调度器会对同一用户提交的作业所占资源进行限定

与容量调度器不同点：
容量调度器的核心调度策略：优先资源利用率低的队列
公平调度器的核心调度策略：优先资源缺额比例大的队列
容量调度器每个队列资源分配方式：FIFO、DRF
公平调度器每个队列资源分配方式：FIFO、FAIR、DRF
公平调度器设计目标是：在时间尺度上，所有作业获得公平的资源。某一
时刻一个作业应获资源和实际获取资源的差距叫“缺额”，调度器会优先为缺额大的作业分配资源。

DRF策略
DRF（Dominant Resource Fairness），我们之前说的资源，都是单一标准，例如只考虑内存（也是Yarn默认的情况）。但是很多时候我们资源有很多种，例如内存，CPU，网络带宽等，这样我们很难衡量两个应用应该分配的资源比例，我们使用DRF策略对不同应用设置不同比例的限制。

Yarn常用命令

# 列出所有Application
yarn application -list
# 根据Application状态过滤（状态值有：ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPT、RUNNING、FINISHED、FAILED、KILLED）
yarn application -list -appStates FINISHED
# kill掉Application
yarn application -kill <ApplicationId>
# 查询Application日志
yarn logs -applicationId <ApplicationId>
# 查询Container日志
yarn logs -applicationId <ApplicationId> -containerId <ContainerId>
# 查看尝试运行的任务
yarn applicationattempt -list <ApplicationId>
# 查看参试运行任务的状态
yarn applicationattempt -status <ApplicationId>
# 列出所有Container
yarn container -list <ApplicationAttemptId>
# 查看Container状态
yarn container -status <ContainerId>
# 列出所有结点
yarn node -list -all
# 更新队列配置
yarn rmadmin -refreshQueues
# 查看队列
yarn queue -status <QueueName>

Yarn生产环境核心参数

Yarn案例实操

在操作之前，在VMware里先给虚拟机创建快照，相当于做一个备份，如果改坏了可以恢复回来。

Yarn生产环境核心参数配置案例

有1G的数据，做一个wordcount统计，目前有3台服务器，每台服务器配置4G内存，4核CPU，4线程。
每个分块是128MB，每个块会对应一个MapTask，所以会产生8个MapTask，默认是一个ReduceTask，一个MRAppMaster。平均每个结点运行10÷3≈3个任务，分别是4,3,3。
修改yarn-site.xml


<property>
    <description>The class to use as the resource scheduler.description>
    <name>yarn.resourcemanager.scheduler.classname>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
property>

<property>
    <description>Number of threads to handle scheduler interface.description>
    <name>yarn.resourcemanager.scheduler.client.thread-countname>
    <value>8value>
property>

<property>
    <description>Enable auto-detection of node capabilities such as memory and CPU.description>
    <name>yarn.nodemanager.resource.detect-hardware-capabilitiesname>
    <value>falsevalue>
property>

<property>
    <description>Flag to determine if logical processors(such as hyperthreads) should be counted as cores. Only applicable on Linux when yarn.nodemanager.resource.cpu-vcores is set to -1 and yarn.nodemanager.resource.detect-hardware capabilities is true.description>
    <name>yarn.nodemanager.resource.count-logical-processors-ascoresname>
    <value>falsevalue>
property>

<property>
    <description>Multiplier to determine how to convert phyiscal cores to vcores. This value is used if yarn.nodemanager.resource.cpu-vcores is set to -1(which implies auto-calculate vcores) and yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The number of vcores will be calculated as number of CPUs * multiplier.description>
    <name>yarn.nodemanager.resource.pcores-vcores-multipliername>
    <value>1.0value>
property>

<property>
    <description>Amount of physical memory, in MB, that can be allocated for containers. If set to -1 and yarn.nodemanager.resource.detect-hardware-capabilities is true, it is automatically calculated(in case of Windows and Linux). In other cases, the default is 8192MB.description>
    <name>yarn.nodemanager.resource.memory-mbname>
    <value>4096value>
property>

<property>
    <description>Number of vcores that can be allocated for containers. This is used by the RM scheduler when allocating resources for containers. This is not used to limit the number of CPUs used by YARN containers. If it is set to -1 and yarn.nodemanager.resource.detect-hardware-capabilities is true, it is automatically determined from the hardware in case of Windows and Linux. In other cases, number of vcores is 8 by default.description>
    <name>yarn.nodemanager.resource.cpu-vcoresname>
    <value>4value>
property>

<property>
    <description>The minimum allocation for every container request at the RM in MBs. Memory requests lower than this will be set to the value of this property. Additionally, a node manager that is configured to have less memory than this value will be shut down by the resource manager.description>
    <name>yarn.scheduler.minimum-allocation-mbname>
    <value>1024value>
property>

<property>
    <description>The maximum allocation for every container request at the RM in MBs. Memory requests higher than this will throw an InvalidResourceRequestException.description>
    <name>yarn.scheduler.maximum-allocation-mbname>
    <value>2048value>
property>

<property>
    <description>The minimum allocation for every container request at the RM in terms of virtual CPU cores. Requests lower than this will be set to the value of this property. Additionally, a node manager that is configured to have fewer virtual cores than this value will be shut down by the resource manager.description>
    <name>yarn.scheduler.minimum-allocation-vcoresname>
    <value>1value>
property>

<property>
    <description>The maximum allocation for every container request at the RM in terms of virtual CPU cores. Requests higher than this will throw an InvalidResourceRequestException.description>
    <name>yarn.scheduler.maximum-allocation-vcoresname>
    <value>2value>
property>

<property>
    <description>Whether virtual memory limits will be enforced forcontainers.description>
    <name>yarn.nodemanager.vmem-check-enabledname>
    <value>falsevalue>
property>

<property>
    <description>Ratio between virtual memory to physical memory when setting memory limits for containers. Container allocations are expressed in terms of physical memory, and virtual memory usage is allowed to exceed this allocation by this ratio.description>
    <name>yarn.nodemanager.vmem-pmem-rationame>
    <value>2.1value>
property>

集群中的NodeManager如果配置不一样，需要单独设置yarn-site.xml。

# 重启yarn
[root@hadoop102 hadoop-3.1.3]# sbin/stop-yarn.sh
[root@hadoop102 hadoop-3.1.3]# sbin/start-yarn.sh
# 执行wordcount程序
[root@hadoop102 hadoop-3.1.3]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# 通过http://hadoop103:8088/cluster/apps观察任务执行情况

容量调度器多队列提交案例

默认情况下，调度器只有一个队列，不能满足生产环境下的要求，小公司可以根据框架划分：hive、spark、flink每个框架的任务放入指定的队列，大公司可以按照业务划分：登录、下单、注册、物流每个业务放入指定队列。
多队列可以增加容错性，避免某个任务卡死导致拖垮整个集群，还可以根据重要性，实现任务的降级。
需求1：default队列占总内存40%，最大资源容量占总资源60%，hive队列占用总内存的60%，最大资源容量占总资源的80%。
需求2：配置队列优先级。
修改capacity-scheduler.xml
修改如下配置


<property>
    <name>yarn.scheduler.capacity.root.queuesname>
    <value>default,hivevalue>
    <description> The queues at the this level (root is the root queue).description>
property>

<property>
    <name>yarn.scheduler.capacity.root.default.capacityname>
    <value>40value>
property>

<property>
    <name>yarn.scheduler.capacity.root.default.maximum-capacityname>
    <value>60value>
property>

新增必要属性


<property>
    <name>yarn.scheduler.capacity.root.hive.capacityname>
    <value>60value>
property>

<property>
    <name>yarn.scheduler.capacity.root.hive.user-limit-factorname>
    <value>1value>
property>

<property>
    <name>yarn.scheduler.capacity.root.hive.maximum-capacityname>
    <value>80value>
property>

<property>
    <name>yarn.scheduler.capacity.root.hive.statename>
    <value>RUNNINGvalue>
property>

<property>
    <name>yarn.scheduler.capacity.root.hive.acl_submit_applicationsname>
    <value>*value>
property>

<property>
    <name>yarn.scheduler.capacity.root.hive.acl_administer_queuename>
    <value>*value>
property>

<property>
    <name>yarn.scheduler.capacity.root.hive.acl_application_max_priorityname>
    <value>*value>
property>


<property>
    <name>yarn.scheduler.capacity.root.hive.maximum-applicationlifetimename>
    <value>-1value>
property>

<property>
    <name>yarn.scheduler.capacity.root.hive.default-applicationlifetimename>
    <value>-1value>
property>

分发配置文件，重启Yarn执行yarn rmadmin -refreshQueue刷新队列，此时在http://hadoop103:8088/cluster的Scheduler里可以看到default队列和hive队列了。
既然有了hive队列，我们向hive队列提交一个任务查看执行情况，通过-D mapreduce.job.queuename=hive参数来指定队列。

[root@hadoop102 hadoop-3.1.3]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -D mapreduce.job.queuename=hive /input /output

默认情况下，任务都会分配到default队列，如果希望分配到指定队列，代码层面可以通过configuration.set("mapreduce.job.queuename","hive");来指定。
默认情况下，所有任务优先级都是0，可以通过任务调度器指定某个任务的优先级，优先级高的任务优先获取资源，若想使用任务优先级功能，需要开启。
修改yarn-site.xml，增加以下参数，分发配置，重启Yarn。


<property>
	<name>yarn.cluster.max-application-priorityname>
	<value>5value>
property>

# 多次提交以下任务，直到新提交的任务申请不到资源为止
[root@hadoop102 hadoop-3.1.3]# hadoop jar /opt/module/hadoop3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 5 2000000
# 再次重新提交优先级高的任务，可以看到高优先级的任务先获取到资源
[root@hadoop102 hadoop-3.1.3]# hadoop jar /opt/module/hadoop3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi  -D mapreduce.job.priority=5  5 2000000
# 对于运行中的程序，可以通过如下指令修改优先级
[root@hadoop102 hadoop-3.1.3]# yarn application -appID  -updatePriority 5

公平调度器案例

需求：创建两个队列：test和atguigu。若用户提交任务时候指定了队列，任务进到指定队列，若用户提交任务时候没有指定队列，test提交的任务进到root.group.test队列，atguigu提交的任务进到root.group.atguigu队列。
这里需要修改两个文件：yarn-site.xml和fair-scheduler.xml（公平调度器队列分配文件，文件名可自定义）。
配置文件参考资料：https://hadoop.apache.org/docs/r3.1.3/hadoop-yarn/hadoop-yarn-site/FairScheduler.html
任务队列放置规则参考资料：https://blog.cloudera.com/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queuebasics/
修改yarn-site.xml，添加如下内容。

<property>
    <name>yarn.resourcemanager.scheduler.classname>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
    <description>配置使用公平调度器description>
property>
<property>
    <name>yarn.scheduler.fair.allocation.filename>
    <value>/opt/module/hadoop-3.1.3/etc/hadoop/fair-scheduler.xmlvalue>
    <description>指明公平调度器队列分配配置文件description>
property>
<property>
    <name>yarn.scheduler.fair.preemptionname>
    <value>falsevalue>
    <description>禁止队列间资源抢占description>
property>

配置fair-scheduler.xml。


<allocations>
    
    <queueMaxAMShareDefault>0.5queueMaxAMShareDefault>
    
    <queueMaxResourcesDefault>4096mb,4vcoresqueueMaxResourcesDefault>
    
    <queue name="test">
        
        <minResources>2048mb,2vcoresminResources>
        
        <maxResources>4096mb,4vcoresmaxResources>
        
        <maxRunningApps>4maxRunningApps>
        
        <maxAMShare>0.5maxAMShare>
        
        <weight>1.0weight>
        
        <schedulingPolicy>fairschedulingPolicy>
    queue>
    
    <queue name="atguigu" type="parent">
        
        <minResources>2048mb,2vcoresminResources>
        
        <maxResources>4096mb,4vcoresmaxResources>
        
        <maxRunningApps>4maxRunningApps>
        
        <maxAMShare>0.5maxAMShare>
        
        <weight>1.0weight>
        
        <schedulingPolicy>fairschedulingPolicy>
    queue>
    
    <queuePlacementPolicy>
        
        <rule name="specified" create="false"/>
        
        <rule name="nestedUserQueue" create="true">
        	<rule name="primaryGroup" create="false"/>
        rule>
        
        <rule name="reject" />
    queuePlacementPolicy>
allocations>

分发并重启Yarn，进行测试。

# 指定提交任务到队列test
[root@hadoop102 hadoop-3.1.3]#  hadoop jar /opt/module/hadoop3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi -Dmapreduce.job.queuename=root.test 1 1
# 不指定提交任务到哪个队列，任务会到当前用户的队列
[root@hadoop102 hadoop-3.1.3]#  hadoop jar /opt/module/hadoop3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 1 1

Yarn的Tool接口案例

在用我们自己的jar包执行wordcount的时候，如果带了其他参数，会出现错误。

# 不带参数的时候，正常执行
[root@hadoop102 hadoop-3.1.3]# yarn jar demo-1.0-SNAPSHOT-jar-with-dependencies.jar com.demo.mapreduce.wordcount.WordCountDriver /wcinput /wcoutput
# 带参数的时候，提示错误，提示/wcinput已经存在，因为程序把-Dmapreduce.job.queuename=root.test当成了输入路径参数，把/wcinput当成了输出路径参数，/wcoutput参数被忽略了
[root@hadoop102 hadoop-3.1.3]# yarn jar demo-1.0-SNAPSHOT-jar-with-dependencies.jar com.demo.mapreduce.wordcount.WordCountDriver -Dmapreduce.job.queuename=root.test /wcinput /wcoutput
2022-01-26 22:43:28,885 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.216.103:8032
Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://hadoop102:8020/wcinput already exists
        at org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:164)
        at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:277)
        at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:143)
        at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1570)
        at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1567)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1729)
        at org.apache.hadoop.mapreduce.Job.submit(Job.java:1567)
        at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1588)
        at com.demo.mapreduce.wordcount.WordCountDriver.main(WordCountDriver.java:24)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:318)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:232)

为了解决这个问题，我们使用Tool接口。
WordCount.java

package com.demo.yarn;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;

import java.io.IOException;

public class WordCount implements Tool {
    private Configuration configuration;

    @Override
    public int run(String[] strings) throws Exception {
        Job job = Job.getInstance(configuration);
        job.setJarByClass(WordCountDriver.class);
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.setInputPaths(job, new Path(strings[0]));
        FileOutputFormat.setOutputPath(job, new Path(strings[1]));
        return job.waitForCompletion(true) ? 0 : 1;
    }

    @Override
    public void setConf(Configuration configuration) {
        this.configuration = configuration;
    }

    @Override
    public Configuration getConf() {
        return configuration;
    }

    public static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
        private Text text = new Text();
        private IntWritable intWritable = new IntWritable(1);

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String line = value.toString();
            String[] words = line.split(" ");
            for (String word : words) {
                text.set(word);
                context.write(text, intWritable);
            }
        }
    }

    public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable intWritable = new IntWritable();

        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable value : values) {
                sum += value.get();
            }
            intWritable.set(sum);
            context.write(key, intWritable);
        }
    }
}

WordCountDriver.java

package com.demo.yarn;

import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.util.Arrays;

public class WordCountDriver {
    private static Tool tool;

    public static void main(String[] args) throws Exception {
        System.out.println(Arrays.toString(args));// 输出所有参数
        int length = args.length;
        // 1. 创建配置文件
        JobConf jobConf = new JobConf();
        // 2. 判断是否带额外参数
        if (args[0].startsWith("-D")) {// 有参数
            tool = new WordCount();
            // 这里需要解析-Dmapreduce.job.queuename=root.test，并把queueName=root.test设置上去
            // 解析过程略掉了，直接写死一个test的queue，这块还有点问题，运行会报错误，需要提前创建一个test队列，还不会
            // Application application_1643207666393_0004 submitted by user root to unknown queue: root.test
            jobConf.setQueueName("test");
        } else {
            throw new RuntimeException(" No such tool: " + args[0]);
        }
        // 3. 用 Tool 执行程序
        // Arrays.copyOfRange 将老数组的元素放到新数组里面，这里将/wcinput和/wcoutput做参数传进去，其余参数都在jobConf里设置
        int run = ToolRunner.run(jobConf, tool, Arrays.copyOfRange(args, length - 2, length));
        System.exit(run);
    }
}

maven install一下，将jar包发到服务器上，测试一下。
不过，这块还有点问题，代码里jobConf.setQueueName("test");后，程序不认识root.test这个queue，可能需要提前配置一下test的queue，不知道怎么改了。
其实这个Tool的目的就是将参数分离出来，输入、输出路径不变，其他参数通过conf设置进去。

[root@hadoop102 hadoop-3.1.3]# yarn jar demo-1.0-SNAPSHOT-jar-with-dependencies.jar com.demo.yarn.WordCountDriver -Dmapreduce.job.queuename=root.test /wcinput /wcoutput

你可能感兴趣的:(Hadoop,hadoop)

Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
【Hadoop】onekey_install脚本菜萝卜子 Linux hadoop 大数据分布式
hosts[root@kafka01hadoop-script]#cat/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6192.168.100.150k
Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb