北漂的菜小白

大数据技术（入门篇）--- 使用Spring Boot 操作 CDH6.2.0 Spark SQL进行离线计算

前言

CDH 6.2.0 搭建的环境，并不能直接使用 spark 相关资源，需要对此服务端环境进行一些修改
Spark 目前仅支持 JDK1.8, Java项目运行环境只能使用JDK 1.8
我这里使用的是 CDH6.2.0集群，因此使用的依赖为CDH专用依赖，需要先添加仓库
spark 使用scala 语言编写，因此项目中使用的scala依赖版本要和cdh中的 scala 版本一致
因为需要将计算结果写入到MySQL，所以当前项目中需要加入MySQL-JDBC驱动程序
Spark 在运行过程中，会将JAR上传到节点，进行网络传输，因此，Spark计算类，必须实现序列化接口 java.io.Serializable，同时设置序列化id（ private static final long serialVersionUID = 1L;），如果不知道怎么设置，那就默认值1L，每次更新代码，切记 maven clean package，缺一不可
Spark 在进行RDD计算的时候，可能会在集群中的任一节点上，因此每个节点也需要有 MySQL的JDBC驱动程序，否则无法创建数据库表，我这里用了偷懒的方式，将JAR上传到HDFS，通过配置文件进行加载启动

代码库地址：https://github.com/lcy19930619/cdh-demo

环境处理

步骤一：添加 spark 基础环境

步骤二，处理对应的 master 和 slave 节点

修改基础环境配置文件

文件:/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib/spark/conf/spark-env.sh
在文件上方添加以下内容

export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera # jdk 路径
SPARK_LOCAL_IP=10.8.0.6 # 此ip为我的远程访问ip地址，spark 默认只处理链接此ip的数据
SPARK_MASTER_HOST=10.8.0.6 # master 节点ip地址

修改端口

文件:/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib/spark/conf/spark-defaults.conf
修改内容：
将 7337 端口修改为 7447

spark.shuffle.service.port=7447

分别启动节点

文件路径：/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib/spark/sbin
启动 master 执行:

./start-master.sh

启动 slave 执行：

./start-slaves.sh # 注意，这个脚本是有 s 的，还有一个是start-slave.sh，别启动错了

确认正常启动

了解 Spark

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室) 所开源的类Hadoop MapReduce的通用并行框架
拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 比 MapReduce 快，MapReduce只能进行离线运算，并且需要完全依靠HDFS，数据需要从磁盘加载，然后才能进行计算，因此MapReduce速度较慢，但Spark可以将计算结果存储到内存中，也可以进行流式计算，因此速度比MapReduce 快
Spark 提供了大量的库，包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。开发者可以在同一个应用程序中无缝组合使用这些库。
Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器

组件

SparkCore：相当于MapReduce，是spark的核心引擎。
SparkSQL：是一个用于处理结构化数据的Spark组件，主要用于结构化数据处理和对数据执行类SQL查询。可以针对不同数据格式（如：JSON，Parquet， ORC等）和数据源执行ETL操作（如：HDFS、数据库等），完成特定的查询操作。
SparkStreaming：微批处理的流处理引擎，将流数据分片以后用SparkCore的计算引擎中进行处理，可以进行实时运算。
Mllib和GraphX主要一些机器学习和图计算的算法库。
SparkR是一个R语言包，它提供了轻量级的方式使得可以在R语言中使用 Spark。

Spark数据结构

在Spark中，数据以RDD或者DataFrame的格式储存。

RDD

RDD 是 Spark 中最重要的概念之一，全称为 Resilient Distributed Dataset，即弹性分布式数据集。它是一种容错、可并行计算的数据类型，可以跨多个节点进行分布式计算。RDD 是 Spark 提供的核心分布式数据结构，可以通过一系列的转换和动作(operation)进行处理，从而实现大规模数据处理。

在 Spark 中，RDD 表示一个不可变、可分区、支持并行操作的数据集合，每个 RDD 可以被分为多个分区，这些分区可以被放置在不同的节点上，使得计算可以在节点间并行进行。用户可以通过一系列的操作来构建和转换 RDD。

RDD 的特点如下：

以分布式方式存储在多个节点上，通过网络进行传输，可以实现高效的数据计算和处理。
支持多种数据来源，例如 HDFS, HBase, Cassandra 等大规模数据存储系统。
可以容错并快速恢复，当某个节点失败或数据损坏时，RDD 可以快速恢复原始数据。
支持多种操作，例如转换(transformation)和动作(action)，可以在 RDD 上进行各种复杂的数据处理、过滤、排序等操作。

DataFrame

DataFrame 是 Spark SQL 中内置的、分布式的数据处理结构。它可以看做是基于 RDD 的分布式数据集合，但相对于 RDD，DataFrame 提供了更高层次的抽象，使得数据处理更加方便、高效。DataFrame 可以将不同数据源中的数据统一表示为一个分布式的表格，提供了一套 SQL 的查询语言，支持丰富的数据转换以及数据分析处理功能。

与 RDD 不同的是，DataFrame 中的数据结构是由一组命名的列组成的，支持多种数据类型，并且可以自动推断数据模式(schema)。而且 DataFrame 中的数据都是以列存储的，因此可以更加高效地进行数据压缩和编码，提高数据处理的速度和效率。除此之外，DataFrame 还提供了很多类似于 SQL 的数据操作方法，例如 select, filter, groupBy, orderBy 等等。

使用 DataFrame 可以更加方便地进行数据处理工作，将常用的大部分复杂计算交给 Spark SQL 来处理，而不需要过多地自己实现。

例如，在 Spark SQL 中可以读取各种结构化数据（如 JSON, CSV, parquet 等等），然后使用 DataFrame API 进行数据查询、筛选、聚合甚至机器学习算法的处理。在某些情况下，DataFrame 甚至可以代替编写 MapReduce 作业来处理数据。

Dataset

在 Spark 中，Dataset 是一种强类型的、可分布式处理的数据集合，可以运用 Spark 的函数式编程方式，提供了更加方便、稳定的 API 接口，支持如 SQL 语法风格的查询，也可以与原生 Scala、Java 等语言的 API 紧密结合，支持对各种数据源的读取和写入等操作。

Dataset 实现了两个经典的 Spark 数据结构：RDD 和 DataFrame。与 RDD 相比，Dataset 提供了更加高级的类型约束和更好的性能优化，可以在编译期间捕获类型错误，并且能够利用 Catalyst（Spark 的高性能查询优化器）对查询语句进行优化。

与 DataFrame 相比，Dataset 不仅支持强类型编程，还支持面向对象编程。可以通过编写强类型类来指定数据结构，支持使用标准 Scala、Java 类型检查器进行检查，避免了在运行时出现类型不匹配的错误。

一次Spark Job的运行过程简述

配置与初始化。在这个阶段中，Spark 根据用户设定的配置信息，对集群进行初始化，并加载用户指定的代码和依赖项。这个阶段还包括 Spark 上下文的创建和运行环境的初始化等操作。
转换与优化。在这个阶段中，Spark 根据用户设定的代码和数据输入，进行一系列的转换和优化操作，包括分区、排序、过滤、聚合等操作。Spark 会根据 DAG (Directed Acyclic Graph) 的形式将转换操作组织起来，并进行逻辑优化和物理优化。
计算与执行。在这个阶段中，Spark 根据 DAG 的构建结果，将代码和数据输入根据 DAG 拆分为多个阶段，并按照计算依赖关系进行并行计算和执行。Spark 会在集群中的多个节点上运行任务，从而实现高效的数据并行处理。
结果输出和保存。在这个阶段中，Spark 将计算结果进行输出和保存，可以将结果保存到内存、磁盘或是外部存储系统中（如 HDFS, S3, HBase 等）。可以通过 API 代码或 Spark SQL 等途径直接与结果进行交互和查询。

运行角色

在 Spark 集群中，有以下几个运行角色：

Driver：Driver 是整个 Spark 应用程序的主类，通过调用 SparkContext 来创建 RDD 并且定义数据处理流程。Driver 维护着集群任务的整体状态、资源分配和任务调度等职责，是整个应用的控制节点。
Executor：Executor 是 Spark 中真正执行任务的角色，每个应用程序启动时，Spark 会为每个节点分配一个或多个 Executor，Executor 会在该节点上负责执行分配给它的任务，包括数据的计算和转换、计算结果的缓存和存储、以及任务的监控和重试等职责。
Cluster Manager：Cluster Manager 是 Spark 集群的管理组件，负责分配和管理集群的资源、监控集群的状态和健康状况、处理节点的故障和重启等职责。Spark 支持多种 Cluster Manager，包括 Standalone、Mesos、YARN、Kubernetes 等。
Worker：Worker 是 Spark 集群中的节点，可以是物理机、虚拟机或 Docker 容器等，它们负责提供计算和存储资源、启动和运行 Executor、定期向 Cluster Manager 汇报节点状态等职责。
Client：Client 是 Spark 应用程序的启动者，负责启动 Driver 进程，向 Cluster Manager 请求计算资源、提交应用程序代码等职责。通常来说，Client 与 Driver 运行在同一台机器上。

常用的配置参数

SparkConf 是 Spark 配置的核心类，你可以使用 SparkConf 配置类来设置 Spark 应用程序的各种参数。下面是一些常见的 SparkConf 配置参数及其说明：

spark.master: 指定 Spark 应用程序运行在哪个集群（Standalone、Mesos 或 YARN）的哪个节点上，以及运行模式（local、client 或 cluster）；示例：spark://master:7077（集群模式）或 local[*]（本地模式）。
spark.app.name: 指定应用程序的名称，方便在 Spark Web UI 和日志中定位；示例：MyApp。
spark.driver.memory: 指定 Driver 程序占用的内存大小，包括 JVM Heap 和其他内存（如 I/O 缓存）；示例：2g。
spark.executor.memory: 指定 Executor 程序占用的内存大小，包括 JVM Heap 和其他内存（如 I/O 缓存）；示例：4g。
spark.executor.instances: 指定 Spark 应用程序启动的 Executor 数量；示例：10。
spark.executor.cores: 指定每个 Executor 占用的 CPU 核数；示例：4。
spark.default.parallelism: 指定默认的并行度，通常和数据分区数保持一致；示例：100。
spark.sql.shuffle.partitions: 指定 Spark SQL Shuffle 操作的默认并行度，通常和数据分区数保持一致；示例：100。
spark.hadoop.fs.s3a.endpoint: 指定 Object Store 的访问地址；示例：s3.amazonaws.com。
spark.hadoop.fs.s3a.access.key: 指定 Object Store 的访问 Key；示例：AKIATXDGSSAACXEXAMPLE。
spark.hadoop.fs.s3a.secret.key: 指定 Object Store 的访问 Secret；示例：wJalrXUtnFEMI/K7MDENG+bPxRfiCYEXAMPLEKEY。

除了上面列出的常用配置参数外，还有许多其他的配置参数，
以下是 Spark 官方文档的链接：

Spark 配置指南
Spark SQL 配置指南
Spark Streaming 配置指南

在这些文档中，可以找到 Spark 所有模块的配置参数，包括 Spark Core、Spark SQL、Spark Streaming、机器学习库 MLlib 等。同时，这些文档还提供了每个配置参数的用途、默认值和可用值范围等信息。

代码编写

查看scala 版本和 spark 版本

登陆 Spark Master 服务器

# 找到执行 spark-shell 的目录
cd /opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib/spark/bin

# 执行该命令
./spark-shell

观察执行结果

Spark version: 2.4.0-cdh6.2.0
Scala version: 2.11.12

pom.xml

已知 Scala 版本，和 spark 版本，所以针对性的添加依赖文件


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>
    <groupId>com.examplegroupId>
    <artifactId>cdh-demoartifactId>
    <version>0.0.1-SNAPSHOTversion>
    <name>cdh-demoname>
    <description>cdh-demodescription>
    <properties>
        <java.version>1.8java.version>
        <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
        <project.reporting.outputEncoding>UTF-8project.reporting.outputEncoding>
        <spring-boot.version>2.6.13spring-boot.version>
        <cdh.version>2.4.0-cdh6.2.0cdh.version>
        <scala.version>2.11.12scala.version>
        <hadoop.version>3.0.0-cdh6.2.0hadoop.version>
    properties>
    <dependencies>

        <dependency>
            <groupId>mysqlgroupId>
            <artifactId>mysql-connector-javaartifactId>
        dependency>
        
        <dependency>
            <groupId>org.scala-langgroupId>
            <artifactId>scala-libraryartifactId>
            <version>${scala.version}version>
        dependency>

        <dependency>
            <groupId>org.codehaus.janinogroupId>
            <artifactId>janinoartifactId>
            <version>3.0.8version>
        dependency>
        

        
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-core_2.11artifactId>
            <version>${cdh.version}version>
            <exclusions>
                <exclusion>
                    <artifactId>slf4j-reload4jartifactId>
                    <groupId>org.slf4jgroupId>
                exclusion>
            exclusions>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-sql_2.11artifactId>
            <version>${cdh.version}version>
        dependency>
        <dependency>
            <groupId>com.databricksgroupId>
            <artifactId>spark-xml_2.12artifactId>
            <version>0.11.0version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-streaming-kafka-0-10_2.11artifactId>
            <version>${cdh.version}version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-streaming_2.11artifactId>
            <version>${cdh.version}version>
        dependency>
        

        <dependency>
            <groupId>org.glassfish.jersey.injectgroupId>
            <artifactId>jersey-hk2artifactId>
        dependency>

        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-configuration-processorartifactId>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-commonartifactId>
            <version>${hadoop.version}version>
            <exclusions>
                <exclusion>
                    <artifactId>slf4j-reload4jartifactId>
                    <groupId>org.slf4jgroupId>
                exclusion>
            exclusions>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-hdfsartifactId>
            <version>${hadoop.version}version>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-mapreduce-client-coreartifactId>
            <version>${hadoop.version}version>
            <exclusions>
                <exclusion>
                    <artifactId>slf4j-reload4jartifactId>
                    <groupId>org.slf4jgroupId>
                exclusion>
            exclusions>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-mapreduce-client-jobclientartifactId>
            <version>${hadoop.version}version>
            <exclusions>
                <exclusion>
                    <artifactId>slf4j-reload4jartifactId>
                    <groupId>org.slf4jgroupId>
                exclusion>
            exclusions>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-mapreduce-client-commonartifactId>
            <version>${hadoop.version}version>
            <exclusions>
                <exclusion>
                    <artifactId>slf4j-reload4jartifactId>
                    <groupId>org.slf4jgroupId>
                exclusion>
            exclusions>
        dependency>
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-webartifactId>
        dependency>
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-configuration-processorartifactId>
        dependency>
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-testartifactId>
            <scope>testscope>
        dependency>
    dependencies>
    <dependencyManagement>
        <dependencies>
            <dependency>
                <groupId>org.springframework.bootgroupId>
                <artifactId>spring-boot-dependenciesartifactId>
                <version>${spring-boot.version}version>
                <type>pomtype>
                <scope>importscope>
            dependency>
        dependencies>
    dependencyManagement>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-compiler-pluginartifactId>
                <version>3.8.1version>
                <configuration>
                    <source>1.8source>
                    <target>1.8target>
                    <encoding>UTF-8encoding>
                configuration>
            plugin>
            <plugin>
                <groupId>org.springframework.bootgroupId>
                <artifactId>spring-boot-maven-pluginartifactId>
                <version>${spring-boot.version}version>
                <configuration>
                    <mainClass>com.example.cdh.CdhDemoApplicationmainClass>
                    <skip>trueskip>
                configuration>
                <executions>
                    <execution>
                        <id>repackageid>
                        <goals>
                            <goal>repackagegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>
    <repositories>
        <repository>
            <id>cloudera.repoid>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/url>
        repository>
        <repository>
            <id>springid>
            <url>https://maven.aliyun.com/repository/centralurl>
        repository>
        <repository>
            <id>jcenterid>
            <url>https://maven.aliyun.com/repository/jcenterurl>
        repository>
        <repository>
            <id>publicid>
            <url>https://maven.aliyun.com/repository/publicurl>
        repository>
    repositories>
project>

yml

spark:
  jars:
    # 当前 JAR 的名字，支持相对路径，如果使用匿名内部类，会生成$1的class，不添加jar，会出现ClassNotFoundException
    - target/cdh-demo-0.0.1-SNAPSHOT.jar
  app-name: cdh-demo
  master-url: spark://cdh-slave-1:7077
  driver:
    memory: 1g
    host: 10.8.0.5
    # JDBC 驱动地址,手动上传到 hdfs 的
    extraClassPath: hdfs://cdh-slave-1:8020/jars/mysql-connector-java-5.1.47.jar
  worker:
    memory: 1g
  executor:
    memory: 1g
  rpc:
    message:
      maxSize: 1024

logging:
  level:
    org:
      apache:
        spark:
          storage: WARN
          deploy:
            client: WARN
          scheduler:
            cluster: WARN
hadoop:
  url: hdfs://cdh-slave-1:8020
  replication: 3
  blockSize: 2097152
  user: root

SparkAutoConfiguration

package com.example.cdh.configuration;

import com.example.cdh.properties.spark.SparkProperties;
import java.util.List;
import java.util.Map;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.autoconfigure.condition.ConditionalOnMissingBean;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.core.env.AbstractEnvironment;
import org.springframework.core.env.Environment;
import org.springframework.core.env.MapPropertySource;
import org.springframework.core.env.MutablePropertySources;
import org.springframework.core.env.PropertySource;

/**
 * @author lcy
 */
@Configuration
public class SparkAutoConfiguration {
    private static final Logger logger = LoggerFactory.getLogger(SparkAutoConfiguration.class);
    @Autowired
    private SparkProperties sparkProperties;
    @Autowired
    private Environment env;
    /**
     * spark 的基本配置
     *
     * @return 把 yml 里配置的内容都写入该配置项
     */
    @Bean
    public SparkConf sparkConf() {
        List<String> jars = sparkProperties.getJars();
        String[] sparkJars = jars.toArray(new String[0]);
        SparkConf conf = new SparkConf()
            .setAppName(sparkProperties.getAppName())
            .setMaster(sparkProperties.getMasterUrL())
            .setJars(sparkJars);
        AbstractEnvironment abstractEnvironment = ((AbstractEnvironment) env);

        MutablePropertySources sources = abstractEnvironment.getPropertySources();
        for (PropertySource<?> source : sources) {
            if (source instanceof MapPropertySource) {
                Map<String, Object> propertyMap = ((MapPropertySource) source).getSource();
                for (Map.Entry<String, Object> entry : propertyMap.entrySet()) {
                    String key = entry.getKey();
                    if (key.startsWith("spark.")) {
                        if ("spark.jars".equals(key)){
                            continue;
                        }
                        String value = env.getProperty(key);
                        conf.set(key,value);
                        logger.info("已识别 spark 配置属性,{}:{}",key,value);
                    }
                }
            }
        }
     //   也可以通过此方式设置 (方式二)   二选一即可
     //   conf.set("spark.driver.extraClassPath","hdfs://cdh-slave-1:8020/jars/mysql-connector-java-5.1.47.jar");
     //   也可以通过此方式设置 (方式三)    二选一即可 
     //   conf.set("spark.executor.extraClassPath","hdfs://cdh-slave-1:8020/jars/mysql-connector-java-5.1.47.jar");
        return conf;
    }

    /**
     * 连接 spark 集群
     *
     * @param sparkConf
     * @return
     */
    @Bean
    @ConditionalOnMissingBean(JavaSparkContext.class)
    public JavaSparkContext javaSparkContext(SparkConf sparkConf) {
        return new JavaSparkContext(sparkConf);
    }

    /**
     *
     * @param javaSparkContext
     * @return
     */
    @Bean
    public SparkSession sparkSession(JavaSparkContext javaSparkContext) {
        return SparkSession
            .builder()
            .sparkContext(javaSparkContext.sc())
            .appName(sparkProperties.getAppName())
            .getOrCreate();
    }


}

踩坑记录

ClassNotFoundException:xxxxxx$1

异常信息截图

产生的原因分析

Spark 在执行过程中，会将jar 进行网络传输，但是代码中包含了匿名内部类，因此产生了$1这种后缀的class 文件

示例

解决方案

在装配时候，通过 setJars方法，添加当前的jar包作为传输对象，该路径可以为相对路径，或者 hdfs 路径

示例代码目标

使用 spark sql 进行简单的查询示例

简单的条件查询
稍微复杂一些的聚合查询
每行数据对象，转换为自定义Class对象
目标数据存储到MySQL数据库中
符合断言判断

package com.example.cdh.service;

import com.example.cdh.dto.UserDTO;
import java.io.Serializable;
import org.apache.spark.api.java.function.MapFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Encoders;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;

import static org.apache.spark.sql.functions.column;
import static org.apache.spark.sql.functions.count;

/**
 * 使用 spark sql 离线计算
 *
 * @author chunyang.leng
 * @date 2023-04-12 14:53
 */
@Component
public class SparkOfflineService implements Serializable {
    private static final Logger logger = LoggerFactory.getLogger(SparkOfflineService.class);
    private static final long serialVersionUID = 1L;

    @Autowired
    private SparkSession sparkSession;

    /**
     * 统计 hdfs 中一个csv文件的行数
     *
     * @param hdfsPath demo: hdfs://cdh-slave-1:8020/demo/csv/input.csv
     * @return
     */
    public long countHdfsCsv(String hdfsPath) {
        return sparkSession.read().csv(hdfsPath).count();
    }

    /**
     * 小于等于 计算示例
     * 

     *      * {@code  select name, age from xx where age <=#{age} }
     * 
     * @param hdfsPath 要计算的文件
     * @param age 阈值
     * @return 算出来的数据总量
     */
    public long lte(String hdfsPath, int age) {
        // 临时表名称
        String tempTableName = "cdh_demo_lte";
        // 加载 csv 数据
        Dataset<UserDTO> data = loadCsv(hdfsPath);

        // 创建临时表
        data.createOrReplaceTempView(tempTableName);
        // 执行 sql 语句
        Dataset<Row> sqlData = sparkSession
            .sql("select name,age from " + tempTableName + " where age <= " + age);

        // 存储数据
        saveToMySQL(tempTableName, sqlData);
        return sqlData.count();
    }

    /**
     * 简单的聚合查询示例
     * 

     *      * {@code
     * select
     *      count(name) as c,
     *      age
     * from
     *      xx
     * group by age
     *
     * having c > #{count}
     *
     * order by c desc
     * }
     * 
     * @param hdfsPath 要统计的文件
     * @param count having > #{count}
     * @return
     */
    public long agg(String hdfsPath, int count){
        // 临时表名称
        String tempTableName = "cdh_demo_agg";
        // 加载 csv 数据
        Dataset<UserDTO> data = loadCsv(hdfsPath);

        // 创建临时表
        data.createOrReplaceTempView(tempTableName);
        // 执行 sql 语句
        Dataset<Row> sqlData = sparkSession
            .sql("select name,age from " + tempTableName)
            .groupBy(column("age").alias("age"))
            .agg(count("name").alias("c"))
            // filter = having
            .filter(column("c").gt(count))
            // 按照统计出来的数量，降序排序
            .orderBy(column("c").desc());

        saveToMySQL(tempTableName, sqlData);
        return sqlData.count();
    }

    /**
     * 加载 hdfs 中 csv 文件内容
     * @param hdfsPath
     * @return
     */
    private Dataset<UserDTO> loadCsv(String hdfsPath) {

        // 自定义数据类型，也可以使用数据类型自动推断
        StructField nameField = DataTypes.createStructField("name", DataTypes.StringType, true);
        StructField ageField = DataTypes.createStructField("age", DataTypes.IntegerType, true);

        StructField[] fields = new StructField[2];
        fields[0] = nameField;
        fields[1] = ageField;
        StructType schema = new StructType(fields);

        return sparkSession
                .read()
                .schema(schema)
                .csv(hdfsPath)
                .map(new MapFunction<Row, UserDTO>() {
                    @Override
                    public UserDTO call(Row row) throws Exception {	
                        UserDTO dto = new UserDTO();
                        // 防止 npe 
                        if (!row.isNullAt(0)){
                            dto.setName(row.getString(0));
                        }
                        // 防止 npe 
                        if (!row.isNullAt(1)) {
                            dto.setAge(row.getInt(1));
                        }
                        return dto;
                    }
                }, Encoders.bean(UserDTO.class));
    }

    /**
     * 数据存储到 mysql
     * @param tableName 表名字
     * @param dataset 数据
     */
    private void saveToMySQL(String tableName,Dataset<Row> dataset){
        dataset
            .write()
            // 覆盖模式，原始数据会被覆盖掉，如果需要追加，换成 SaveMode.Append
            .mode(SaveMode.Overwrite)
            .format("jdbc")
            .option("url", "jdbc:mysql://10.8.0.4/test")
            .option("driver", "com.mysql.jdbc.Driver")
            .option("dbtable", tableName)
            .option("user", "root")
            .option("password", "q")
            .save();
    }
}

测试结果

单元测试通过

lte临时表数据验证通过

agg 临时表数据验证通过

你可能感兴趣的:(大数据,spark,spring,boot)

Spring的事务基础详解：从原理到实践的全面解析一切皆有迹可循 Java开发 spring 数据库 sql java 架构后端
前言事务管理是企业级应用开发中不可或缺的一部分，它确保数据操作的一致性和完整性。Spring框架提供了强大而灵活的事务管理机制，本文将深入探讨Spring事务的基础知识、实现方式及最佳实践。一、事务基本概念1.1事务的ACID特性原子性（Atomicity）：事务中的操作要么全部成功，要么全部失败一致性（Consistency）：事务执行前后数据保持一致状态隔离性（Isolation）：多个事务之
python内置函数——enumerate() Believer_abby python内置函数 python
说明：emumerate()函数用于将一个可遍历的序列（如列表，元组或字符串）组合为一个索引序列，同时列出数据和数据下标，一般用在for循环中。语法：enumerate(sequence,[start=0])参数：sequence：表示一个序列、迭代器或其他支持迭代的对象；start：下标起始位置，默认为0。使用：seasons=['spring','summer','fall','winter'
【SpringBoot初级篇】JdbcTemplate常用方法李少谦 spring boot 数据库 sql
【SpringBoot初级篇】JdbcTemplate常用方法JdbcTemplate查询JdbcTemplate插入、更新、删除插入单条数据批量插入更新单条数据批量更新删除单条数据批量操作execute执行任意的SQLNamedParameterJdbcTemplate函数场景说明update(Stringsql,@NullableObject…args)增，删，改queryForObject(
GlobalFilter、Filter关系 m0_63486540 java java
维度GlobalFilterFilter技术体系SpringCloudGateway+WebFluxJavaServletAPI编程模型响应式(Reactive)阻塞式(Imperative)作用范围全局（所有路由）可配置路径模式执行效率更高（基于事件循环）较低（线程池模型）配置方式SpringBean自动注册web.xml或@WebFilter如何选择？如果你正在开发API网关或微服务入口，使用
sa-token：我将代替你，Spring Security m0_63486540 java spring java 后端
Sa-Token是一个轻量级Java权限认证框架，主要解决：登录认证、权限认证、单点登录、OAuth2.0、分布式Session会话、微服务网关鉴权等一系列权限相关问题。Sa-Token旨在以简单、优雅的方式完成系统的权限认证部分，以登录认证为例，你只需要：//会话登录，参数填登录人的账号idStpUtil.login(10001);无需实现任何接口，无需创建任何配置文件，只需要这一句静态代码的调
Spring Boot 过滤器拦截器监听器后端springboot
Filter过滤器SpringBoot的过滤器用于对数据进行过滤处理。通过SpringBoot的过滤器，程序开发人员不仅可以对用户通过URL地址发送的请求进行过滤处理（例如，过滤一些错误的请求或者请求中的敏感词等），而且可以对服务器返回的数据进行过滤处理（例如，压缩响应信息等）。使用FilterRegistrationBean类实现过滤器实现过滤器类如果一个类实现了一个继承Filter接口的类，那
从0开始的Linux基础定偶 linux 服务器数据库
一、Linux文件系统核心特性层级式倒置树结构，以根目录/为起点统一资源管理方式（文件=目录=设备=socket等）关键目录说明/bin系统基础命令/boot引导程序/dev设备文件/etc配置文件/home用户家目录/lib系统库文件/proc运行时信息/usr应用安装目录/var动态数据/mnt临时挂载点/media外设挂载点/sbin管理员命令二、目录操作指令核心指令集指令功能常用选项示例p
Redis 集群与分布式实现：从原理到实战一切皆有迹可循 redis redis 分布式数据库后端缓存
前言在大数据与高并发场景下，单节点Redis的容量与可用性已无法满足需求。Redis通过集群与分布式技术，实现了数据的分片存储与高可用部署，成为分布式系统的核心组件。本文将深入解析Redis集群的底层原理、架构模式与实战经验，结合代码示例与最佳实践，帮助开发者构建高性能、高可用的分布式缓存系统。一、集群基础架构与核心原理1.数据分片机制Redis集群采用哈希槽（HashSlot）实现数据分片，共有
Spring Boot防盗链黑科技：三重防护+动态令牌，彻底封杀盗链攻击！
一、防盗链危机：为什么你的服务器流量在被偷？1.1盗链的危害全景图流量偷窃：某电商图片服务器年损失超1000万带宽成本服务器雪崩：突发盗链导致CPU飙升至90%，可用性下降60%版权失控：原创图片被竞品直接调用，品牌价值流失案例：某电商因未部署防盗链，竞品网站直接引用商品图，导致服务器成本激增300%。二、SpringBoot防盗链三重防护体系2.1层级1：Referer域名白名单拦截器//Ima
大数据未来发展的趋势与挑战倒霉男孩大数据
随着信息技术的飞速发展，大数据已经成为推动社会进步和产业变革的重要力量。从商业决策到医疗健康，从智慧城市到人工智能，大数据技术的应用无处不在。未来，随着5G、物联网（IoT）、人工智能（AI）等技术的深度融合，大数据的发展将迎来更广阔的空间，同时也面临诸多挑战。本文将探讨大数据未来的发展趋势、应用前景以及可能面临的问题。一、大数据未来的发展趋势数据量持续爆发式增长随着5G网络的普及和物联网设备的广
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
物联网实战：多语言（Java、Go、Rust、C++、C#、Rust）设备接入与数据处理 KENYCHEN奉孝 Rust C++go spring java vue.js rust c++
SpringBoot物联网设备接入与数据处理实例物联网（IoT）设备接入与数据处理是SpringBoot的常见应用场景之一。以下是一个完整的实例，涵盖设备接入、数据传输、数据处理和存储等关键环节。设备接入物联网设备通常通过MQTT、HTTP或WebSocket等协议接入系统。MQTT是物联网领域最常用的轻量级协议。//MQTT配置类@ConfigurationpublicclassMqttConf
Spring Boot——整合Redis 秋书一叶 SpringBoot redis spring boot java
SpringBoot整合Redis1.什么是Redis？2.Redis的特点3.什么是Springboot？4.SpringBoot整合Redis4.1下载和安装Redis-redis服务配置4.2Springboot导入依赖4.3配置Redis连接信息4.4创建Redis配置类4.5使用RedisTemplate或ReactiveRedisTemplate4.6通过注解整合5.示例5.1查询5.
基于springboot+mysql+jpa+html实现商品销售信息系统五星资源 spring boot mysql java
基于springboot+mysql+jpa+html实现商品销售信息系统一、系统介绍1、系统主要功能：2.涉及技术框架：3.本项目所用环境：二、功能展示三、其它系统四、获取源码一、系统介绍1、系统主要功能：订单管理模块商品管理模块品牌管理模块分类管理模块客户管理模块供应商管理模块2.涉及技术框架：web框架：SpringBoot数据库框架：SpingDataJPA数据库：MySql项目构建工具：
spring注解整合多大的心灵伤害吖 spring java
使用注解的优势：1.采用纯java代码，不在需要配置繁杂的xml文件2.在配置中也可享受面向对象带来的好处3.类型安全对重构可以提供良好的支持4.减少复杂配置文件的同时亦能享受到springIoC容器提供的功能一、注解详解（配备了完善的释义）------(可采用ctrl+F来进行搜索哦~~~~)@SpringBootApplication：申明让springboot自动给程序进行必要的配置，这个配
Docker：快速搭建 RabbitMQ 集群的技术指南拾荒的小海螺 DevOps docker rabbitmq 容器
1、简述RabbitMQ是目前最流行的开源消息中间件之一，广泛应用于解耦、异步通信、削峰填谷等场景。本篇博客将带你通过Docker快速搭建RabbitMQ集群，并展示SpringBoot集成的实践案例，助你高效入门RabbitMQ分布式消息系统。样例代码：https://gitee.com/lhdxhl/springboot-example.git2、搭建2.1准备工作首先安装Docker和Doc
RabbitMQ简单消息发送
RabbitMQ简单消息发送简单代码实现RabbitMQ消息发送需要的依赖org.springframework.bootspring-boot-starter-amqpx.x.x消息发送示例importcom.rabbitmq.client.Channel;importlombok.extern.slf4j.Slf4j;importorg.springframework.amqp.rabbit.
Spring Boot + ONNX Runtime模型部署
文章目录前言一、模型导出二、Java推理引擎选型三、SpringBoot实战3.1核心架构3.2分层架构详细实现1.Controller层-请求入口2.Service层-核心业务流程3.关键组件深度优化四、云原生部署：Docker+Kubernetes总结前言在AI浪潮席卷全球的今天，Java工程师如何守住后端主战场？模型部署正是Java工程师融入AI领域的方向。为什么Java工程师必须掌握模型部
大数据量下高并发同步的解决方案大师兄啊 sql 大数据量下高并发同步的解决方案
大数据量下高并发同步的讲解（不看，保证你后悔）对于我们开发的网站，如果网站的访问量非常大的话，那么我们就需要考虑相关的并发访问问题了。而并发问题是绝大部分的程序员头疼的问题，但话又说回来了，既然逃避不掉，那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧。为了更好的理解并发和同步，我们需要先明白两个重要的概念:同步和异步1、同步和异步的区别和联系所谓同步，可以理解为在执行完一个函数或
DolphinScheduler 6 个高频 SQL 操作技巧数据库
摘要：ApacheDolphinScheduler系列4-后台SQL经验分享关键词：大数据、数据质量、数据调度整体说明在调研了DolphinScheduler之后，在项目上实际使用了一段时间，有了一些后台SQL实际经验，分享如下。进入DolphinScheduler后台数据库，我这里使用的是MySQL数据库。以任务名称包含“ods_xf_act”的任务为例。一、修改任务组操作UPDATEt_ds_
Android 高通平台电池已调试好出货，客户要用新电池，驱动如何改用新增电池。 zzq1996 android elasticsearch 大数据
Android高通平台电池已调试好出货，客户又说要用新电池，驱动如何修改改用新增电池。开发云-一站式云服务平台Android高通平台按如下方法修改可以实现。+++b/kernel/arch/arm/boot/dts/batterydata-mtp-3900mah.dtsi@@-0,0+1,108@@+/*Copyright(c)2013,TheLinuxFoundation.Allrightsre
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
基于uniapp微信小程+SpringBoot+Vue的流浪动物救助领养系统设计和实现(源码+论文+部署讲解等)
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
java微服务-linux单机CPU接近100%优化 showker java 微服务 linux
你这个场景：4核16G机器同时运行了8个SpringBoot微服务，每个JAR文件100多MB导致CPU接近100%确实是一个常见但资源紧绷的部署情境。下面是分层的优化建议，包括JVM、系统、服务架构等多个方面，帮助你降CPU、稳运行、可扩展。✅一图总览优化路径（建议按优先级依次考虑）1.JVM调优←性价比最高，立即可做2.服务精简←观察是否可合并、拆分、延迟加载3.资源隔离←多台部署orDock
计算机专业毕业设计选题指南（2025创新版）程序员小天00 课程设计毕业设计小程序 python eclipse java
计算机专业毕业设计选题指南（2025创新版）一、选题方向全景图（按技术维度划分）智能服务系统开发技术架构：SpringBoot+Vue3+MySQL/MongoDB典型场景：●智慧校园：实验室预约系统、学术成果可视化平台●医疗健康：电子病历智能分析系统、慢性病管理助手●城市治理：垃圾分类智能识别系统、交通拥堵预测模型创新点：融合OCR识别/NLP技术，实现无感化服务跨平台应用开发技术选型：Unia
springboot项目中构建树结构数据返回两点王爷 java 数据结构数据处理 spring boot java 树结构
需要构建一个树结构返回（ID,PID），具体示例如下1、创建实体数据表--测试省份数据表DROPTABLEIFEXISTStest_province;CREATETABLEIFNOTEXISTStest_province(idBIGINT(32)NOTNULLAUTO_INCREMENTPRIMARYKEYCOMMENT'表ID',pidBIGINT(32)COMMENT'父级ID',nameVA
【Linux】Ubuntu设置root用户远程登录酒十六 Linux Linux ubuntu centos root ssh
1.修改root密码passwd2.打开此文件vim/etc/ssh/sshd_configwq保存退出3.重启机器，并使用root用户连接reboot
低代码平台架构设计 LINGYI_WEN 低代码前端开发语言
1.整体架构概述1.1技术栈选择前端：React+Redux/Vue+Vuex后端：Node.js+Express/SpringBoot数据库：MySQL/PostgreSQL/MongoDB云服务：AWS/Azure/GoogleCloud容器化：Docker+Kubernetes1.2模块划分前端模块：可视化编辑器：用于拖拽和配置组件预览器：实时预览页面效果发布器：将设计好的页面发布到生产环境
全响应式物联网平台（JetLinks） deepdata_cn IOT 物联网
JetLinks是一个基于Java8、SpringBoot2.x、WebFlux、Netty等开发的物联网基础平台，可用于快速建立物联网相关业务系统。JetLinks定位为PaaS服务的物联网平台，旨在降低物联网企业研发、运营和运维成本，提高物联网项目的落地能力。支持私有化或容器化以单机、集群或微服务的方式部署在任意平台服务器上，可横向拓展。能支持千万级设备连接、百万级数据并发，通过自研React
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found