迷雾总会解

Kudu-客户端API编程、生态整合(Spark、Flink、Impala)

文章目录

- Kudu客户端API编程
- - 客户端API核心类
  - Java编程接口
  - - 环境准备
    - 创建表
    - 插入数据
    - 查询数据
    - 修改表结构
    - 更新数据
    - 删除数据
    - 更新和插入
    - 删除表
- Hadoop生态整合
- - 整合概述
  - 集成Spark
  - - Spark shell中操作Kudu
    - 代码整合Kudu+Spark-项目准备
    - DDL
    - CUD
    - 批处理读写Kudu
    - 特别注意
  - 集成Flink
  - - 集成说明
    - 编译bahir-flflink
    - 项目准备
    - 批处理读写
    - 流处理写
  - 集成Impala
  - - 各组件之间的关系
    - 环境准备
    - 为什么整合Kudu+Impala
    - 怎么整合Kudu+Impala
    - 整合Kudu+Impala
    - Impala Shell中操作Kudu
    - 谓词下推

Kudu客户端API编程

客户端API核心类

Kudu提供了主流语言客户端API，核心类、方法是一致的，我们首先简要盘点下核心的这些类以便于我们写代码。

（1）Kudu client

AsyncKuduClient：完全异步且线程安全的Kudu客户端。该类应该只实例化一次，同时访问很多表。只有操纵多个不同集群才需要实例化多次。不会阻塞操作，可以关联回调函数用于操作完成时的动作。Builder模式创建。
KuduClient：对AsyncKuduClient的封装，同步执行、线程安全的Kudu客户端，Builder模式创建。

（2）Schema

表示表结构，主要是column的集合。该类提供了一些工具方法用于查询操作。

（3）ColumnSchema

表示一column，使用builder构建。

（4）CreateTableOptions

Builder模式类，用于创建表。

（5）KuduTable

表示集群上的一张表。含有当前表结构信息，隶属于特定AsyncKuduClient。

（6）Session

AsyncKuduSession：隶属于特定KuduClient，代表一个上下文环境，所有写操作都会在该上下文中进行。在一个session中，可以对多个操作按批处理方式执行，以获得较好的性能。每个session都可以设置超时、优先级以及跟踪id等信息。 session和KuduClient是独立的，主要是在多线程环境下，不同线程需要并发执行事务，事务的边界是基于每个session的BeginTransaction和commit之间的过程。来自于不同session的写操作不会组织到一个RPC请求batch中，意味着延迟敏感的客户端（低延迟）和面向吞吐量的客户端（高延迟）使用同一KuduClient，每个Session中可以设置特定的超时和优先级。
KuduSession：对AsyncKuduSession封装，同步执行，但非线程安全

（7）Insert/Update/Delete/Upsert

表示插入/更新/删除/插入或者更新操作，对象不可复用。

（8）PartialRow

表示一行的部分列。

（9）KuduScanner

扫描对象，用于条件查询及迭代获取结果集。

Java编程接口

环境准备

接下来我们只需要在pom.xml中导入相关依赖即可：

<properties> 
    <kudu.version>1.10.0kudu.version> 
    <junit.version>4.12junit.version> 
properties> 

<dependencies> 
     
    <dependency> 
        <groupId>org.apache.kudugroupId> 
        <artifactId>kudu-clientartifactId> 
        <version>${kudu.version}version> 
    dependency> 
     
    <dependency> 
        <groupId>org.slf4jgroupId> 
        <artifactId>slf4j-simpleartifactId> 
        <version>1.7.12version> 
    dependency> 
     
    <dependency> 
        <groupId>junitgroupId> 
        <artifactId>junitartifactId> 
        <version>${junit.version}version> 
        <scope>providedscope> 
    dependency> 
dependencies> 

 
<repositories> 
    <repository> 
        <id>cdh.repoid> 
        <name>Cloudera Repositoriesname>
        <url>https://repository.cloudera.com/content/repositories/releasesurl> 
        <snapshots> 
            <enabled>falseenabled> 
        snapshots> 
    repository> 
repositories>

代码骨架：

public class TestKudu { 
    public static void main(String[] args) { 
        System.out.println("hello kudu!");
    }
}

定义一个常量KUDU_MASTERS存放Kudu master的连接信息(根据自己的实际情况改为你的IP或者主机名)：

private static final String KUDU_MASTERS = "node01:7051,node02:7051,node03:7051";

创建表

执行结果：

@Test 
public void testCreateTable() throws KuduException { 
    //1、创建Schema 
    List<ColumnSchema> columns = new ArrayList<>(2); 
    columns.add(new ColumnSchema.ColumnSchemaBuilder("uid", Type.INT8) 
                .key(true) 
                .build()); 
    columns.add(new ColumnSchema.ColumnSchemaBuilder("name", 
                                                     Type.STRING).nullable(true) 
                .build()); 
    columns.add(new ColumnSchema.ColumnSchemaBuilder("age", Type.INT8).build()); 
    Schema schema = new Schema(columns); 
    //2、指定表选项 
    //2.1 建表选项 
    CreateTableOptions tableOptions = new CreateTableOptions(); 
    //2.2 创建分区字段列表(必须是主键列) 
    List<String> hashCls = new ArrayList<String>(); 
    hashCls.add("uid"); 
    int numBuckets = 6; 
    //2.3 分区策略 
    tableOptions.addHashPartitions(hashCls,numBuckets) 
        .setNumReplicas(1); 
    //3、创建KuduClient 
    KuduClient client=null; 
    try { 
        client=new KuduClient.KuduClientBuilder(KUDU_MASTERS).build(); 
        //4、创建表 
        if(!client.tableExists("users")){ 
            client.createTable("users", schema, tableOptions); 
            System.out.println(".........create table success........."); 
        }else{ 
            System.out.println(".........the table already exists ........."); 
        } 
    }finally { 
        //5、关闭资源 
        if(null!=client){ 
            client.shutdown(); 
        } 
    } 
}

插入数据

@Test 
public void testInsert() throws KuduException { 
    //1、获得kudu客户端 
    KuduClient client = null; 
    //2、打开表 
    KuduTable table = null; 
    //3、创建会话 
    KuduSession session = null; 
    try{
        client = new KuduClient 
            .KuduClientBuilder(KUDU_MASTERS) 
            .build(); 
        table = client.openTable("users") ; 
        session = client.newSession(); 
        session.setFlushMode(SessionConfiguration.FlushMode.AUTO_FLUSH_BACKGROUND); 
        session.setFlushInterval(2000); 
        //4、循环插入10行记录 
        for(int i = 0 ; i < 100 ; i ++){ 
            //新建Insert对象 
            Insert insert = table.newInsert() ; 
            PartialRow row = insert.getRow() ; 
            row.addByte("uid" , Byte.parseByte(i+"")); 
            //i是偶数 
            if(i % 2 == 0){ 
                row.setNull("name"); 
            }
            else{
                row.addString("name" , "name " + i); 
            }
            row.addByte("age",Byte.parseByte(i+"")); 
            //加入session 
            session.apply(insert) ; 
        }
        //5、关闭session 
        session.close() ; 
        //判断错误数 
        if(session.countPendingErrors() != 0){ 
            //获得操作结果 
            RowErrorsAndOverflowStatus result = session.getPendingErrors() ; 
            if(result.isOverflowed()){ 
                System.out.println("............buffer溢出!................."); 
            }
            RowError[] errs = result.getRowErrors() ; 
            for(RowError er : errs){ 
                System.out.println(er); 
            } 
        } 
    }finally { 
        if(null!=client){ 
            client.shutdown(); 
        } 
    } 
}

查询数据

@Test 
public void testSelect() throws KuduException { 
    //1、获得kudu客户端 
    KuduClient client = new KuduClient.KuduClientBuilder(KUDU_MASTERS).build(); 
    //2、打开表 
    KuduTable table = client.openTable("users") ; 
    //3、扫描器 
    KuduScanner scanner = null; 
    try {
        //4、获取表结构 
        Schema schema = table.getSchema() ; 
        //5、指定查询条件 
        List<String> projectColumns = new ArrayList<String>(2); 
        projectColumns.add("uid"); 
        projectColumns.add("name"); 
        projectColumns.add("age"); 
        //age >= 0 
        int lowerBound = 0; 
        KuduPredicate lowerPred = 
            KuduPredicate.newComparisonPredicate(schema.getColumn("age"), 
                                                 KuduPredicate.ComparisonOp.GREATER_EQUAL, lowerBound); 
        //age < 10 
        int upperBound = 10; 
        KuduPredicate upperPred = 
            KuduPredicate.newComparisonPredicate(schema.getColumn("age"), 
                                                 KuduPredicate.ComparisonOp.LESS, upperBound); 
        scanner = client.newScannerBuilder(table) 
            .setProjectedColumnNames(projectColumns) 
            .addPredicate(lowerPred) 
            .addPredicate(upperPred) 
            .build(); 
        int resultCount = 0; 
        while (scanner.hasMoreRows()) { 
            RowResultIterator results = scanner.nextRows(); 
            while (results.hasNext()) { 
                RowResult result = results.next(); 
                byte uid = result.getByte("uid"); 
                String name = null ; 
                if (result.isNull("name")) { 
                    name = "不存在" ; 
                }
                else{
                    name = result.getString("name") ; 
                }
                byte age = result.getByte("age"); 
                System.out.printf("uid=%d, name=%s, age=%drn" , uid 
                                  ,name,age); 
                resultCount++; 
            } 
        }
        System.out.println("-----------------------"+resultCount); 
        scanner.close() ; 
    }finally { 
        if(null!=client){ 
            client.shutdown(); 
        } 
    } 
}

修改表结构

@Test 
public void testAlterTable() throws Exception { 
    //1、获得kudu客户端 
    KuduClient client = null; 
    try {
        //2、修改表选项 
        AlterTableOptions ato = new AlterTableOptions() ; 
        ato.addColumn("wage" , Type.DOUBLE , 10000.000) ; 
        //3、修改表结构 
        client = new KuduClient.KuduClientBuilder(KUDU_MASTERS).build(); 
        if(client.tableExists("users")){ 
            client.alterTable("users" , ato) ; 
            System.out.println("........alterTable success.........."); 
        } 
    }finally { 
        //4、关闭资源 
        if(null!=client){ 
            client.shutdown(); 
        } 
    } 
}

修改完再次查询：

@Test 
public void testSelect2() throws KuduException { 
    //1、获得kudu客户端 
    KuduClient client = new KuduClient.KuduClientBuilder(KUDU_MASTERS).build(); 
    //2、打开表 
    KuduTable table = client.openTable("users") ; 
    //3、扫描器 
    KuduScanner scanner = null; 
    try {
        //4、获取表结构 
        Schema schema = table.getSchema() ; 
        //5、指定查询条件 
        List<String> projectColumns = new ArrayList<String>(2); 
        projectColumns.add("uid"); 
        projectColumns.add("name"); 
        projectColumns.add("age"); 
        projectColumns.add("wage"); 
        //age >= 0 
        int lowerBound = 0; 
        KuduPredicate lowerPred = 
            KuduPredicate.newComparisonPredicate(schema.getColumn("age"), 
                                                 KuduPredicate.ComparisonOp.GREATER_EQUAL, lowerBound); 
        //age < 10 
        int upperBound = 10; 
        KuduPredicate upperPred = 
            KuduPredicate.newComparisonPredicate(schema.getColumn("age"), 
                                                 KuduPredicate.ComparisonOp.LESS, upperBound); 
        scanner = client.newScannerBuilder(table) 
            .setProjectedColumnNames(projectColumns) 
            .addPredicate(lowerPred) 
            .addPredicate(upperPred) 
            .build(); 
        int resultCount = 0; 
        while (scanner.hasMoreRows()) { 
            RowResultIterator results = scanner.nextRows(); 
            while (results.hasNext()) { 
                RowResult result = results.next(); 
                byte uid = result.getByte("uid"); 
                String name = null ; 
                if (result.isNull("name")) { 
                    name = "不存在" ; 
                }
                else{
                    name = result.getString("name") ; 
                }
                byte age = result.getByte("age"); 
                double wage = result.getDouble("wage"); 
                System.out.printf("uid=%d, name=%s, age=%d, wage=%frn" , uid 
                                  ,name,age,wage); 
                resultCount++; 
            } 
        }
        System.out.println("-----------------------"+resultCount); 
        scanner.close() ; 
    }finally { 
        if(null!=client){ 
            client.shutdown(); 
        } 
    } 
}

更新数据

@Test 
public void testUpdate() throws Exception { 
    //1、获得kudu客户端 
    KuduClient client = null; 
    //2、打开表 
    KuduTable table = null; 
    //3、会话 
    KuduSession session = null; 
    try {
        client = new KuduClient.KuduClientBuilder(KUDU_MASTERS).build(); 
        table = client.openTable("users"); 
        session = client.newSession(); 
        //4、创建并执行update操作 
        Update update = table.newUpdate(); 
        PartialRow row = update.getRow(); 
        row.addByte("uid", Byte.parseByte("1"+"")); 
        row.addDouble("wage", 20000.000); 
        session.apply(update); 
        session.close(); 
    }finally { 
        //5、关闭资源 
        if(null!=client){ 
            client.shutdown(); 
        } 
    } 
}

删除数据

@Test 
public void testDelete() throws Exception { 
    //1、获得kudu客户端 
    KuduClient client = null; 
    //2、打开表 
    KuduTable table = null; 
    //3、会话 
    KuduSession session = null; 
    try {
        client = new KuduClient.KuduClientBuilder(KUDU_MASTERS).build(); 
        table = client.openTable("users"); 
        session = client.newSession(); 
        //4、新建并执行Delete操作 
        Delete delete = table.newDelete(); 
        //得到row 
        PartialRow row = delete.getRow(); 
        //where key = 0 
        row.addByte("uid", Byte.parseByte(3+"")); 
        session.apply(delete); 
        session.close(); 
    }finally { 
        //5、关闭资源 
        if(null!=client){ 
            client.shutdown(); 
        } 
    } 
}

更新和插入

@Test 
public void testUpsert() throws Exception { 
    //1、获得kudu客户端 
    KuduClient client = null; 
    //2、打开表 
    KuduTable table = null; 
    //3、会话 
    KuduSession session = null; 
    try {
        client = new KuduClient.KuduClientBuilder(KUDU_MASTERS).build(); 
        table = client.openTable("users"); 
        session = client.newSession(); 
        //4、upsert 
        Upsert upsert = table.newUpsert(); 
        PartialRow row = upsert.getRow(); 
        row.addByte("uid", Byte.parseByte(3+"")); 
        row.addString("name", "tomasLee"); 
        row.addByte("age", Byte.parseByte(35+"")); 
        row.addDouble("wage", 18000.000); 
        session.apply(upsert); 
        Upsert upsert1 = table.newUpsert(); 
        PartialRow row1 = upsert1.getRow(); 
        row1.addByte("uid", Byte.parseByte(1+"")); 
        row1.addByte("age", Byte.parseByte(8+"")); 
        row1.addDouble("wage", 15000.000); 
        session.apply(upsert1); 
        session.close(); 
    }finally { 
        //5、关闭资源 
        if(null!=client){ 
            client.shutdown(); 
        } 
    } 
}

注意：Upsert主键一样则更新，否则为新增，不能为空的字段必须提供值，否则不执行。

删除表

@Test 
public void testDeleteTable() throws KuduException { 
    //1、创建KuduClient 
    KuduClient client = null; 
    try { 
        client = new KuduClient.KuduClientBuilder(KUDU_MASTERS).build(); 
        //2、删除表 
        if(client.tableExists("users")){ 
            client.deleteTable("users"); 
            System.out.println("........delete table success.........."); 
        } 
    }finally { 
        //3、关闭资源 
        if(null!=client){ 
            client.shutdown(); 
        } 
    } 
}

其他语言编程接口

请参看官方exaples：https://github.com/apache/kudu/tree/master/examples

Hadoop生态整合

整合概述

Kudu除了支持高吞吐离线分析（类似HDFS）和高并发随机读写（类似HBase），还可以整合主流分布式计算框架进行离线运算和即系查询，常见整合方案如下：

根据上表的总结，大家可以结合自己业务实际情况去选择整合方式，没有好坏之分。

集成Spark

Spark shell中操作Kudu

在Spark shell中可以轻松操作Kudu，不过这种方式不常用，参考链接如下：

https://kudu.apache.org/releases/1.10.0/docs/developing.html#_kudu_integration_with_spark

代码整合Kudu+Spark-项目准备

（1）修改pom.xml，最中内容如下：

 
<project xmlns="http://maven.apache.org/POM/4.0.0" 
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
                             http://maven.apache.org/xsd/maven-4.0.0.xsd"> 
    <modelVersion>4.0.0modelVersion> 
    <groupId>com.djtgroupId> 
    <artifactId>kudu_tutorialartifactId> 
    <version>1.0-SNAPSHOTversion> 
    <properties> 
        <kudu.version>1.10.0kudu.version> 
        <junit.version>4.12junit.version> 
        <scala.version>2.11.8scala.version> 
        <spark.version>2.4.3spark.version> 
    properties> 
    <dependencies> 
         
        <dependency> 
            <groupId>org.scala-langgroupId> 
            <artifactId>scala-libraryartifactId> 
            <version>${scala.version}version> 
        dependency> 
         
        <dependency> 
            <groupId>org.apache.sparkgroupId> 
            <artifactId>spark-core_2.11artifactId> 
            <version>${spark.version}version> 
        dependency> 
        <dependency> 
            <groupId>org.apache.sparkgroupId> 
            <artifactId>spark-sql_2.11artifactId> 
            <version>${spark.version}version> 
        dependency> 
        <dependency> 
            <groupId>org.apache.sparkgroupId> 
            <artifactId>spark-hive_2.11artifactId> 
            <version>${spark.version}version> 
        dependency> 
         
        <dependency> 
            <groupId>org.apache.kudugroupId> 
            <artifactId>kudu-spark2_2.11artifactId> 
            <version>${kudu.version}version> 
        dependency> 
         
        <dependency> 
            <groupId>org.apache.kudugroupId> 
            <artifactId>kudu-clientartifactId> 
            <version>${kudu.version}version> 
        dependency> 
         
        <dependency> 
            <groupId>org.slf4jgroupId> 
            <artifactId>slf4j-simpleartifactId> 
            <version>1.7.12version> 
        dependency> 
         
        <dependency> 
            <groupId>junitgroupId> 
            <artifactId>junitartifactId> 
            <version>${junit.version}version> 
            <scope>providedscope> 
        dependency> 
    dependencies> 
    <build> 
        <plugins> 
            <plugin> 
                <groupId>org.apache.maven.pluginsgroupId> 
                <artifactId>maven-compiler-pluginartifactId> 
                <version>3.5.1version> 
                <configuration> 
                    <source>1.8source> 
                    <target>1.8target> 
                configuration> 
            plugin> 
            <plugin> 
                <groupId>net.alchim31.mavengroupId> 
                <artifactId>scala-maven-pluginartifactId> 
                <version>3.2.0version> 
                <executions> 
                    <execution> 
                        <goals> 
                            <goal>compilegoal> 
                            <goal>testCompilegoal> 
                        goals> 
                        <configuration> 
                            <args>
                                <arg>-dependencyfilearg> 
                                <arg>${project.build.directory}/.scala_dependenciesarg> 
                            args> 
                        configuration> 
                    execution> 
                executions> 
            plugin> 
            <plugin> 
                <groupId>org.apache.maven.pluginsgroupId> 
                <artifactId>maven-shade-pluginartifactId> 
                <version>2.4version> 
                <executions> 
                    <execution> 
                        <phase>packagephase> 
                        <goals> 
                            <goal>shadegoal> 
                        goals> 
                    execution> 
                executions> 
            plugin> 
        plugins> 
    build> 
     
    <repositories> 
        <repository> 
            <id>cdh.repoid> 
            <name>Cloudera Repositoriesname> 
            <url>https://repository.cloudera.com/content/repositories/releasesurl> 
            <snapshots> 
                <enabled>falseenabled> 
            snapshots> 
        repository> 
    repositories> 
project>

（2）准备数据文件

在项目根目录创建目录dataset，并把数据文件students100k放进去：

（3）准备代码骨架

跟java目录平行创建一个目录scala：

将scala目录设置为sources root：

创建Scala类com.djt.kudu.spark.KuduSparkDemo：

package com.djt.kudu.spark 
import org.junit.Test 
class KuduSparkDemo { 
    @Test 
    def test(): Unit = { 
        println("hello kudu spark!") 
    } 
}

直接运行能正常输出，项目就准备好了。

DDL

首先，我们定义一个常量KUDU_MASTERS存放Kudu master的连接信息：

//master连接信息 
val KUDU_MASTERS = "node01:7051,node02:7051,node03:7051"

接下来，我们创建case class Student，它的字段信息必须跟我们前面数据文件students100k相匹配：

case class Student(sid: Int, name: String, gender: String, age: Int, height: Float, weight: Float)

@Test 
def ddl(): Unit = { 
    // 1. SparkSession 
    val spark = SparkSession.builder() 
    .master("local[6]") 
    .appName("KuduSparkDemo") 
    .getOrCreate() 
    //2 创建 KuduContext 
    val kuduContext = new KuduContext(KUDU_MASTERS, spark.sparkContext) 
    //3、判断表是否存在, 如果存在则删除表 
    val TABLE_NAME = "students" 
    if (kuduContext.tableExists(TABLE_NAME)) { 
        kuduContext.deleteTable(TABLE_NAME) 
    }
    //4. 定义一张Kudu表：students
    //4.1 定义字段信息
    val schema = StructType( 
        List(
            StructField("sid", IntegerType, nullable = false), 
            StructField("name", StringType, nullable = false), 
            StructField("gender", StringType, nullable = false), 
            StructField("age", IntegerType, nullable = false), 
            StructField("height", FloatType, nullable = false), 
            StructField("weight", FloatType, nullable = false) 
        )
    )
    //4.2 定义主键(rowkey) 
    val keys = Seq("sid") 
    //4.3 定义分区信息 
    import scala.collection.JavaConverters._ 
    val numBuckets = 6 
    val options = new CreateTableOptions() 
    .addHashPartitions(List("sid").asJava,numBuckets) 
    .setNumReplicas(1) 
    //5. 创建一张Kudu表：students
    kuduContext.createTable(tableName = TABLE_NAME, 
                            schema = schema, 
                            keys = keys, 
                            options = options) 
    //6、关闭资源 
    spark.close() 
}

CUD

@Test 
def cud(): Unit = { 
    // 1、SparkSession 
    val spark = SparkSession.builder() 
    .master("local[6]") 
    .appName("KuduSparkDemo") 
    .getOrCreate() 
    //2、创建 KuduContext 
    val kuduContext = new KuduContext(KUDU_MASTERS, spark.sparkContext) 
    // 3. 增加 
    import spark.implicits._ 
    val df = Seq(Student(8, "王荣", "F", 19, 164.4f, 116.5f), Student(9, "李晓", 
                                                                    "F", 18, 174.4f, 126.5f)).toDF() 
    val TABLE_NAME = "students" 
    kuduContext.insertRows(df, TABLE_NAME) 
    // 4. 删除 
    kuduContext.deleteRows(df.select($"sid"), TABLE_NAME) 
    // 5. 增或改 
    kuduContext.upsertRows(df, TABLE_NAME) 
    // 6. 修改 
    kuduContext.updateRows(df, TABLE_NAME) 
    //7、关闭资源 
    spark.close() 
}

用如下命令以验证结果（换成自己的主机名或者IP）：

kudu table scan node01:7051,node02:7051,node03:7051 students

批处理读写Kudu

1）批量写

@Test 
def batchWrite(): Unit = { 
    // 1.SparkSession 
    val spark = SparkSession.builder() 
    .master("local[6]") 
    .appName("KuduSparkDemo") 
    .getOrCreate() 
    // 2.定义数据schema 
    val schema = StructType( 
        List(
            StructField("sid", IntegerType, nullable = false), 
            StructField("name", StringType, nullable = false), 
            StructField("gender", StringType, nullable = false), 
            StructField("age", IntegerType, nullable = false), 
            StructField("height", FloatType, nullable = false), 
            StructField("weight", FloatType, nullable = false) 
        ) 
    )
    // 3.从csv读取数据 
    val studentsDF = spark.read 
    .option("header", value = true) 
    .option("delimiter", value = "t") 
    .schema(schema) 
    .csv("dataset/students100k") 
    // 4.写入Kudu 
    val TABLE_NAME = "students" 
    studentsDF.write 
    .option("kudu.table", TABLE_NAME) 
    .option("kudu.master", KUDU_MASTERS) 
    .mode(SaveMode.Append) 
    .format("kudu") 
    .save() 
    //5.回收资源 
    spark.close() 
}

2）SQL分析(批量读)

@Test 
def batchRead(): Unit = { 
    // 1.SparkSession 
    val spark = SparkSession.builder() 
    .master("local[6]") 
    .appName("KuduSparkDemo") 
    .getOrCreate() 
    // 2.从kudu表读取数据到DataFrame 
    val TABLE_NAME = "students" 
    val studentsDF = spark.read 
    .option("kudu.table", TABLE_NAME) 
    .option("kudu.master", KUDU_MASTERS) 
    .format("kudu") 
    .load() 
    // 3.直接使用Spark API查询 
    //studentsDF.select("sid","name", "gender", "age").filter("sid >= 5 and sid<=10").show() 
    // 3.基于DataFrame创建临时视图(临时表) 
    studentsDF.createOrReplaceTempView("students") 
    // 4.执行sql查询 
    //val projectDF = spark.sql("select sid, name, gender, age from students where age <= 19 and height > 180") 

    val projectDF = spark.sql("select gender, count(), max(height) ,min(height), avg(height) from students where age <= 19 and height > 180 group by gender") 
    //5.打印结果 
    projectDF.show() 
    //6.关闭资源 
    spark.close() 
}

特别注意

每个集群避免多KuduClient

常见错误就是创建了多个KuduClient对象。在kudu-spark中，KuduClient对象由KuduContext所持有。对于同一kudu集群，不应该创建多个KuduClient对象，而是应该通过KuduContext访问KuduClient，方法为KuduContext.syncClient。
存在问题和限制
- Spark2.2+需要Java8支持，尽管Kudu Spark2.x兼容Java 7。Spark 2.2 默认依赖Kudu1.5.0。
- Kudu表如果包含大写或非ascii字符的话，注册临时表时需要指定其他的名字。
- 列名如果含有大写或非ascii字符的，不能在Spark SQL中使用，否则必须重命名。
- <>或or操作不会推送到kudu执行，而是最终由Spark的task来计算。只有以通配结尾的like运算才会推送到kudu执行，比如like foo%，但是like foo%bar则不会推送给Kudu。
- 并不是Spark SQL中的每种类型Kudu都支持，Date和Complex类型就不支持。
- Kudu表在Spark SQL中只能注册成临时表，不能使用HiveContext访问。

集成Flink

集成说明

在Spark和Flink先后崛起之后，开始与Hadoop生态中的各个组件整合（官方或者第三方）。Apache Bahir就是一个第三方项目，它对Spark和Flink进行扩展以便于它们整合其他组件（主要针对流处理）。

以下是Apache Bahir的官网：

http://bahir.apache.org/

Apache Bahir对Flink的支持以子项目bahir-flflink的方式提供，以下是它的github主页：

https://github.com/apache/bahir-flflink

我们就基于bahir-flflink来整合Kudu+Flink，目前支持：

批处理读和写
流处理写（流处理读一般只针对消息队列，对于存储流处理读意义不大）

编译bahir-flflink

bahir-flflink目前1.0版还没正式发布，刚到1.0-rc5，且不支持Kudu。1.1版开始支持Kudu，目前还在1.1-SNAPSHOT版（Kudu1.10.0和Flink1.9.0），因此我们需要自己编译，且一定要在Linux或者MacOS下编译：

编译并安装到maven本地仓库：

git clone https://github.com/apache/bahir-flink.git 
cd bahir-flink/ 
mvn -DskipTests -Drat.skip=true clean install

执行完之后，我们去maven本地仓库查看：

如果有些依赖包实在下载不下来导致编译不过的话，可以使用老师提供的编译好的包直接安装到maven本地仓库即可：

mvn install:install-file -DgroupId=org.apache.bahir -DartifactId=flink-connector-kudu_2.11 -Dversion=1.1-SNAPSHOT -Dpackaging=jar -Dfile=./flink-connector-kudu_2.11-1.1-SNAPSHOT.jar

项目准备

修改pom.xml，最终内容如下：

 
<project xmlns="http://maven.apache.org/POM/4.0.0" 
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
                             http://maven.apache.org/xsd/maven-4.0.0.xsd"> 
    <modelVersion>4.0.0modelVersion> 
    <groupId>com.djtgroupId> 
    <artifactId>kudu-tutorialartifactId> 
    <version>1.0-SNAPSHOTversion> 
    <properties> 
        <kudu.version>1.10.0kudu.version> 
        <junit.version>4.12junit.version> 
        <scala.version>2.11.8scala.version> 
        <spark.version>2.4.3spark.version> 
        <flink.version>1.9.0flink.version> 
        <flink-connector.version>1.1-SNAPSHOTflink-connector.version> 
    properties> 
    <dependencies> 
         
        <dependency> 
            <groupId>org.apache.bahirgroupId> 
            <artifactId>flink-connector-kudu_2.11artifactId> 
            <version>${flink-connector.version}version> 
        dependency> 
        <dependency> 
            <groupId>org.apache.flinkgroupId> 
            <artifactId>flink-streaming-java_2.11artifactId> 
            <version>${flink.version}version> 
            <scope>providedscope> 
        dependency> 
         
        <dependency> 
            <groupId>org.scala-langgroupId> 
            <artifactId>scala-libraryartifactId> 
            <version>${scala.version}version> 
        dependency> 
         
        <dependency> 
            <groupId>org.apache.sparkgroupId> 
            <artifactId>spark-core_2.11artifactId> 
            <version>${spark.version}version> 
        dependency> 
        <dependency> 
            <groupId>org.apache.sparkgroupId> 
            <artifactId>spark-sql_2.11artifactId> 
            <version>${spark.version}version> 
        dependency> 
        <dependency> 
            <groupId>org.apache.sparkgroupId> 
            <artifactId>spark-hive_2.11artifactId> 
            <version>${spark.version}version> 
        dependency> 
         
        <dependency> 
            <groupId>org.apache.kudugroupId> 
            <artifactId>kudu-spark2_2.11artifactId> 
            <version>${kudu.version}version> 
        dependency> 
         
        <dependency> 
            <groupId>org.apache.kudugroupId> 
            <artifactId>kudu-clientartifactId> 
            <version>${kudu.version}version> 
        dependency> 
         
        <dependency> 
            <groupId>org.slf4jgroupId> 
            <artifactId>slf4j-simpleartifactId> 
            <version>1.7.12version> 
        dependency> 
         
        <dependency> 
            <groupId>junitgroupId> 
            <artifactId>junitartifactId> 
            <version>${junit.version}version> 
            <scope>providedscope> 
        dependency> 
    dependencies> 
    <build> 
        <plugins> 
            <plugin> 
                <groupId>org.apache.maven.pluginsgroupId> 
                <artifactId>maven-compiler-pluginartifactId> 
                <version>3.5.1version> 
                <configuration> 
                    <source>1.8source> 
                    <target>1.8target> 
                configuration> 
            plugin> 
            <plugin> 
                <groupId>net.alchim31.mavengroupId> 
                <artifactId>scala-maven-pluginartifactId> 
                <version>3.2.0version> 
                <executions> 
                    <execution> 
                        <goals> 
                            <goal>compilegoal> 
                            <goal>testCompilegoal> 
                        goals> 
                        <configuration> 
                            <args>
                                <arg>-dependencyfilearg> 
                                <arg>${project.build.directory}/.scala_dependenciesarg> 
                            args> 
                        configuration> 
                    execution> 
                executions> 
            plugin> 
            <plugin> 
                <groupId>org.apache.maven.pluginsgroupId> 
                <artifactId>maven-shade-pluginartifactId> 
                <version>2.4version> 
                <executions> 
                    <execution> 
                        <phase>packagephase> 
                        <goals> 
                            <goal>shadegoal> 
                        goals> 
                    execution> 
                executions> 
            plugin> 
        plugins> 
    build> 
     
    <repositories> 
        <repository> 
            <id>cdh.repoid> 
            <name>Cloudera Repositoriesname> 
            <url>https://repository.cloudera.com/content/repositories/releasesurl> 
            <snapshots> 
                <enabled>falseenabled> 
            snapshots> 
        repository> 
    repositories> 
project>

骨架代码：

package com.djt.kudu.flink; 
public class KuduFlinkDemo { 
    public static void main(String[] args) { 
        System.out.println("hello kudu flink!"); 
    } 
}

运行能正常输出就OK了。

批处理读写

（1）批处理读

批处理读需要开启Kudu安全，这里就不做演示了。

批处理读使用KuduInputFormat，代码如下：

@Test 
public void testBatchRead() throws Exception { 
    //1、初始化执行环境 
    ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 
    env.setParallelism(3); 
    //2、构建数据处理逻辑(输入-->处理--输出) 
    //2.1 输入(读取kudu的students表) 
    //a、创建KuduReaderConfig 
    KuduReaderConfig kuduReaderConfig = KuduReaderConfig.Builder 
    .setMasters(KUDU_MASTERS) 
    .build(); 
    //b、创建KuduTableInfo 
    KuduTableInfo tableInfo = KuduTableInfo.Builder 
    .create("students") 
    .replicas(1) 
    .addColumn(KuduColumnInfo.Builder.create("sid", 
                                             Type.INT32).key(true).hashKey(true).build()) 
    .addColumn(KuduColumnInfo.Builder.create("name", Type.STRING).build()) 
    .addColumn(KuduColumnInfo.Builder.create("gender", Type.STRING).build()) 
    .addColumn(KuduColumnInfo.Builder.create("age", Type.INT32).build()) 
    .addColumn(KuduColumnInfo.Builder.create("height", Type.FLOAT).build()) 
    .addColumn(KuduColumnInfo.Builder.create("weight", Type.FLOAT).build()) 
    .build(); 
    //c、创建反序列化器KuduDeserialization 
    KuduDeserialization serDe = new PojoSerDe(Student.class); 
    //d、组装过滤条件 
    List<KuduFilterInfo> tableFilters = new ArrayList<>(); 
    tableFilters.add(KuduFilterInfo.Builder.create("age").greaterThan(18).build()); 
    tableFilters.add(KuduFilterInfo.Builder.create("age").lessThan(20).build()); 
    //e、指定要返回的列 
    List<String> tableProjections = Arrays.asList("sid", "age"); 
    //f、组装KuduInputFormat 
    DataSet<Student> result = env.createInput(new KuduInputFormat(kuduReaderConfig, tableInfo, serDe, new ArrayList<>(), tableProjections), TypeInformation.of(Student.class)); 
    //2.2 处理(包含输出) 
    result.count(); 
    //3、执行job(延迟执行) 
    env.execute(); 
}

（2）批处理写

@Test 
public void testBatchWrite() throws Exception { 
    //1、初始化执行环境 
    ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 
    env.setParallelism(3); 
    //2、构建数据处理逻辑(输入-->处理--输出) 
    //2.1 输入 
    DataSet<Student> originData= env.readCsvFile("dataset/students100k") 
    .fieldDelimiter("t") 
    .ignoreFirstLine() 
    .ignoreInvalidLines() 
    .pojoType(Student.class,"sid","name","gender","age","height","weight"); 
    //2.2 处理(咱们不处理) 
    //2.3 输出(kudu 表) 
    //a、创建KuduWriterConfig 
    KuduWriterConfig writerConfig=KuduWriterConfig.Builder 
    .setMasters(KUDU_MASTERS) 
    .setWriteMode(KuduWriterMode.UPSERT) 
    .setConsistency(SessionConfiguration.FlushMode.AUTO_FLUSH_BACKGROUND) 
    .build(); 
    //b、创建KuduTableInfo 
    KuduTableInfo tableInfo = KuduTableInfo.Builder 
    .create("students1") 
    .replicas(1) 
    .addColumn(KuduColumnInfo.Builder.create("sid", 
                                             Type.INT32).key(true).hashKey(true).build()) 
    .addColumn(KuduColumnInfo.Builder.create("name", Type.STRING).build()) 
    .addColumn(KuduColumnInfo.Builder.create("gender", Type.STRING).build()) 
    .addColumn(KuduColumnInfo.Builder.create("age", Type.INT32).build()) 
    .addColumn(KuduColumnInfo.Builder.create("height", Type.FLOAT).build()) 
    .addColumn(KuduColumnInfo.Builder.create("weight", Type.FLOAT).build()) 
    .build(); 
    //c、创建KuduSerialization 
    KuduSerialization serDe=new PojoSerDe(Student.class); 
    //d、装配KuduOutputFormat 
    originData.output(new KuduOutputFormat(writerConfig, tableInfo, serDe)); 
    //3、执行job(延迟执行) 
    env.execute(); 
}

流处理写

直接使用KuduSink：

@Test 
public void testKuduSink() throws Exception { 
    List<Student> list = Arrays.asList( 
        new Student(1, "张三", "F", 19, 176.3f, 134.4f), 
        new Student(2, "李四", "F", 20, 186.3f, 154.8f) 
    );
    //1、初始化执行环境 
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); 
    env.setParallelism(3); 
    //2、构建数据处理逻辑(输入-->处理--输出) 
    //2.1 输入 
    DataStream<Student> originData = env.fromCollection(list); 
    //2.2 处理(咱们不处理) 
    //2.3 输出(kudu 表) 
    //a、创建KuduWriterConfig 
    KuduWriterConfig writerConfig=KuduWriterConfig.Builder 
    .setMasters(KUDU_MASTERS) 
    .setWriteMode(KuduWriterMode.UPSERT) 
    .setConsistency(SessionConfiguration.FlushMode.AUTO_FLUSH_BACKGROUND) 
    .build(); 
    //b、创建KuduTableInfo 
    KuduTableInfo tableInfo = KuduTableInfo.Builder 
    .create("students1") 
    .replicas(1) 
    .addColumn(KuduColumnInfo.Builder.create("sid", 
                                             Type.INT32).key(true).hashKey(true).build()) 
    .addColumn(KuduColumnInfo.Builder.create("name", Type.STRING).build()) 
    .addColumn(KuduColumnInfo.Builder.create("gender", Type.STRING).build()) 
    .addColumn(KuduColumnInfo.Builder.create("age", Type.INT32).build()) 
    .addColumn(KuduColumnInfo.Builder.create("height", Type.FLOAT).build()) 
    .addColumn(KuduColumnInfo.Builder.create("weight", Type.FLOAT).build()) 
    .build(); 
    //c、创建KuduSerialization 
    KuduSerialization serDe=new PojoSerDe(Student.class); 
    //d、装配KuduSink 
    originData.addSink(new KuduSink(writerConfig,tableInfo,serDe)); 
    //3、执行job(延迟执行) 
    env.execute(); 
}

集成Impala

各组件之间的关系

Kudu整合Impala依赖很多组件，这里有一张组件关系图如下：

通过上图我们分析结论如下：

impala依赖Hive
Hive依赖Hadoop
Hive依赖MySQL存储元数据
Hadoop依赖Zookeeper
基本都离不开JDK

因此，相关组件我们需要先安装。

环境准备

部署规划方案是：

具体安装省略。

为什么整合Kudu+Impala

Kudu作为高性能的分布式存储同时兼具HDFS和HBase的能力确实能够解决很多业务问题，但是Kudu没有SQL语法支持限制它的使用门槛，因此 Cloudra官方专门把Impala和Kudu做了整合，因此他们的分工是：

Kudu负责存储
Impala负责计算（用SQL语法分析存储在Kudu表里的数据）

Impala对外支持两种场景：

基于Impala替代Kudu API开发上层应用（可以但不推荐）
Impala作为中间层提供JDBC/ODBC跟上层BI或者其他框架整合（推荐）

怎么整合Kudu+Impala

何为整合？让Impala认识并能操作Kudu中的表（内部表/外部表均可）：

Kudu跟Impala的整合非常简单，可总结为两点：

Kudu这边什么配置都不用改，它就等着Impala来访问
Impala那边有两种方式来访问Kudu

方式一：每次在Impala中建内部表/外部表时指定Kudu Master（不推荐）

例如：
```
CREATE EXTERNAL TABLE `users` STORED AS KUDU 
TBLPROPERTIES( 
'kudu.table_name' = 'users', 
'kudu.master_addresses' = 'node01:7051,node02:7051,node03:7051') 
```
方式二：在Impal的默认配置中指定Kudu Master+内部表/外部表：

在/etc/default/impala中指定：
```
--kudu_master_hosts=<master1>[:port],<master2>[:port],<master3>[:port]
```

整合Kudu+Impala

（1）配置Kudu Master地址

在Impala中配置Kudu Master地址（所有节点）：

sudo vi /etc/default/impala

在 IMPALA_SERVER_ARGS 下添加如下配置：

--kudu_master_hosts=<master1>[:port],<master2>[:port],<master3>[:port]

（2）重启所有Impala服务

node01重启state-store和catalog：

sudo service impala-state-store restart 
sudo service impala-catalog restart

node02和node03上重启impala-server：

sudo service impala-server restart

Impala Shell中操作Kudu

（1）登录Impala-shell

我们在node01上安装了impala-shell，因此在node01上执行如下命令：

impala-shell -i node02:21000

这时就进入了impala-shell：

（2）表映射

Impala可以操作很多表：

Kudu表
HBase表
Hive表（各种存储格式：Text、ORC、Parquet等等）
等等

Impala要想操作Kudu表，有两种方式：

外部表

所谓外部表是指Kudu那边已经建好表了，我们把Kudu表映射为一张Impal表即可，删除表时只删映射关系，Kudu那边的表还在。以前面创建的表students1为例，只需要在impala-shell中创建一个外部表即可：
```
CREATE EXTERNAL TABLE `students1` STORED AS KUDU 
TBLPROPERTIES( 
    'kudu.table_name' = 'students1'); 
```
或者在指定数据库下创建外表：
```
CREATE DATABASE IF NOT EXISTS test; 
CREATE EXTERNAL TABLE test.users STORED AS KUDU 
TBLPROPERTIES( 
    'kudu.table_name' = 'users'); 
```

内部表

所谓内部表，它跟外部表正好相反，是指在Impala中创建一张表存储为Kudu格式，例如：

CREATE TABLE my_first_table 
( 
    id BIGINT, 
    name STRING, 
    PRIMARY KEY(id) 
)
PARTITION BY HASH PARTITIONS 16 
STORED AS KUDU 
TBLPROPERTIES ('kudu.num_tablet_replicas' = '1');

这时他会自动在Kudu中也创建一个表：

注意：删除内部表，Kudu中的表是会删除的。

（3）查询

查询就是SQL语法，大家可以自行尝试，例如：

select gender, count(), max(height) ,min(height), avg(height) from students1 where age <= 19 and height > 180 group by gender;

查询结果：

（4）DML

插入数据：

#单行插入 
INSERT INTO my_first_table VALUES (1, "zhangsan"); 
select  from my_first_table;

#多行插入 
INSERT INTO my_first_table VALUES (2, "lisi"), (3, "wangwu"), (4, "zhaoliu"); 
select  from my_first_table;

CREATE TABLE test2 
( 
    id BIGINT, 
    name STRING, 
    PRIMARY KEY(id) 
)
PARTITION BY HASH PARTITIONS 6
STORED AS KUDU 
TBLPROPERTIES ('kudu.num_tablet_replicas' = '1'); 

select  from test2; 

#从其它表批量导入 
INSERT INTO test2 SELECT  FROM my_first_table; 
select  from my_first_table;

更新数据：

#更新 
UPDATE my_first_table SET name="张三" where id =1 ; 
select  from my_first_table;

删除数据：

delete from my_first_table where id =3; 
select  from my_first_table;

（5）更改表属性

1）重命名impala内部表：

ALTER TABLE my_first_table RENAME TO person; 
show tables;

Kudu那边的表也跟着改名了：

2）重命名impala外部表：

ALTER TABLE students1 RENAME TO stus; 
show tables;

Kudu那边的表名不会跟着改变（只是改了映射）：

3）将外部表重新映射kudu表

ALTER TABLE external_table 
SET TBLPROPERTIES('kudu.table_name' = 'xxx')

4）将内部表改为外部表

ALTER TABLE my_table SET TBLPROPERTIES('EXTERNAL' = 'TRUE');

谓词下推

所谓谓词简单理解就是SQL的where字句中的条件判断，Impala的原理就是读取Kudu表的数据然后进行计算，如果谓词能够下推到Kudu中去执行则返回给Impala的数据将会很小，性能将大幅提升。目前：

支持下推的谓词： = , <= , < , > , >= , BETWEEN , IN
不支持下推的谓词： != , LIKE , 或者Impala中的其他谓词

你可能感兴趣的:(大数据,数据库,spark,flink,大数据,kudu,impala)

C语言哈希表 niubikls c语言哈希算法数据结构开发语言单片机
哈希表（HashTable）是一种高效的数据结构，用于实现快速的数据查找、插入和删除操作。哈希表通过将关键字（Key）映射到表中的位置（索引），实现近似常数时间的操作效率。哈希表在许多应用中广泛使用，如数据库索引、缓存系统、编译器符号表等。本文将详细介绍如何使用C语言实现哈希表，包括基本概念、哈希函数、冲突处理方法、基本操作、示例代码及其优缺点。哈希表的基本概念定义哈希表是一种通过哈希函数将关键字
Python爬虫基础知识：从零开始的抓取艺术 egzosn python 爬虫开发语言
在大数据时代，网络数据成为宝贵的资源，而Python爬虫则是获取这些数据的重要工具。本文旨在为初学者提供一份Python爬虫的入门指南，涵盖基础知识、常用库介绍、实战案例以及注意事项，帮助你快速上手，成为一名合格的“网络矿工”。一、Python爬虫概述1.1什么是爬虫？爬虫，也称为网络爬虫或蜘蛛，是一种自动抓取互联网信息的程序。它通过模拟人类浏览网页的行为，自动地遍历和抓取网络上的数据，常用于数据
Oracle多租户体系,使用Oracle数据库综合的多租户架构.pdf weixin_39792751 Oracle多租户体系
DatabaseConsolidationusingOracleMultitenantPiniDibask,ProductManagerforDatabaseSolutionsOctober1st,2017AboutMe•PiniDibask,ProductManager,DatabaseMonitoringSolutions(Quest)•BasedinIsrael•OracleDBAsince
Oracle SQL Developer：数据库开发与数据管理的利器 2401_85812026 oracle sql 数据库开发
在数据库管理和开发领域，拥有一个强大而灵活的工具是至关重要的。OracleSQLDeveloper是Oracle公司提供的一个免费集成开发环境，它专为数据库开发、管理和数据建模而设计。本文将详细介绍OracleSQLDeveloper的功能、特点以及如何使用它来执行数据库任务，包括编写和执行SQL语句、数据建模和数据库管理。1.什么是OracleSQLDeveloperOracleSQLDevel
煤矿数据处理：日数据与月数据的协同更新（Mysql）漏刻有时 mysql android
项目需求该项目围绕煤矿数据处理展开，主要需求可归纳为数据存储与更新两方面：数据存储：建立两个MySQL数据库表，daily_data用于存储每日煤矿车次重量数据，包含id（自增主键）、date（日期）、coal_mine（煤矿名称）、weight（重量）字段；monthly_data用于存储每月各煤矿销量汇总数据，包含id（自增主键）、year_month（年月）、coal_mine（煤矿名称）、
探索Oracle数据库的多租户特性：架构、优势与实践 2401_85812026 数据库 oracle 架构
在云计算和大数据时代，多租户架构成为数据库设计中的一个重要趋势。Oracle数据库的多租户选项（Multitenant）允许单个数据库实例支持多个独立数据库（称为容器数据库和可插拔数据库），每个数据库都有自己的数据、配置和资源。这种设计提高了资源利用率、简化了数据库管理，并增强了安全性。本文将深入探讨Oracle多租户选项的架构、优势以及如何在实际环境中部署和使用。1.多租户选项概述Oracle多
MySQL 数据库实验二 GG-BY 数据库 mysql sql
课题：实验二数据库和表的管理*目的要求：1.了解MySQL数据库的逻辑结构和物理结构的特点。2.学会使用SQL语句创建、选择、删除数据库。3.学会使用SQL语句创建、修改、删除表。4.学会使用SQL语句对表进行插入、修改和删除数据操作。5.了解MySQL的常用数据类型。教学内容：SQL语句创建、选择、删除数据库。SQL语句创建、修改、删除表。SQL语句对表进行插入、修改和删除数据操作。重点难点建库
java JDBC操作Mysql解析一只肥瘫瘫 java java mysql 数据库
一.概念：JavaDataBaseConnectivityJava数据库连接，Java语言操作数据库。JDBC本质：其实是官方（sun公司）定义的一套操作所有关系型数据库的规则，即接口。各个数据库厂商去实现这套接口，提供数据库驱动jar包。我们可以使用这套接口（JDBC）编程，真正执行的代码是驱动jar包中的实现类。二.操作步骤：1.导入驱动jar包2.注册驱动3.获取数据库连接对象Connect
MYSQL 数据库草莓不吃熊 mysql 数据库 java
MySql数据库特点1、开源数据库，不需要支付额外费用，项目上云首选；2、关系型数据库，支持多条件场景查询；3、支持多种存储引擎；MySql数据库语句执行步骤1）创建连接，验证用户是否可进行数据库操作2）查询缓存，若sql语句存在缓存则直接返回缓存结果3）当不存在缓存结果时，分析sql语句语法，4）优化sql语句，寻找最优的查询方案4）查询数据返回结果MySql数据库select语句执行顺序第一步
「大数据」Kappa架构吴维炜 AIGC架构设计师大数据架构 kappa AIGC
Kappa架构是一种处理大数据的架构，它作为Lambda架构的替代方案出现。Kappa架构的核心思想是简化数据处理流程，通过使用单一的流处理层来同时处理实时和批量数据，从而避免了Lambda架构中需要维护两套系统（批处理层和速度层）的复杂性。核心功能：单一处理层：Kappa架构使用单一的流处理层来处理所有数据，无论是实时数据还是批量数据。数据重放：通过重放历史数据，Kappa架构能够重新计算出与批
MySQL数据库安全关了个尔 mysql 数据库网络安全 web安全
文章目录前言一、MySQL二、数据库安全1.基础概念2.数据库安全目标3.数据库安全防护技术4.影响数据库安全的因素三、数据库系统安全相关因素1、外围网络2、主机3、数据库4、代码补充：sql注入四、保障MySQL安全的方法总结前言无论是对于企业还是个人，数据库中所保存数据的安全性是尤其重要的。尤其是对于公司企业等来讲，其商业数据往往带有着巨大的价值。本文对MySQL数据库安全做了一些介绍。一、M
MySQL：从新手到专家的进阶指南秦志鹏2 mysql 数据库
引言在当今数据驱动的世界里，高效管理数据的能力对于企业和个人来说至关重要。MySQL，作为一款开源的关系型数据库管理系统，因其强大的功能、灵活性和广泛的社区支持，成为了数据库领域的明星。无论你是刚接触数据库的新手，还是寻求技能提升的中级开发者，本文都将带你深入了解MySQL，从基础入门到高级特性，逐步成长为MySQL的专家。第一部分：MySQL基础入门1.安装与配置安装教程：首先，访问MySQL官
新零售社交电商系统小程序功能开发详细解析 v.15889726201 零售小程序
现在的购物方式是越来越有趣了，新零售社交电商系统是互联网、大数据、人工智能的技术和咱们熟悉的传统零售深度结合后产生的。它整合线上线下渠道及数据，带来全方位、多渠道、个性化购物体验。借助实时库存管理、智能推荐和无缝购物体验等功能，打破传统电商与实体店界限，其具备以下显著特点：一、系统主要功能分销管理独家推广代码机制：在这个新零售社交电商系统里，每个经销商都有一个只属于自己的推广代码。把这个代码分享给
MongoDB 学习指南：深入探索非关系型数据库来恩1003 MongoDB mongodb nosql 数据库
MongoDB学习资料MongoDB学习资料MongoDB学习资料在当今数字化时代，数据量呈爆炸式增长，数据结构也变得愈发复杂多样。传统的关系型数据库在处理一些大规模、高并发以及非结构化数据时，逐渐显露出局限性。而MongoDB作为一款领先的非关系型数据库，凭借其灵活的数据模型、出色的扩展性和强大的性能，迅速在众多领域得到广泛应用。无论是新兴的互联网企业，还是传统的金融、医疗等行业，都能看到Mon
【前端面试】深入了解Node.js基础贾明恣前端面试 node.js
前端与node.jsNode.js不是一门语言也不是框架，而是JavaScript运行时环境。基于GoogleV8引擎、同时它通过封装和抽象操作系统提供的底层功能，以及使用Libuv等c++/c的核心模块，扩展了JavaScript功能，使得JavaScript能够同时具有DOM操作(浏览器)和I/O、文件读写、操作数据库(服务器端)……能力，是目前最简单的全栈式语言。前端开发者经常需要安装Nod
spark 算子例子_Spark性能调优方法不让爱你的人失望 spark 算子例子
公众号后台回复关键词：pyspark，获取本项目github地址。Spark程序可以快如闪电⚡️，也可以慢如蜗牛?。它的性能取决于用户使用它的方式。一般来说，如果有可能，用户应当尽可能多地使用SparkSQL以取得更好的性能。主要原因是SparkSQL是一种声明式编程风格，背后的计算引擎会自动做大量的性能优化工作。基于RDD的Spark的性能调优属于坑非常深的领域，并且很容易踩到。我们将介绍Spa
Spark性能调优大数据侠客 spark相关问题汇总及解决 spark 性能调优
1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更
java搜索框架_搜索引擎框架介绍 weixin_39568926 java搜索框架
一、搜索引擎基础介绍二、常见搜索引擎框架介绍与比较三、参考文章一、搜索引擎基础介绍1.什么是搜索引擎搜索引擎，通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后，这些结果将
java搜索引擎框架_搜索引擎框架介绍君子Python java搜索引擎框架
原标题：搜索引擎框架介绍一、搜索引擎基础介绍1.什么是搜索引擎搜索引擎，通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后，这些结果将按照与搜索关键词的相关度高低(或与相关
在AWS上使用KMS客户端密钥加密S3文件，同时支持PySpark读写和Snowflake导入 weixin_30777913 python spark 大数据云计算数据仓库
现有AWSEMR集群上运行PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库也需要导入S3上的文件到表。现在要用AWSKMS有客户端密钥加密S3上的文件，同时允许PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库导入S3上的文件到表。为了实现AWSEMR上的PySpark读写KMS加密的S3文件，并让Snowflake导入这些文件，请按照以下步骤操作：一
11 Spark面试真题 TTXS123456789ABC #Spark spark 面试大数据
11Spark大厂面试真题1.通常来说，Spark与MapReduce相比，Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制？2.hadoop和spark使用场景？3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点？5.RDD持久化原理？6.checkpoint检查点机制？7.checkpoint和持久化机制的区别？8.RDD机制理解吗？9.Spa
Python学习-九大数据类型整合，详细讲解小伙儿. Python python 开发语言学习
目录1.int(整型)2.float(浮点型)3.Bool(布尔类型)4.Str(字符串类型)5.None(空值)6.List(列表)7.Tuple(元组)8.Dict(字典)9.Set(集合)（字典，列表，元组，字符串知识点可能不全，可以参考本人之前发的博客进行学习，加油。）1.int(整型)特点和用途：1.可以表示正整数、负整数和零，没有小数部分。2.取值范围取决于您所使用的Python版本和
[碎碎念] 重启学习与博客之旅-我的每日计划言午coding 碎碎念碎碎念
好久没在写博客了，今天我下定决心，要重新开始。我给自己定了个小目标，从今天起，每天都要写一篇博客，然后发布到CSDN和掘金上。以下是我的计划。一、每天学点新东西以后每天早上，我都得抽出至少一个小时专门用来学新技术。我打算先列个学习清单，把一直想学但没时间学的技术都写上去，然后按照自己的兴趣和工作需要，一项一项地去攻克。比如说，我最近对人工智能和大数据分析特别感兴趣，所以打算每天看点相关的专业书，或
【数据库】Oracle 骑鱼过海的猫123 数据库 oracle
文章目录1.批量更新1.批量更新这种方式将所有更新操作放在一个事务中执行，减少了与数据库的交互次数，从而可能提高性能。此外，事务处理还可以确保数据的一致性和完整性。begin;updatemytablesetSTATE='102',STATE_DATE=now()whereid='2104206238';end;updatemytable;setSTATE=#{student.state,jdbc
数据库查询优化：提升性能的关键实践
title:数据库查询优化：提升性能的关键实践date:2025/1/30updated:2025/1/30author:cmdragonexcerpt:在当今数据驱动的商业环境中，数据库的性能直接影响着应用程序的响应速度和用户体验。查询优化是性能调优的重要组成部分，通过对SQL查询的分析与改进，减少查询执行时间和资源消耗，从而提升整体系统效率。categories:前端开发tags:查询优化数据
hibernate二级缓存
Hibernate二级缓存深度解析与技术实践核心原理与工作流程Hibernate二级缓存通过SessionFactory层建立全局数据缓冲区，采用分层存储机制实现数据库访问优化。其工作流程分为4个阶段：1️⃣查询请求到达时优先检查缓存区域2️⃣命中缓存则直接返回持久化对象3️⃣未命中时执行数据库查询并更新缓存4️⃣数据变更时同步更新缓存状态️主流缓存方案对比（中国开发者常用）特性Ehcache3.
用一个例子详细说明python单例模式 hunter206206 python python
单例模式是一种设计模式，它确保一个类只有一个实例，并提供一个全局访问点来访问该实例。这在需要控制资源（如数据库连接、文件系统等）的访问时非常有用。下面是一个使用Python实现单例模式的例子：classSingleton:_instance=Nonedef__new__(cls,*args,**kwargs):ifnotcls._instance:cls._instance=super(Singl
【go语言】gorm 快速入门加油，旭杏 Go语言数据库
一、orm1.1什么是ormORM（对象关系映射，Object-RelationalMapping）是一种程序设计技术，用于在关系型数据库和面向对象编程语言之间进行转换和映射。ORM允许开发者通过面向对象的方式与数据库交互，而无需直接编写复杂的SQL查询语句。1.1.1主要概念对象与表的映射：ORM将数据库中的表映射为程序中的对象，将表中的每一行映射为一个对象实例的属性。每个对象实例代表数据库中的
Java 性能优化与新特性来恩1003 Java 从入门到精通 java
Java学习资料Java学习资料Java学习资料一、引言Java作为一门广泛应用于企业级开发、移动应用、大数据等多个领域的编程语言，其性能和特性一直是开发者关注的重点。随着软件系统的规模和复杂度不断增加，对Java程序性能的要求也越来越高。同时，Java语言也在不断发展，每个版本都引入了许多新特性，这些新特性不仅提高了开发效率，还改善了代码的可读性和可维护性。本文将分别介绍Java性能优化的方法和
基于Python的携程旅游景点数据分析与可视化 ChengKe---Dawn 爬虫后端开发 python 数据分析开发语言
基于Python的携程旅游景点数据分析与可视化爬取景点、价格、开放状态、评论、热度、优惠政策等信息。功能列表指定城市爬取支持登录支持筛选支持评论爬取支持数据存在数据库支持生成Excel支持可视化部分效果演示爬取的旅游景点信息生成Excel指定城市爬取可视化部门图颜色都是随机,图形是动态图，例如水位图、环图等都是动态图启动文档导入数据库，启动Python脚本质量拉满，涵盖高质量开源项目，欢迎来访，博
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe