javastart

Spark连接到MySQL并执行查询为什么速度会快？

问题导读：
1. Spark为什么能提高Mysql的查询速度？
2. 如何运行SQL in Spark？
3. SparkSQL如何将查询推送到MySQL？
4. 如何使用Spark缓存查询数据？ 5. 如何使用 Spark 和 Percona XtraDB Cluster？
6. Spark表分区时需要注意的事项？
7. Spark表现不好的时候？

在这篇文章中我们将讨论如何利用 Apache Spark 来提升 MySQL 的查询性能。

介绍

在我的前一篇文章 Apache Spark with MySQL 中介绍了如何利用 Apache Spark 实现数据分析以及如何对大量存放于文本文件的数据进行转换和分析。瓦迪姆还做了一个基准测试用来比较 MySQL 和 Spark with Parquet 柱状格式 (使用空中交通性能数据) 二者的性能。这个测试非常棒，但如果我们不希望将数据从 MySQL 移到其他的存储系统中，而是继续在已有的 MySQL 服务器上执行查询的话，Apache Spark 一样可以帮到我们！

开始

在已有的 MySQL 服务器之上使用 Apache Spark （无需将数据导出到 Spark 或者 Hadoop 平台上），这样至少可以提升 10 倍的查询性能。使用多个 MySQL 服务器（复制或者 Percona XtraDB Cluster）可以让我们在某些查询上得到额外的性能提升。你也可以使用 Spark 的缓存功能来缓存整个 MySQL 查询结果表。

思路很简单：Spark 可以通过 JDBC 读取 MySQL 上的数据，也可以执行 SQL 查询，因此我们可以直接连接到 MySQL 并执行查询。那么为什么速度会快呢？对一些需要运行很长时间的查询（如报表或者BI），由于 Spark 是一个大规模并行系统，因此查询会非常的快。MySQL 只能为每一个查询分配一个 CPU 核来处理，而 Spark 可以使用所有集群节点的所有核。在下面的例子中，我们会在 Spark 中执行 MySQL 查询，这个查询速度比直接在 MySQL 上执行速度要快 5 到 10 倍。

另外，Spark 可以增加“集群”级别的并行机制，在使用 MySQL 复制或者 Percona XtraDB Cluster 的情况下，Spark 可以把查询变成一组更小的查询（有点像使用了分区表时可以在每个分区都执行一个查询），然后在多个 Percona XtraDB Cluster 节点的多个从服务器上并行的执行这些小查询。最后它会使用 map/reduce 方式将每个节点返回的结果聚合在一起行程完整的结果。

这篇文章跟我之前文章 “ Airlines On-Time Performance” 所使用的数据库是相同的。瓦迪姆创建了一些脚本可以方便的下载这些数据并上传到 MySQL 数据库。脚本的下载地址请看这里。同时我们这次使用的是 2016年7月26日发布的 Apache Spark 2.0。

安装 Apache Spark

使用独立模式启动 Apache Spark 是很简单的，如下几步即可：

下载 Apache Spark 2.0 并解压到某目录
启动 master.
启动 slave (worker) 并连接到 master
启动应用 (spark-shell 或者 spark-sql).

示例:

[Shell] 纯文本查看复制代码

 
       ? 
      
            root@thor:~ 
            /spark 
            # ./sbin/start-master.sh 
           
            less 
             .. 
            /logs/spark-root-org 
            .apache.spark.deploy.master.Master-1-thor.out 
           
            15 
            /08/25 
             11:21:21 INFO Master: Starting Spark master at spark: 
            //thor 
            :7077 
           
            15 
            /08/25 
             11:21:21 INFO Utils: Successfully started service  
            'MasterUI' 
             on port 8080. 
           
            15 
            /08/25 
             11:21:21 INFO MasterWebUI: Started MasterWebUI at [url=http: 
            //10 
            .60.23.188:8080]http: 
            //10 
            .60.23.188:8080[ 
            /url 
            ] 
           
            root@thor:~ 
            /spark 
            # ./sbin/start-slave.sh spark://thor:7077

为了连接到 Spark ，我们可以使用 spark-shell (Scala)、pyspark (Python) 或者 spark-sql。spark-sql 和 MySQL 命令行类似，因此这是最简单的选择（你甚至可以用 show tables 命令）。我同时还需要在交互模式下使用 Scala ，因此我选择的是 spark-shell 。在下面所有的例子中，我都是在 MySQL 和 Spark 上使用相同的 SQL 查询，所以其实没多大的不同。

为了让 Spark 能用上 MySQL 服务器，我们需要驱动程序 Connector/J for MySQL. 下载这个压缩文件解压后拷贝 mysql-connector-java-5.1.39-bin.jar 到 spark 目录，然后在 conf/spark-defaults.conf 中添加类路径，如下：

[Shell] 纯文本查看复制代码

 
      ? 
     
           spark.driver.extraClassPath =  
           /usr/local/spark/mysql-connector-java-5 
           .1.39-bin.jar 
          
           spark.executor.extraClassPath =  
           /usr/local/spark/mysql-connector-java-5 
           .1.39-bin.jar

利用 Apache Spark 运行 MySQL 查询

在这个测试中我们使用的一台拥有 12 核(老的 Intel(R) Xeon(R) CPU L5639 @ 2.13GHz 处理器) 以及 48G 内存，带有 SSD 磁盘的物理服务器。在这台机器上我安装了 MySQL 并启动了 Spark 主节点和从节点。

现在我们可以在 Spark 中运行 MySQL 查询了。首先，从 Spark 目录中启动 Shell （在我这里是 /usr/local/spark ）：

[Shell] 纯文本查看复制代码

 
       ? 
      
            $ . 
            /bin/spark-shell 
             --driver-memory 4G --master spark: 
            //server1 
            :7077

然后我们将连接到 MySQL 服务器并注册临时视图：

[Scala] 纯文本查看复制代码

 
       ? 
      
            val 
             jdbcDF  
            = 
             spark.read.format( 
            "jdbc" 
            ).options( 
           
            Map( 
            "url" 
             ->   
            "jdbc:mysql://localhost:3306/ontime?user=root&password=" 
            , 
           
            "dbtable" 
             ->  
            "ontime.ontime_part" 
            , 
           
            "fetchSize" 
             ->  
            "10000" 
            , 
           
            "partitionColumn" 
             ->  
            "yeard" 
            ,  
            "lowerBound" 
             ->  
            "1988" 
            ,  
            "upperBound" 
             ->  
            "2016" 
            ,  
            "numPartitions" 
             ->  
            "28" 
           
            )).load() 
           
            jdbcDF.createOrReplaceTempView( 
            "ontime" 
            )

这样我们就为 Spark 创建了一个“数据源”（换句话说就是相当于 Spark 建立了到 MySQL 的连接）。Spark 表名 “ontime” 对应连接到 MySQL 的ontime.ontime_part 表，现在可以在 Spark 中运行 SQL 了，它们是按顺序被一一解析并转换成 MySQL 查询的。

“ partitionColumn” 在这里非常重要，它告诉 Spark 并行的执行多个查询，每个分区分配一个查询执行。

现在我们可以运行查询：

[Scala] 纯文本查看复制代码

 
       ? 
      
            val 
             sqlDF  
            = 
             sql( 
            "select min(year), max(year) as max_year, Carrier, count(*) as cnt, sum(if(ArrDelayMinutes>30, 1, 0)) as flights_delayed, round(sum(if(ArrDelayMinutes>30, 1, 0))/count(*),2) as rate FROM ontime WHERE DayOfWeek not in (6,7) and OriginState not in ('AK', 'HI', 'PR', 'VI') and DestState not in ('AK', 'HI', 'PR', 'VI') and (origin = 'RDU' or dest = 'RDU') GROUP by carrier HAVING cnt > 100000 and max_year > '1990' ORDER by rate DESC, cnt desc LIMIT  10" 
            ) 
           
            sqlDF.show()

MySQL 查询示例

让我们暂时回到 MySQL 来看看这个查询例子，我选出了如下的查询语句（来自我以前的文章）：

[SQL] 纯文本查看复制代码

 
       ? 
      
 
        
          
          
            select 
             min 
            ( 
            year 
            ),  
            max 
            ( 
            year 
            )  
            as 
             max_year, Carrier,  
            count 
            (*)  
            as 
             cnt, 
           
 
            sum 
            (if(ArrDelayMinutes>30, 1, 0))  
            as 
             flights_delayed, 
           
 
            round( 
            sum 
            (if(ArrDelayMinutes>30, 1, 0))/ 
            count 
            (*),2)  
            as 
             rate 
           
 
            FROM 
             ontime 
           
 
            WHERE 
           
 
            DayOfWeek  
            not 
             in 
             (6,7) 
           
 
            and 
             OriginState  
            not 
             in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ) 
           
 
            and 
             DestState  
            not 
             in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ) 
           
 
            GROUP 
             by 
             carrier  
            HAVING 
             cnt > 100000  
            and 
             max_year >  
            '1990' 
           
 
            ORDER 
             by 
             rate  
            DESC 
            , cnt  
            desc 
           
 
            LIMIT  10 
           
 
        
 
      

这个查询用来查找出每个航空公司航班延误的架数。此外该查询还将很智能的计算准点率，考虑到航班数量（我们不希望小航空公司跟大航空公司比较，同时一些老的关闭的航空公司也不在计算范围之内）。

我选择这个查询主要的原因是，这在 MySQL 很难再优化了，所有的这些 WHERE 条件智能过滤掉约 70% 的记录行。我做了一个基本的计算：

[SQL] 纯文本查看复制代码

 
       ? 
      
 
        
          
          
            mysql>  
            select 
             count 
            (*)  
            FROM 
             ontime  
            WHERE 
             DayOfWeek  
            not 
             in 
             (6,7)  
            and 
             OriginState  
            not 
             in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )  
            and 
             DestState  
            not 
             in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ); 
           
 
            + 
            -----------+ 
           
 
            |  
            count 
            (*)  | 
           
 
            + 
            -----------+ 
           
 
            | 108776741 | 
           
 
            + 
            -----------+ 
           
 
            mysql>  
            select 
             count 
            (*)  
            FROM 
             ontime; 
           
 
            + 
            -----------+ 
           
 
            |  
            count 
            (*)  | 
           
 
            + 
            -----------+ 
           
 
            | 152657276 | 
           
 
            + 
            -----------+ 
           
 
            mysql>  
            select 
             round((108776741/152657276)*100, 2); 
           
 
            + 
            -------------------------------------+ 
           
 
            | round((108776741/152657276)*100, 2) | 
           
 
            + 
            -------------------------------------+ 
           
 
            |                               71.26 | 
           
 
            + 
            -------------------------------------+ 
           
 
        
 
      

表结构如下：

[SQL] 纯文本查看复制代码

 
       ? 
      
            CREATE 
             TABLE 
             `ontime_part` ( 
           
            `YearD`  
            int 
            (11)  
            NOT 
             NULL 
            , 
           
            `Quarter` tinyint(4)  
            DEFAULT 
             NULL 
            , 
           
            `MonthD` tinyint(4)  
            DEFAULT 
             NULL 
            , 
           
            `DayofMonth` tinyint(4)  
            DEFAULT 
             NULL 
            , 
           
            `DayOfWeek` tinyint(4)  
            DEFAULT 
             NULL 
            , 
           
            `FlightDate`  
            date 
             DEFAULT 
             NULL 
            , 
           
            `UniqueCarrier`  
            char 
            (7)  
            DEFAULT 
             NULL 
            , 
           
            `AirlineID`  
            int 
            (11)  
            DEFAULT 
             NULL 
            , 
           
            `Carrier`  
            char 
            (2)  
            DEFAULT 
             NULL 
            , 
           
            `TailNum`  
            varchar 
            (50)  
            DEFAULT 
             NULL 
            , 
           
            ... 
           
            `id`  
            int 
            (11)  
            NOT 
             NULL 
             AUTO_INCREMENT, 
           
            PRIMARY 
             KEY 
             (`id`,`YearD`), 
           
            KEY 
             `covered` (`DayOfWeek`,`OriginState`,`DestState`,`Carrier`,`YearD`,`ArrDelayMinutes`) 
           
            ) ENGINE=InnoDB AUTO_INCREMENT=162668935  
            DEFAULT 
             CHARSET=latin1 
           
            /*!50100 PARTITION  
            BY 
             RANGE (YearD) 
           
            (PARTITION p1987  
            VALUES 
             LESS THAN (1988) ENGINE = InnoDB, 
           
            PARTITION p1988  
            VALUES 
             LESS THAN (1989) ENGINE = InnoDB, 
           
            PARTITION p1989  
            VALUES 
             LESS THAN (1990) ENGINE = InnoDB, 
           
            PARTITION p1990  
            VALUES 
             LESS THAN (1991) ENGINE = InnoDB, 
           
            PARTITION p1991  
            VALUES 
             LESS THAN (1992) ENGINE = InnoDB, 
           
            PARTITION p1992  
            VALUES 
             LESS THAN (1993) ENGINE = InnoDB, 
           
            PARTITION p1993  
            VALUES 
             LESS THAN (1994) ENGINE = InnoDB, 
           
            PARTITION p1994  
            VALUES 
             LESS THAN (1995) ENGINE = InnoDB, 
           
            PARTITION p1995  
            VALUES 
             LESS THAN (1996) ENGINE = InnoDB, 
           
            PARTITION p1996  
            VALUES 
             LESS THAN (1997) ENGINE = InnoDB, 
           
            PARTITION p1997  
            VALUES 
             LESS THAN (1998) ENGINE = InnoDB, 
           
            PARTITION p1998  
            VALUES 
             LESS THAN (1999) ENGINE = InnoDB, 
           
            PARTITION p1999  
            VALUES 
             LESS THAN (2000) ENGINE = InnoDB, 
           
            PARTITION p2000  
            VALUES 
             LESS THAN (2001) ENGINE = InnoDB, 
           
            PARTITION p2001  
            VALUES 
             LESS THAN (2002) ENGINE = InnoDB, 
           
            PARTITION p2002  
            VALUES 
             LESS THAN (2003) ENGINE = InnoDB, 
           
            PARTITION p2003  
            VALUES 
             LESS THAN (2004) ENGINE = InnoDB, 
           
            PARTITION p2004  
            VALUES 
             LESS THAN (2005) ENGINE = InnoDB, 
           
            PARTITION p2005  
            VALUES 
             LESS THAN (2006) ENGINE = InnoDB, 
           
            PARTITION p2006  
            VALUES 
             LESS THAN (2007) ENGINE = InnoDB, 
           
            PARTITION p2007  
            VALUES 
             LESS THAN (2008) ENGINE = InnoDB, 
           
            PARTITION p2008  
            VALUES 
             LESS THAN (2009) ENGINE = InnoDB, 
           
            PARTITION p2009  
            VALUES 
             LESS THAN (2010) ENGINE = InnoDB, 
           
            PARTITION p2010  
            VALUES 
             LESS THAN (2011) ENGINE = InnoDB, 
           
            PARTITION p2011  
            VALUES 
             LESS THAN (2012) ENGINE = InnoDB, 
           
            PARTITION p2012  
            VALUES 
             LESS THAN (2013) ENGINE = InnoDB, 
           
            PARTITION p2013  
            VALUES 
             LESS THAN (2014) ENGINE = InnoDB, 
           
            PARTITION p2014  
            VALUES 
             LESS THAN (2015) ENGINE = InnoDB, 
           
            PARTITION p2015  
            VALUES 
             LESS THAN (2016) ENGINE = InnoDB, 
           
            PARTITION p_new  
            VALUES 
             LESS THAN MAXVALUE ENGINE = InnoDB) */

就算有一个“覆盖”索引，MySQL 也将扫描约 ~70M-100M 行的数据并创建一个临时表：

[SQL] 纯文本查看复制代码

 
       ? 
      
 
        
          
          
            mysql>  explain  
            select 
             min 
            (yearD),  
            max 
            (yearD)  
            as 
             max_year, Carrier,  
            count 
            (*)  
            as 
             cnt,  
            sum 
            (if(ArrDelayMinutes>30, 1, 0))  
            as 
             flights_delayed, round( 
            sum 
            (if(ArrDelayMinutes>30, 1, 0))/ 
            count 
            (*),2)  
            as 
             rate  
            FROM 
             ontime_part  
            WHERE 
             DayOfWeek  
            not 
             in 
             (6,7)  
            and 
             OriginState  
            not 
             in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )  
            and 
             DestState  
            not 
             in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )  
            GROUP 
             by 
             carrier  
            HAVING 
             cnt > 1000  
            and 
             max_year >  
            '1990' 
             ORDER 
             by 
             rate  
            DESC 
            , cnt  
            desc 
             LIMIT  10G 
           
 
            *************************** 1. row *************************** 
           
 
                        
            id: 1 
           
 
               
            select_type: SIMPLE 
           
 
                     
            table 
            : ontime_part 
           
 
                      
            type: range 
           
 
            possible_keys: covered 
           
 
                       
            key 
            : covered 
           
 
                   
            key_len: 2 
           
 
                       
            ref:  
            NULL 
           
 
                      
            rows 
            : 70483364 
           
 
                     
            Extra: Using  
            where 
            ; Using  
            index 
            ; Using  
            temporary 
            ; Using filesort 
           
 
            1 row  
            in 
             set 
             (0.00 sec) 
           
 
        
 
      

下面是 MySQL 查询的响应时间：

[SQL] 纯文本查看复制代码

 
       ? 
      
 
        
          
          
            mysql>  
            select 
             min 
            (yearD),  
            max 
            (yearD)  
            as 
             max_year, Carrier,  
            count 
            (*)  
            as 
             cnt,  
            sum 
            (if(ArrDelayMinutes>30, 1, 0))  
            as 
             flights_delayed, round( 
            sum 
            (if(ArrDelayMinutes>30, 1, 0))/ 
            count 
            (*),2)  
            as 
             rate  
            FROM 
             ontime_part  
            WHERE 
             DayOfWeek  
            not 
             in 
             (6,7)  
            and 
             OriginState  
            not 
             in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )  
            and 
             DestState  
            not 
             in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )  
            GROUP 
             by 
             carrier  
            HAVING 
             cnt > 1000  
            and 
             max_year >  
            '1990' 
             ORDER 
             by 
             rate  
            DESC 
            , cnt  
            desc 
             LIMIT  10; 
           
 
            + 
            ------------+----------+---------+----------+-----------------+------+ 
           
 
            |  
            min 
            (yearD) | max_year | Carrier | cnt      | flights_delayed | rate | 
           
 
            + 
            ------------+----------+---------+----------+-----------------+------+ 
           
 
            |       2003 |     2013 | EV      |  2962008 |          464264 | 0.16 | 
           
 
            |       2003 |     2013 | B6      |  1237400 |          187863 | 0.15 | 
           
 
            |       2006 |     2011 | XE      |  1615266 |          230977 | 0.14 | 
           
 
            |       2003 |     2005 | DH      |   501056 |           69833 | 0.14 | 
           
 
            |       2001 |     2013 | MQ      |  4518106 |          605698 | 0.13 | 
           
 
            |       2003 |     2013 | FL      |  1692887 |          212069 | 0.13 | 
           
 
            |       2004 |     2010 | OH      |  1307404 |          175258 | 0.13 | 
           
 
            |       2006 |     2013 | YV      |  1121025 |          143597 | 0.13 | 
           
 
            |       2003 |     2006 | RU      |  1007248 |          126733 | 0.13 | 
           
 
            |       1988 |     2013 | UA      | 10717383 |         1327196 | 0.12 | 
           
 
            + 
            ------------+----------+---------+----------+-----------------+------+ 
           
 
            10  
            rows 
             in 
             set 
             (19  
            min 
             16.58 sec) 
           
 
        
 
      

足足执行了 19 分钟，这个结果真的让人爽不起来。

SQL in Spark

现在我们希望在 Spark 中运行相同的查询，让 Spark 从 MySQL 读取数据。我们创建了一个“数据源”然后执行如下查询：

[Scala] 纯文本查看复制代码

 
       ? 
      
 
        
          
          
            scala>  
            val 
             jdbcDF  
            = 
             spark.read.format( 
            "jdbc" 
            ).options( 
           
 
                  
            |   Map( 
            "url" 
             ->   
            "jdbc:mysql://localhost:3306/ontime?user=root&password=mysql" 
            , 
           
 
                  
            |    
            "dbtable" 
             ->  
            "ontime.ontime_sm" 
            , 
           
 
                  
            |    
            "fetchSize" 
             ->  
            "10000" 
            , 
           
 
                  
            |    
            "partitionColumn" 
             ->  
            "yeard" 
            ,  
            "lowerBound" 
             ->  
            "1988" 
            ,  
            "upperBound" 
             ->  
            "2015" 
            ,  
            "numPartitions" 
             ->  
            "48" 
           
 
                  
            |   )).load() 
           
 
            16 
            / 
            08 
            / 
            02 
             23 
            : 
            24 
            : 
            12 
             WARN JDBCRelation 
            : 
             The number of partitions is reduced because the specified number of partitions is less than the difference between upper bound and lower bound. Updated number of partitions 
            : 
             27 
            ; Input number of partitions 
            : 
             48 
            ; Lower bound 
            : 
             1988 
            ; Upper bound 
            : 
             2015 
            . 
           
 
            dbcDF 
            : 
             org.apache.spark.sql.DataFrame  
            = 
             [id 
            : 
             int, YearD 
            : 
             date ...  
            19 
             more fields] 
           
 
            scala> jdbcDF.createOrReplaceTempView( 
            "ontime" 
            ) 
           
 
            scala>  
            val 
             sqlDF  
            = 
             sql( 
            "select min(yearD), max(yearD) as max_year, Carrier, count(*) as cnt, sum(if(ArrDelayMinutes>30, 1, 0)) as flights_delayed, round(sum(if(ArrDelayMinutes>30, 1, 0))/count(*),2) as rate FROM ontime WHERE OriginState not in ('AK', 'HI', 'PR', 'VI') and DestState not in ('AK', 'HI', 'PR', 'VI') GROUP by carrier HAVING cnt > 1000 and max_year > '1990' ORDER by rate DESC, cnt desc LIMIT  10" 
            ) 
           
 
            sqlDF 
            : 
             org.apache.spark.sql.DataFrame  
            = 
             [min(yearD) 
            : 
             date, max 
            _ 
            year 
            : 
             date ...  
            4 
             more fields] 
           
 
            scala> sqlDF.show() 
           
 
            +----------+--------+-------+--------+---------------+----+ 
           
 
            |min(yearD)|max 
            _ 
            year|Carrier|     cnt|flights 
            _ 
            delayed|rate| 
           
 
            +----------+--------+-------+--------+---------------+----+ 
           
 
            |       
            2003 
            |     
            2013 
            |     EV|  
            2962008 
            |          
            464264 
            | 
            0.16 
            | 
           
 
            |       
            2003 
            |     
            2013 
            |     B 
            6 
            |  
            1237400 
            |          
            187863 
            | 
            0.15 
            | 
           
 
            |       
            2006 
            |     
            2011 
            |     XE|  
            1615266 
            |          
            230977 
            | 
            0.14 
            | 
           
 
            |       
            2003 
            |     
            2005 
            |     DH|   
            501056 
            |           
            69833 
            | 
            0.14 
            | 
           
 
            |       
            2001 
            |     
            2013 
            |     MQ|  
            4518106 
            |          
            605698 
            | 
            0.13 
            | 
           
 
            |       
            2003 
            |     
            2013 
            |     FL|  
            1692887 
            |          
            212069 
            | 
            0.13 
            | 
           
 
            |       
            2004 
            |     
            2010 
            |     OH|  
            1307404 
            |          
            175258 
            | 
            0.13 
            | 
           
 
            |       
            2006 
            |     
            2013 
            |     YV|  
            1121025 
            |          
            143597 
            | 
            0.13 
            | 
           
 
            |       
            2003 
            |     
            2006 
            |     RU|  
            1007248 
            |          
            126733 
            | 
            0.13 
            | 
           
 
            |       
            1988 
            |     
            2013 
            |     UA| 
            10717383 
            |         
            1327196 
            | 
            0.12 
            | 
           
 
            +----------+--------+-------+--------+---------------+----+ 
           
 
        
 
      

Spark-shell 并不会显示查询的执行时间，这个可以从 spark-sql 提供的 Web UI 中获取到。我在 spark-sql 中重新执行相同的查询：

[Shell] 纯文本查看复制代码

 
       ? 
      
            . 
            /bin/spark-sql 
             --driver-memory 4G  --master spark: 
            //thor 
            :7077 
           
            spark-sql> CREATE TEMPORARY VIEW ontime 
           
            > USING org.apache.spark.sql.jdbc 
           
            > OPTIONS ( 
           
            >      url   
            "jdbc:mysql://localhost:3306/ontime?user=root&password=" 
            , 
           
            >      dbtable  
            "ontime.ontime_part" 
            , 
           
            >      fetchSize  
            "1000" 
            , 
           
            >      partitionColumn  
            "yearD" 
            , lowerBound  
            "1988" 
            , upperBound  
            "2014" 
            , numPartitions  
            "48" 
           
            > ); 
           
            16 
            /08/04 
             01:44:27 WARN JDBCRelation: The number of partitions is reduced because the specified number of partitions is  
            less 
             than the difference between upper bound and lower bound. Updated number of partitions: 26; Input number of partitions: 48; Lower bound: 1988; Upper bound: 2014. 
           
            Time taken: 3.864 seconds 
           
            spark-sql>  
            select 
             min(yearD), max(yearD) as max_year, Carrier, count(*) as cnt,  
            sum 
            ( 
            if 
            (ArrDelayMinutes>30, 1, 0)) as flights_delayed, round( 
            sum 
            ( 
            if 
            (ArrDelayMinutes>30, 1, 0)) 
            /count 
            (*),2) as rate FROM ontime WHERE DayOfWeek not  
            in 
             (6,7) and OriginState not  
            in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ) and DestState not  
            in 
             ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ) GROUP by carrier HAVING cnt > 1000 and max_year >  
            '1990' 
             ORDER by rate DESC, cnt desc LIMIT  10; 
           
            16 
            /08/04 
             01:45:13 WARN Utils: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting  
            'spark.debug.maxToStringFields' 
             in 
             SparkEnv.conf. 
           
            2003    2013    EV      2962008 464264  0.16 
           
            2003    2013    B6      1237400 187863  0.15 
           
            2006    2011    XE      1615266 230977  0.14 
           
            2003    2005    DH      501056  69833   0.14 
           
            2001    2013    MQ      4518106 605698  0.13 
           
            2003    2013    FL      1692887 212069  0.13 
           
            2004    2010    OH      1307404 175258  0.13 
           
            2006    2013    YV      1121025 143597  0.13 
           
            2003    2006    RU      1007248 126733  0.13 
           
            1988    2013    UA      10717383        1327196 0.12 
           
            Time taken: 139.628 seconds, Fetched 10 row(s)

可以看到查询的时间足足快了 10 倍之多（同一台机器，只有一台机器）。但是到底这些查询是怎么变成 MySQL 查询的呢？然后为什么这样的查询会快那么多。让我们深入到 MySQL 一探究竟。

深入 MySQL

Spark:

[Shell] 纯文本查看复制代码

 
      ? 
     
           scala> sqlDF.show() 
          
           [Stage 4:>                                                        (0 + 26) / 26]

MySQL:

[Shell] 纯文本查看复制代码

 
       ? 
      
 
        
          
          
            mysql>  
            select 
             id 
            , info from information_schema.processlist where info is not NULL and info not like  
            '%information_schema%' 
            ; 
           
 
            +-------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
           
 
            |  
            id    
             | info                                                                                                                                                                                                                                                    | 
           
 
            +-------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
           
 
            | 10948 | SELECT `YearD`,`ArrDelayMinutes`,`Carrier` FROM ontime.ontime_part WHERE (((NOT (DayOfWeek IN (6, 7)))) AND ((NOT (OriginState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )))) AND ((NOT (DestState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ))))) AND (yearD >= 2001 AND yearD < 2002) | 
           
 
            | 10965 | SELECT `YearD`,`ArrDelayMinutes`,`Carrier` FROM ontime.ontime_part WHERE (((NOT (DayOfWeek IN (6, 7)))) AND ((NOT (OriginState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )))) AND ((NOT (DestState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ))))) AND (yearD >= 2007 AND yearD < 2008) | 
           
 
            | 10966 | SELECT `YearD`,`ArrDelayMinutes`,`Carrier` FROM ontime.ontime_part WHERE (((NOT (DayOfWeek IN (6, 7)))) AND ((NOT (OriginState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )))) AND ((NOT (DestState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ))))) AND (yearD >= 1991 AND yearD < 1992) | 
           
 
            | 10967 | SELECT `YearD`,`ArrDelayMinutes`,`Carrier` FROM ontime.ontime_part WHERE (((NOT (DayOfWeek IN (6, 7)))) AND ((NOT (OriginState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )))) AND ((NOT (DestState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ))))) AND (yearD >= 1994 AND yearD < 1995) | 
           
 
            | 10968 | SELECT `YearD`,`ArrDelayMinutes`,`Carrier` FROM ontime.ontime_part WHERE (((NOT (DayOfWeek IN (6, 7)))) AND ((NOT (OriginState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )))) AND ((NOT (DestState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ))))) AND (yearD >= 1998 AND yearD < 1999) | 
           
 
            | 10969 | SELECT `YearD`,`ArrDelayMinutes`,`Carrier` FROM ontime.ontime_part WHERE (((NOT (DayOfWeek IN (6, 7)))) AND ((NOT (OriginState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )))) AND ((NOT (DestState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ))))) AND (yearD >= 2010 AND yearD < 2011) | 
           
 
            | 10970 | SELECT `YearD`,`ArrDelayMinutes`,`Carrier` FROM ontime.ontime_part WHERE (((NOT (DayOfWeek IN (6, 7)))) AND ((NOT (OriginState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )))) AND ((NOT (DestState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            ))))) AND (yearD >= 2002 AND yearD < 2003) | 
           
 
            | 10971 | SELECT `YearD`,`ArrDelayMinutes`,`Carrier` FROM ontime.ontime_part WHERE (((NOT (DayOfWeek IN (6, 7)))) AND ((NOT (OriginState IN ( 
            'AK' 
            ,  
            'HI' 
            ,  
            'PR' 
            ,  
            'VI' 
            )))) AND ((NOT (DestState IN ( 
            'AK' 
            ,  
            'HI' 
           
 
        
 
      

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Spark底层逻辑傲雪凌霜，松柏长青大数据后端 spark 大数据
ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是Spark的底层逻辑的详细介绍：1.核心概念Spark的底层基于几个核心概念来实现分布式计算，包括：RDD（ResilientDistributedDataset，弹性分布式数据集）：RDD是Spark最基础的数据抽
Spark - 升级版数据源JDBC2 大猪大猪
在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在mysql中实现就是采用：ONDUPLICATEKEYUPDATE，有没有这样一种实现？官方：不好意思，不提供，dounine：我这有呀，你来用吧。哈哈，为了方便大家的使用我已经把项目打包到mave
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

Spark连接到MySQL并执行查询为什么速度会快？

你可能感兴趣的:(spark)