只是甲

Java-Spark系列6-Spark SQL编程实战

文章目录

一.Spark DataFrame概述
- 1.1 创建DataFrame
- - 1.1.1 通过json文件创建DataFrame
  - 1.1.2 通过CSV文件创建DataFrame
  - 1.1.3 通过hive table创建DataFrame
  - 1.1.4 通过jdbc数据源创建DataFrame
二.Spark SQL实战
- 2.1 DataFrame的统计信息
- 2.2 DataFrame的select操作
- 2.3 DataFrame对列的操作
- 2.3 过滤数据
- 2.4 简单的聚合操作
- - 2.4.1 简单聚合
- 2.5 自定义函数
- 2.6 表连接
- - 2.6.1 内连接
  - 2.6.2 外连接
- 2.7 排序
- 2.8 SparkSQL操作文件
参考:

一.Spark DataFrame概述

在Spark语义中，DtatFrame是一个分布式的行集合，可以想象为一个关系型数据库的表，或一个带有列头的Excel表格。它和RDD一样，有这样一些特点:

Immuatable: 一旦RDD、DataFrame被创建，就不能更改，只能通过tranformation生成新的RDD、DataFrame
Lazy Evaluations: 只有action才会出发Transformation的执行。
Distributed: DataFrame和RDD一样都是分布式的。

1.1 创建DataFrame

支持的数据源:

Parquet Files
ORC Files
JSON Files
Hive Tables
JDBC
Avro Files

创建DataFrame的语法:

Dataset df = spark.read().json("examples/src/main/resources/people.json");

Spark SQL的起点: SparkSession
代码:

import org.apache.spark.sql.SparkSession;

SparkSession spark = SparkSession
  .builder()
  .appName("Java Spark SQL basic example")
  .config("spark.some.config.option", "some-value")
  .getOrCreate();

使用SparkSession，应用程序可以从现有的RDD、Hive表或Spark数据源中创建DataFrames。

1.1.1 通过json文件创建DataFrame

Json测试文件:

{"name": "Michael",  "age": 12}
{"name": "Andy",  "age": 13}
{"name": "Justin",  "age": 8}

代码:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest4 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest4")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset df = spark.read().json("file:///home/pyspark/test.json");
        df.show();

        spark.stop();
    }

}

测试记录:

1.1.2 通过CSV文件创建DataFrame

csv测试文件:

代码:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest5 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest4")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset df = spark.read().format("csv").option("header", "true").load("file:///home/pyspark/emp.csv");
        df.show();

        spark.stop();
    }

}

测试记录:

1.1.3 通过hive table创建DataFrame

代码:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest2 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest2")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset sqlDF = spark.sql("SELECT * FROM test.ods_fact_sale limit 100");
        sqlDF.show();

        spark.stop();
    }

}

测试记录:

1.1.4 通过jdbc数据源创建DataFrame

代码:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest3 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest3")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset jdbcDF = spark.read()
                .format("jdbc")
                .option("url", "jdbc:mysql://10.31.1.123:3306/test")
                .option("dbtable", "(SELECT * FROM EMP) tmp")
                .option("user", "root")
                .option("password", "abc123")
                .load();

        jdbcDF.printSchema();
        jdbcDF.show();

        spark.stop();
    }

}

测试记录:

二.Spark SQL实战

我们选用经典scoot用户下的4张表来模拟Spark SQL实战：

emp
dept
bonus
salgrade

2.1 DataFrame的统计信息

生成DataFrame的时候会保留统计信息，有点类似关系型数据库的统计信息

代码:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest7 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest7")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset sqlDF = spark.sql("SELECT * FROM emp");

        sqlDF.describe().show();

        spark.stop();

    }


}

测试记录：
从下图可以看出，DataFrame给每一列都做了统计信息。

count 是列不为空的总数
mean 平均值
stddev 标准偏差
min 最小值
max 最大值

2.2 DataFrame的select操作

有些应用场景，我们只需要DataFrame的部分列，此时可以通过select实现:

代码:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest8 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest8")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset sqlDF = spark.sql("SELECT * FROM emp");
        sqlDF.select("ename","hiredate").show();

        spark.stop();
    }
}

测试记录:

2.3 DataFrame对列的操作

有些应用场景，我们需要对列进行别名、新增列、删除列等操作。

代码:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest9 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest8")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset sqlDF = spark.sql("SELECT * FROM emp");

        //输出看有哪些列
        System.out.println("\n" + "\n" + "\n");
        for ( String col:sqlDF.columns() ){
            System.out.println(col);
        }
        System.out.println("\n" + "\n" + "\n");

        //删除一列
        sqlDF.drop("comm").show();

        //新增(或替换)一列
        //sqlDF.withColumn("new_comm", "sal").show();

        //给列进行重命名
        sqlDF.withColumnRenamed("comm","comm_new").show();


        spark.stop();
    }
}

测试记录:
显示列的信息:

删除一列:

替换列名:

2.3 过滤数据

过滤数据用的是filter，其实也可以用where，where是filter的别名

代码:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest10 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest10")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset sqlDF = spark.sql("SELECT * FROM emp");

        sqlDF.where("comm is not null").show();
        spark.stop();
    }
}

测试记录:

2.4 简单的聚合操作

常用的聚合操作:

操作	描述
avg/mean	平均值
count	统计个数
countDistinct	统计唯一的个数
max	求最大值
min	求最小值
sum	求和
sumDistinct	统计唯一值的合计
skewness	偏态
stddev	标准偏差

2.4.1 简单聚合

代码:

package org.example;

import org.apache.spark.sql.*;

public class SparkSQLTest11 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest11")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset sqlDF = spark.sql("SELECT * FROM emp");

        sqlDF.groupBy("deptno").agg(functions.avg("sal").alias("avg_sal"),
                                          functions.max("comm").alias("max_comm")).show();
        spark.stop();

    }

}

测试记录:

2.5 自定义函数

一些比较复杂的场景，我们希望使用自定义函数来实现。

代码:

package org.example;

import org.apache.spark.sql.*;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.types.DataTypes;

public class SparkSQLTest12 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest12")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.udf().register("plusOne", new UDF1() {
            @Override
            public Integer call(Integer x) {
                return x + 1;
            }
        }, DataTypes.IntegerType);
        spark.sql("SELECT plusOne(5)").show();
        spark.stop();

    }


}

测试记录:

2.6 表连接

语法:

DataFrame.join(other, on=None, how=None)

other            需要连接的DataFrame
on                str, list or Column, 可选项
how             str, 可选项
                   default inner. Must be one of: inner, cross, outer, full, fullouter, full_outer, left, leftouter, left_outer, right, rightouter, right_outer, semi, leftsemi, left_semi, anti, leftanti and left_anti

2.6.1 内连接

代码:

package org.example;

import org.apache.spark.sql.*;

public class SparkSQLTest13 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest13")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset df1 = spark.sql("SELECT * FROM emp");
        Dataset df2 = spark.sql("SELECT * FROM dept");

        Dataset df3 = df1.join(df2, df1.col("deptno").equalTo(df2.col("deptno")) ,"inner").select(df1.col("empno"),df1.col("ename"),df2.col("dname"),df2.col("loc"));
        df3.show();
        spark.stop();
    }


}

测试记录:

2.6.2 外连接

这里我们使用一个右连接

代码:

package org.example;

import org.apache.spark.sql.*;

public class SparkSQLTest14 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest14")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset df1 = spark.sql("SELECT * FROM emp");
        Dataset df2 = spark.sql("SELECT * FROM dept");

        Dataset df3 = df1.join(df2, df1.col("deptno").equalTo(df2.col("deptno")) ,"right").select(df1.col("empno"),df1.col("ename"),df2.col("dname"),df2.col("loc"));
        df3.show();
        spark.stop();
    }


}

测试记录:

2.7 排序

语法:

DataFrame.orderBy(*cols, **kwargs)
-- 返回按指定列排序的新DataFrame

参数:      ascending   bool or list,可选项
              布尔值或布尔值列表(默认为True)。排序升序与降序。为多个排序顺序指定列表。如果指定了列表，则列表的长度必须等于cols的长度。

代码:

package org.example;

import org.apache.spark.sql.*;

public class SparkSQLTest15 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest15")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset df1 = spark.sql("SELECT * FROM emp");
        Dataset df2 = spark.sql("SELECT * FROM dept");

        Dataset df3 = df1.join(df2, df1.col("deptno").equalTo(df2.col("deptno")) ,"right").select(df1.col("empno"),df1.col("ename"),df2.col("dname"),df2.col("loc"));
        Dataset df4 = df3.orderBy(df3.col("dname").desc(),df3.col("ename").asc() );
        df4.show();
        spark.stop();

    }
}

测试记录:

2.8 SparkSQL操作文件

SparkSession上的sql函数允许应用程序以编程方式运行sql查询，并将结果作为Dataset返回。

代码:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest16 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest16")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset df = spark.read().json("file:///home/pyspark/test.json");
        df.createOrReplaceTempView("people");

        spark.sql("select * from people where age = 12").show();

        spark.stop();
    }

}

测试记录:

参考:

http://spark.apache.org/docs/2.4.2/sql-getting-started.html
http://spark.apache.org/docs/latest/sql-ref-functions-udf-scalar.html
http://spark.apache.org/docs/latest/api/java/index.html

程序员晋升架构师实战指南甘苦人生职业规划职场和发展
以下是为程序员量身定制的晋升架构师实战指南，结合行业案例与可落地路径，助你完成技术跃迁：一、晋升路径拆解（从Code到Architecture）程序员→高级工程师核心任务：独立完成模块开发（需求分析+方案设计+编码实现）技术重点：掌握1-2门核心语言（如Java/Go）、熟悉主流框架（SpringCloud/Dubbo）案例：主导用户中心模块开发，通过缓存优化将接口响应时间从800ms降至150m
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
【操作系统】双缓冲机制(含原理、优势、实现方式、应用场景) 司六米希嵌入式
双缓冲机制一、双缓冲机制的原理二、双缓冲的典型应用场景三、双缓冲的优势四、双缓冲的实现方式1.硬件级双缓冲2.软件级双缓冲3.性能提升对比五、双缓冲的挑战与解决方案六、总结双缓冲机制是一种通过使用两个缓冲区（BufferA和BufferB）来优化数据传输或处理效率的技术，其核心原理是并行处理与交替切换。以下是详细解析：一、双缓冲机制的原理基本概念：双缓冲区：系统维护两个相同大小的内存区域。分工协作
STM32 Cube MX 软件使用教程和技巧(纯干货分享~~！) 立量嵌入式IDE stm32 单片机嵌入式硬件
以下是关于STM32CubeMX的详细使用教程和一些实用技巧，帮助您快速上手并高效开发STM32项目：一、STM32CubeMX简介功能：ST官方推出的图形化配置工具，用于生成STM32微控制器的初始化代码（基于HAL库/LL库），支持引脚分配、时钟树配置、外设初始化等。优势：减少底层代码编写时间，避免手动配置寄存器，兼容多种IDE（Keil、IAR、STM32CubeIDE等）。二、基础使用教程
RabbitMQ基本原理码农小伙消息队列 rabbitmq 分布式
一、基本结构所有中间件技术都是基于TCP/IP协议基础之上进行构建新的协议规范，RabbitMQ遵循的是AMQP协议（AdvancedMessageQueuingProtocol-高级消息队列协议）。生产者发送消息流程：1、生产者和Broker建立TCP连接；2、生产者和Broker建立通道；3、生产者通过通道消息发送给Broker，由Exchange将消息进行转发；4、Exchange将消息转发
React性能优化的8种方式 Mr.BoBo. 前端 #React react.js 性能优化前端
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1、Reac.memo缓存组件2、使用useMemo缓存大量的计算3、避免使用内联对象4、避免使用匿名函数5、延迟加载不是立即需要的组件6、调整CSS而不是强制组件加载和卸载7、使用React.Fragment避免添加额外的DOM8、使用React.PureComponent,shouldComponentUpdate9、
包管理工具她的双马尾 JS javascript 包管理工具 npm yarn pnpm
JavaScript包管理工具对比：npm、yarn和pnpm1.npm1.1历史与背景npm（NodePackageManager）是Node.js的默认包管理工具，首次发布于2010年。它是JavaScript生态系统中最早的包管理工具，主要用于管理和共享JavaScript模块。目前，npm拥有全球最大的JavaScript包注册中心（npmregistry），包含数百万个开源包。1.2核心
React状态管理她的双马尾 React react.js 前端 javascript
状态管理概念状态管理是指如何高效地管理和共享组件中的状态。React提供了useState和useReducer来管理本地状态，而对于全局状态，可以使用ContextAPI或第三方库（如Redux）。用法本地状态：使用useState或useReducer。全局状态：使用ContextAPI或Redux。使用场景本地状态：组件内部的状态，如表单输入、按钮点击。全局状态：需要跨组件共享的状态，如用户
大疆C++开发面试题及参考答案大模型大数据攻城狮信号量 C++面试 C++面经堆和栈 TCP和UDP 智能指针 C++11
虚函数的作用是什么？虚函数机制是如何实现的？虚表指针在内存中的存放位置在哪里？虚函数主要用于实现多态性。多态是面向对象编程中的一个重要概念，它允许通过基类指针或引用调用派生类中重写的函数。这样可以在运行时根据对象的实际类型来确定调用哪个函数，增强了程序的灵活性和可扩展性。在实现虚函数机制方面，C++使用了虚函数表（v-table）。当一个类包含虚函数时，编译器会为这个类创建一个虚函数表。虚函数表是
Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南 QQ828929QQ spring boot 后端 java
SpringBoot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南一、核心概念对比1.本质区别维度过滤器（Filter）拦截器（Interceptor）规范层级Servlet规范（J2EE标准）SpringMVC框架机制作用范围所有请求（包括静态资源）只处理Controller请求依赖关系不依赖Spring容器完全集成SpringIOC容器执行顺序最先执行（
1.✨学习系统浅探 *TQK* 自我认知规划（不让别人看）认知提升
不要过于苛求完美，允许自己偶尔放松，保持积极心态。长期坚持比短期高强度更重要，尤其是为三年后的考研做准备，需要持续的努力而不是一时的冲刺。定期复盘，调整计划。如果某天状态不好，可以适当减少任务量，保持弹性。同时，保证足够的睡眠和运动，这对维持多巴胺水平和整体精力很重要。一、系统构建一Deepseek指令我的大一下学期已经开始了，这一学期我又有新的计算机课程。上一学期我学了C语言，基础知识掌握的还可
OpenStack 云平台的深度定制与性能优化算法探索者 openstack
引言OpenStack作为一款领先的开源云平台，以其高度的灵活性和可扩展性，为企业构建云计算基础设施提供了强大的支持。然而，不同企业的业务场景和技术需求千差万别，原生的OpenStack部署往往无法完全满足企业特定的要求。因此，对OpenStack云平台进行深度定制，并在此基础上进行性能优化，成为了企业充分发挥OpenStack优势、提升云服务质量的关键。本文将深入探讨如何针对企业特定需求对Ope
Seata分布式事务框架及四种模式原理解析 Cloud_. 分布式 seata java Seata-AX Seata-AT
一、Seata核心概念Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，核心思想是通过事务协调器（TC）统一管理全局事务分支的状态，协调资源管理器（RM）和事务管理器（TM）完成事务的提交与回滚。核心组件：TC(TransactionCoordinator)：全局事务协调者，维护全局事务状态，驱动分支事务
PV操作(Java代码)进程同步实战指南 Cloud_. java 开发语言操作系统并发
引言在Java并发编程中，资源同步如同精密仪器的齿轮咬合，任何偏差都可能导致系统崩溃。本文将以Java视角解析经典PV操作原理，通过真实可运行的代码示例，带你掌握线程同步的底层实现逻辑。一、Java信号量实现机制1.1Semaphore类解析importjava.util.concurrent.Semaphore;//创建包含5个许可的信号量（相当于计数信号量）Semaphoresemaphore
Spring Boot 整合 RabbitMQ：注解声明队列与交换机详解 Cloud_. java-rabbitmq spring boot rabbitmq MQ 消息队列
RabbitMQ作为一款高性能的消息中间件，在分布式系统中广泛应用。SpringBoot通过spring-boot-starter-amqp提供了对RabbitMQ的无缝集成，开发者可以借助注解快速声明队列、交换机及绑定规则，极大简化了配置流程。本文将通过代码示例和原理分析，详细介绍如何用注解实现RabbitMQ的集成，并深入解析交换机的作用与类型。一、环境准备1.添加依赖在pom.xml中引入S
【STM32实物】基于STM32的扫地机器人/小车控制系统设计阿齐Archie 单片机项目合集 stm32 机器人单片机 mcu
基于STM32的扫地机器人/小车控制系统设计演示视频：基于STM32的扫地机器人小车控制系统设计简介：扫地机器人系统采用分层结构设计，主要包括底层硬件控制层、中间数据处理层和上层用户交互层。底层硬件控制层负责对各个硬件模块进行控制和数据采集，中间数据处理层负责对采集到的数据进行处理和解算，上层用户交互层负责与用户进行交互并显示系统状态信息。主控模块采用STM32F103C8T6开发板，具有高性能、
Kubernets命名空间忍界英雄 docker k8s
Kubernets命名空间什么是命名空间命名空间（Namespace）是一种用于组织和隔离Kubernetes资源的机制。在Kubernetes集群中，命名空间将物理集群划分为多个逻辑部分，每个部分都拥有自己的一组资源（如Pod、Service、ConfigMap等），彼此之间互不干扰，实现资源的隔离管理。不仅Kubernetes具备命名空间的概念，在Docker等容器技术中，也通过命名空间（Na
08 lua常用自带库（time，Math，package）小超wuli Lua语言 lua
lua常用自带库（time，Math，package）1>字符串和表string和table2>时间系统时间：os.time()，os.date("*t")返回一个时间记录的表os.date("*t").day-------系统的某日自己传入参数，得到时间：os.time(year=2014,month=8,day=14)3>Mathmath.abs(-999)-----绝对值math.deg(m
通信之OTDR 玖Yee 信息与通信
OTDR，即光时域反射仪，是光纤测量中最主要的仪器，被广泛应用于光纤光缆工程的测量、施工、维护及验收工作中，形象地被称为光通信中的“万用表”。工作原理OTDR利用光纤传输通道存在的瑞利散射和菲涅尔反射特性，通过监测瑞利散射的反向散射光的轨迹制成。它向被测光纤发送一光脉冲，光脉冲在光纤本身及各特征点上会有光信号反射回OTDR，反射回的光信号又通过定向耦合到OTDR的接收器，并在这里转换成电信号，最终
量子化学仿真软件：Quantum Espresso_（8）.dos.x模块使用 kkchenjj 分子动力学2 分子动力学仿真模拟模拟仿真人工智能
dos.x模块使用在量子化学仿真软件中，dos.x模块用于计算和分析能态密度（DensityofStates,DOS）。能态密度是描述材料电子结构的重要物理量，可以提供关于材料能带结构、电子态分布和电子性质的详细信息。本节将详细介绍如何使用dos.x模块进行能态密度的计算和分析。1.基本概念1.1能态密度（DOS）定义能态密度（DOS）是指单位能量区间内的量子态数。在固体物理中，DOS可以描述材料
Python 用户账户(创建用户账户) 钢铁男儿 Python 从入门到精通 python sqlite 数据库
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
html脚本语言有哪些,常见的脚本语言(有哪些) 神神九十九 html脚本语言有哪些
常见的脚本语言脚本言语：脚本言语又被称为扩建的言语，或者动态言语，是一种编程言语，用bai来操控软件应用程序，脚本通常以文本(如ASCII)保存，只在被调用时进行解说或编译。言语分类：Shell脚本：此类脚本用于自动化工作操控，即发动和操控体系程序的行为。大多的脚本言语解说器也一起是命令行界面，如Unixshell和MS-DOSCOMMAND.COM。其他如AppleScript，可以为体系添加脚
开发语言漫谈-groovy 大道不孤,众行致远技术杂谈开发语言
groovy是一门脚本语言，在前期的脚本语言中简单介绍了下。现在再深入介绍下，因为它是本平台上选用的脚本语言。所谓脚本语言就是不用编译，直接执行。这种特色非常适合做嵌入编程，即编即用。我们知道平台后台的业务开发语言是Java，开发人员都熟悉Java。那么使用groovy就是自然而然的事情，因为groovy最大特点就是和Java兼容。然后做了最有意义的改造：1、可以解释执行；2、增加动态类型。发明人
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
如何使用SQL进行多表联合查询(SQLⅰte举例) C++ 老炮儿的技术栈 c++sql 算法学习笔记
使用C++和SQLite进行多表联合查询的示例代码。假设有两个表：students表和scores表，students表包含学生的基本信息，scores表包含学生的成绩信息，通过学生的id进行关联查询。#include#include#include//回调函数，用于处理查询结果staticintcallback(void*NotUsed,intargc,char**argv,char**azCo
Orange 开源项目 - 集成DeepSeek大模型 mmd0308 Orange 开源项目开源 Deepseek orange AI编程
1DeepSeek大模型DeepSeek是一家专注实现AGI的中国公司，如果你还想了解更多关于DeepSeek的信息，可以前往【官方网站】查询2集成DeepSeek大模型2.1获取API-KEY获取DeepSeekAPI-KEY,请参考DeepSeek官网「获取DeepSeekAPI-KEY」2.2集成对话模型(ChatModel)publicclassDeepSeekChatModelServi
洛谷 P3228 [HNOI2013] 数列 syzyc 数论题解组合数取模数论
题目传送门前言这道题最难的其实是想到把【构造一个上升序列】转化为【构造一个差分序列】（当然我是想不到的，所以看了题解的一部分）。了解此思路下的我经过一顿推公式之后依旧只推出了30pts的暴力公式和代码，然后看了题解豁然开朗，所以决定写一篇题解来说说暴力和正解的思路。整体思路正如前言所说，我们把每一天股票增长的差分数组did_idi设出来，did_idi的取值范围是[1,m][1,m][1,m]。假
java:实现设置窗体背景颜色为淡蓝色（附带源码） Katie。 Java 实战项目 java 信息可视化开发语言
一、项目简介在桌面应用开发中，窗体背景颜色作为界面设计的重要组成部分，不仅影响整体美观，还能传递特定的情感和品牌信息。本项目旨在使用JavaSwing简单实现将窗体背景颜色设置为淡蓝色效果。该示例展示了如何创建一个基本的JFrame，并通过调用其内容面板的setBackground()方法，设置背景颜色为淡蓝色（RGB值173,216,230）。通过本项目，初学者可以了解Swing基本组件的使用方
配置固定ip绕过ip限制 leeezp 杂物网络协议运维
0x00背景很多内网限制通过ip网段来做的，一般无线网和有线网网段不同，通过配置有线ip来一定程度绕过网络限制。0x01实践很多企业内网是通过DHCP动态分配ip地址，但有线网通常ip是固定的。例如固定ip通常是这样ip地址：子网掩码：默认网关：首选DNS：802.1x配置非固定ip自动获取ip地址=》点击高级默认勾选通过验证证书来验证服务器的身份如果还连接不上有线网，重启一下就好了。
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

Java-Spark系列6-Spark SQL编程实战

文章目录

一.Spark DataFrame概述

1.1 创建DataFrame

1.1.1 通过json文件创建DataFrame

1.1.2 通过CSV文件创建DataFrame

1.1.3 通过hive table创建DataFrame

1.1.4 通过jdbc数据源创建DataFrame

二.Spark SQL实战

2.1 DataFrame的统计信息

2.2 DataFrame的select操作

2.3 DataFrame对列的操作

2.3 过滤数据

2.4 简单的聚合操作

2.4.1 简单聚合

2.5 自定义函数

2.6 表连接

2.6.1 内连接

2.6.2 外连接

2.7 排序

2.8 SparkSQL操作文件

参考:

你可能感兴趣的:(大数据和数据仓库,#,Spark,SparkSQL实战,DataFrame,API,Spark,SQL)