Sisi525693

PySpark-Spark SQL基本介绍

Spark SQL基本介绍

Spark SQL特点

Spark SQL与Hive的异同

Spark SQL的数据结构

Spark SQL的入门

创建SparkSession对象

DataFrame详解

DataFrame基本介绍

DataFrame的构建方式

RDD构建DataFrame

内部初始化数据得到DataFrame

schema总结

读取外部文件得到DataFrame

Text方式读取

CSV方式读取

JSON方式读取

Spark SQL基本介绍

概念:Spark SQL是Spark多种组件中其中一个,主要是用于处理大规模的结构化数据

结构化数据:可以转化为二维表格的数据,一份数据,每一行,每一列的了下都是一致的,我们将这样的数据称为结构化数据

例如:mysql的表数据

        1 张三 10

        2 李四 18

        3 王五 20

Spark SQL特点

1.融合性:既可以使用标准SQL语言,也可以编写代码,同时支持混合使用

2.统一的数据访问:可以通过统一的API来对接不同的数据源

3.Hive的兼容性:Spark SQL可以和Hive进行整合,整合后替换执行引擎为Spark,核心是基于Hive的metastore来管理元数据

4.标准化连接:Spark SQL也支持JDBC/ODBC的连接方式

Spark SQL与Hive的异同

相同点:

        1.都是分布式SQL计算引擎

        2.都可以处理大规模的结构化数据

        3.都可以建立YARN集群上运行

不同点:

        1.Spark SQL是基于内存计算,而Hive SQL是基于磁盘进行计算的

        2.Spark SQL没有元数据管理服务(自己维护),而Hive SQL是有metastore元数据管理服务的

        3.Spark SQL底层执行的是Spark RDD程序,而Hive SQL底层执行的是mapreduce程序

        4.Spark SQL可以编写SQL也可以编写代码,而Hive SQL仅能编写SQL语句

Spark SQL的数据结构

Pandas/SparkCore/SparkSQL数据结构对比
核心	数据结构	区别
Pandas	DataFrame	● 二维表数据结构 ● 处理单机(本地集合)结构数据
SparkCore	RDD	● 无标准数据结构(任何的数据结构) ● 大规模的分布式结构数据(分区)
SparkSQL	DataFrame	● 二维表格结构 ● 大规模的分布式结构数据(分区)

以图为例:

RDD:存储直接就是对象,存储就是一个Person的对象,无法看到对象的数据内容

DataFrame:将Person中的各个字段数据,进行结构化存储,形成一个DataFrame,可以直接看到数据

Dataset:将Person对象中的数据按照结构化的方式存储,同时保留对象的类型,从而知道来源于开一个Person对象

Spark SQL的入门

创建SparkSession对象

Spark SQL需要将顶级对象SparkContext变成SparkSesssion对象。SparkContext是RDD中的顶级对象，里面没有和SQL编程相关的API/方法。通过SparkSession对象还是可以得到SparkContext对象。

# 如何构建一个SparkSession对象呢?
from pyspark import SparkConf, SparkContext
import os
from pyspark.sql import SparkSession

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    # 创建SparkSQL中的顶级对象SparkSession
    """
        注意事项：
        1- SparkSession和builder都没有小括号
        2- appName()：给应用程序取名词。等同于SparkCore中的setAppName()
        3- master()：设置运行时集群类型。等同于SparkCore中的setMaster()
    """
    spark = SparkSession.builder\
        .appName('create_sparksession_demo')\
        .master('local[*]')\
        .getOrCreate()

    # 通过SparkSQL的顶级对象获取SparkCore中的顶级对象
    sc = spark.sparkContext

    # 释放资源
    sc.stop()
    spark.stop()

DataFrame详解

DataFrame基本介绍

DataFrame:表示的是一个二维得表,存在行,列等表结构描述信息

表结构描述信息(元数据schema):strucType对象

字段:structField对象,可以描述字段名称,字段数据类型,是否可以为空

行:Row对象

列:column对象,包括字段名称和字段值

在一个StructType对象下，由多个StructField组成，构建成一个完整的元数据信息

DataFrame的构建方式

RDD构建DataFrame

场景：RDD可以存储任意结构的数据；而DataFrame只能处理二维表数据。在使用Spark处理数据的初期，可能输入进来的数据是半结构化或者是非结构化的数据，那么我可以先通过RDD对数据进行ETL处理成结构化数据，再使用开发效率高的SparkSQL来对后续数据进行处理分析。

# 导包
import os
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, StringType, StructField

# 绑定指定的python解释器


os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'
# 创建main函数
if __name__ == '__main__':
    print('通过Rdd创建DataFrame')
    # 创建SparkSession对象
    spark = SparkSession \
        .builder.appName('rdd_to_DataFrame_demo') \
        .master('local[*]') \
        .getOrCreate()
    # 通过SparkSession对象创建SparkContext顶级对象
    sc = spark.sparkContext
    # 数据输入
    # 构建rdd
    init_rdd = sc.parallelize(['1,张三,18', '2,李四,20', '3,王五,22'])
    # 将qrdd数据结构转成二维结构
    new_rdd = init_rdd.map(lambda line: (
        int(line.split(',')[0]),
        line.split(',')[1],
        int(line.split(',')[2], )))
    # 将RDD转成DataFrame：方式一
    # 构建schema方式一
    schema = StructType() \
        .add('id', IntegerType(), False) \
        .add('name', StringType(), False) \
        .add('age', IntegerType(), False)

    # 构建schema方式二
    schema = StructType([
        StructField('id', IntegerType(), False),
        StructField('name', StringType(), False),
        StructField('age', IntegerType(), False),
    ])

    # 构建schema方式三
    schema = "id:int,name:string,age:int"
    schema = "id int,name string,age int"

    # 构建schema方式四,不能指定字段类型
    schema = ['id', 'name', 'age']
    # 构建DataFrame
    init_df = spark.createDataFrame(data=new_rdd, schema=schema)
    # 数据输出
    init_df.show()
    # 输出schema
    init_df.printSchema()
    print('=' * 50)
    # 将RDD转成DataFrame：方式二
    """
    toDF：中的schema既可以传List，也可以传字符串形式的schema信息
    """
    # 方式一:传入列表
    init_df2 = new_rdd.toDF(schema=['id', 'name', 'age'])
    # 方式一:传入字符串
    init_df2 = new_rdd.toDF(schema="id:int,name:string,age:int")
    init_df2 = new_rdd.toDF(schema="id int,name string,age int")
    # 数据输出
    init_df2.show()
    # 输出schema
    init_df2.printSchema()


    # 释放资源
    spark.stop()
    sc.stop()

内部初始化数据得到DataFrame

场景：一般用在开发和测试中。因为只能处理少量的数据

# 导包
import os
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, StringType, StructField

# 绑定指定的python解释器


os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'
# 创建main函数
if __name__ == '__main__':
    print('内部初始化数据得到DataFrame')
    # 创建SparkSession对象
    spark = SparkSession \
        .builder \
        .appName('inner_create_dataframe') \
        .master('local[*]') \
        .getOrCreate()
    # 2- 数据输入
    """
        内部初始化数据得到DataFrame
        通过createDataFrame创建DataFrame，schema数据类型可以是：DataType、字符串、List
            字符串：格式要求
                格式一 字段1 字段类型,字段2 字段类型
                格式二（推荐） 字段1:字段类型,字段2:字段类型

            List：格式要求
                ["字段1","字段2"]
    """
    # 方式一
    init_df = spark.createDataFrame(
        data=[(1, '张三', 18), (2, '李四', 20), (3, '王五', 22)],
        schema='id int,name string,age int'
    )

    # 方式二
    init_df = spark.createDataFrame(
        data=[(1, '张三', 18), (2, '李四', 20), (3, '王五', 22)],
        schema='id:int,name:string,age:int'
    )

    # 方式三,列表形式不能指定字段类型,有输入的数据自动推断字段类型
    init_df = spark.createDataFrame(
        data=[(1, '张三', 18), (2, '李四', 20), (3, '王五', 22)],
        schema=['id', 'name', 'age']
    )

    # 数据输出
    init_df.show()
    # 输出schema信息
    init_df.printSchema()

    # 是否资源
    spark.stop()

schema总结

通过createDataFrame创建DataFrame，schema数据类型可以是：DataType、字符串、List
1: 字符串
    格式一字段1 字段类型,字段2 字段类型
    格式二（推荐）字段1:字段类型,字段2:字段类型

2: List
    ["字段1","字段2"]

3: DataType（推荐，用的最多）
    格式一 schema = StructType()\
            .add('id',IntegerType(),False)\
            .add('name',StringType(),True)\
            .add('age',IntegerType(),False)

    格式二 schema = StructType([
            StructField('id',IntegerType(),False),
            StructField('name',StringType(),True),
            StructField('age',IntegerType(),False)
          ])

读取外部文件得到DataFrame

复杂API

统一API格式:

Sparksession.read

        .format('text | csv | json | parquet | orc | avro | jdbc | ......')    # 读取外部文件的方式

        .option('k','v')          # 选项,可以设置相关的参数(可选)

        .schema(structType | string) # 设置表的结构信息

        .load('加载数据路径')    # 读取外部文件的路径,支持HDFS也支持本地

简写API

注意:所有的复杂API外部读取方式,都有简单的写法,spark内置了一些常用的读取方案的简写

格式:

           spark.read.读取方式()

例如:

        df=spark.read.csv(

                path='文件路径',

                header=True,

                sep=' ',

                inferschema=True,

                encoding='utf-8'

        )

Text方式读取

load：支持读取HDFS文件系统和本地文件系统
            HDFS文件系统：hdfs://node1:8020/文件路径
            本地文件系统：file:///文件路径

        text方式读取文件总结：
            1- 不管文件中内容是什么样的，text会将所有内容全部放到一个列中处理
            2- 默认生成的列名叫value，数据类型string
            3- 我们只能够在schema中修改字段value的名称，其他任何内容不能修改

# 导包
import os
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

# 绑定指定的python解释器


os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'
# 创建main函数
if __name__ == '__main__':
    # text方式读取
    print('text方式读取外部文件')
    # 创建sparksession对象
    spark = SparkSession.builder.appName('text_demo').master('local[*]').getOrCreate()
    # 复杂API方式
    # 数据输入
    init_df = spark.read \
        .format('text') \
        .schema('my_file string') \
        .load('file:///export/data/pyspark_projects/02_spark_sql/data/stu.txt')
    # 数据输出
    init_df.show()
    # 输出schema
    init_df.printSchema()

    # 简写API方式
    init_df = spark.read.text(
        paths='file:///export/data/pyspark_projects/02_spark_sql/data/stu.txt'
    )
    init_df.show()
    # 输出schema
    init_df.printSchema()

CSV方式读取

csv格式读取外部文件总结：
    1- 复杂API和简写API都须掌握
    2- 相关参数作用说明：
        2.1- path：指定读取的文件路径。支持HDFS和本地文件路径
        2.2- schema：手动指定元数据信息
        2.3- sep：指定字段间的分隔符
        2.4- encoding：指定文件的编码方式
        2.5- header：指定文件中的第一行是否是字段名称
        2.6- inferSchema：根据数据内容自动推断数据类型。但是，推断结果可能不精确

# 导包
import os
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

# 绑定指定的python解释器


os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'
# 创建main函数
if __name__ == '__main__':
    # json方式读取
    print('csv方式读取外部文件')
    # 创建sparksession对象
    spark = SparkSession.builder.appName('csv_demo').master('local[*]').getOrCreate()
    # 复杂API方式
    # 数据输入
    init_df = spark.read \
        .format('csv') \
        .option('sep', ' ') \
        .option('encoding', 'utf8') \
        .option('header', 'True') \
        .schema(schema='id int,name string,address string,sex string,age int') \
        .load('file:///export/data/pyspark_projects/02_spark_sql/data/stu.txt')
    # 数据输出
    init_df.show()
    # 输出schema
    init_df.printSchema()
    print('='*50)
    #简写API方式
    init_df = spark.read.csv(
        path='file:///export/data/pyspark_projects/02_spark_sql/data/stu.txt',
        schema='id int,name string,address string,sex string,age int',
        sep=' ',
        encoding='utf8',
        header=True
    )
    init_df.show()
    # 输出schema
    init_df.printSchema()

JSON方式读取

json读取数据总结：
1- 需要手动指定schema信息。如果手动指定的时候，字段名称与json中的key名称不一致，会解析不成功，以null值填充
2- csv/json中schema的结构，如果是字符串类型，那么字段名称和字段数据类型间，只能以空格分隔

# 导包
import os
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

# 绑定指定的python解释器


os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'
# 创建main函数
if __name__ == '__main__':
    # json方式读取
    print('json方式读取外部文件')
    # 创建sparksession对象
    spark = SparkSession.builder.appName('json_demo').master('local[*]').getOrCreate()
    # 复杂API方式
    # 数据输入
    init_df = spark.read \
        .format('json') \
        .option('sep', ':') \
        .option('header', 'True') \
        .option('encoding', 'utf8') \
        .schema(schema='id int,name string,age int,address string') \
        .load('file:///export/data/pyspark_projects/02_spark_sql/data/json.txt')
    # 数据输出
    init_df.show()
    # 输出schema
    init_df.printSchema()
    print('=' * 50)
    # # 简写API方式
    init_df = spark.read.json(
        path='file:///export/data/pyspark_projects/02_spark_sql/data/json.txt',
        schema='id int,name string,age int,address string',
        encoding='utf8'
    )
    init_df.show()
    # 输出schema
    init_df.printSchema()

    # 释放资源
    spark.stop()

集群部署时的分布式 session 如何实现？打不死的喜羊羊 JAVA 分布式会话
面试题集群部署时的分布式session如何实现？面试官心理分析面试官问了你一堆dubbo是怎么玩儿的，你会玩儿dubbo就可以把单块系统弄成分布式系统，然后分布式之后接踵而来的就是一堆问题，最大的问题就是分布式事务、接口幂等性、分布式锁，还有最后一个就是分布式session。当然了，分布式系统中的问题何止这么一点，非常之多，复杂度很高，这里只是说一下常见的几个问题，也是面试的时候常问的几个。面试题
分布式微服务系统架构第90集：现代化金融核心系统掘金-我是哪吒分布式微服务系统架构金融架构
#1.1深化数字化转型，核心面临新挑战1、架构侧：无法敏捷协同数字金融经营模式转型。2、需求侧：业务需求传导低效始终困扰金融机构。3、开发侧：创新产品上市速度低于期望。4、运维侧：传统面向资源型监控体系难以支撑现代化核心。5、监管侧：对业务连续性导向趋严趋细。6、成本侧：单客核心的运营成本逐渐走高。#1.2重塑现代化核心，科技引领新趋势1、新理念：重构行业差异化竞争力的服务体系。2、新架构：构建面
网络拓扑映射器 ManageEngine卓豪网络工具网络拓扑网络映射网络拓扑工具
网络拓扑是一个概念，用于定义和描述IT基础设施网络中设备或元素之间的互连，管理员可以使用网络拓扑映射软件或网络拓扑映射器工具上的网络拓扑图查看网络拓扑。网络拓扑映射软件：满足网络可视化需求的必备工具网络拓扑映射软件或使IT管理员能够了解整个网络基础设施的组织方式。使用网络图软件，IT管理员可以更好地可视化和概念化网络和设备依赖关系。管理分布式网络的IT管理员需要对其网络进行地理可视化。自动网络映射
《大数据时代“快刀”：Flink实时数据处理框架优势全解析》程序猿阿伟大数据 flink
在数字化浪潮中，数据呈爆发式增长，实时数据处理的重要性愈发凸显。从金融交易的实时风险监控，到电商平台的用户行为分析，各行业都急需能快速处理海量数据的工具。Flink作为一款开源的分布式流处理框架，在这一领域崭露头角，备受瞩目。一、真正实时，毫秒级响应与部分将流处理模拟为微批处理的框架不同，Flink是专为实时流处理打造的“原生”引擎。它直接处理持续不断的事件流，无需将数据攒成批次再处理，这种设计赋
XXL-RPC v1.8.0 | 分布式服务框架
ReleaseNotes1、【重构】针对“Core/核心模块”进行架构模块化重构，拆分Provider、Invoker、Serializer、Remoting、Registry和Boot等六个核心模块：Provider：定位为服务提供者，提供RPC服务端能力，包括RCP/HTTPServer、业务Service扫描维护、服务执行等能力。Invoker：定位为服务调用者，提供RPC客户端能力，包括R
看深度求索如何思索自己的未来 tuan_zhang 东方艾艾与探宇计划绝密芯片计划战略欺骗太空探索人工智能算法攻坚工业软件
深度求索（DeepSeek）的崛起无疑是AI领域的一次现象级突破，但其未来能否持续"狂飙"，需从技术、生态、商业和行业环境四个维度进行系统性分析：一、技术护城河的虚实验证1.动态优化技术的含金量：将模型迭代周期压缩至周级别需突破分布式训练瓶颈。其公布的训练效率提升数据（30%时间缩短、50%推理加速）若经第三方验证，可能重构行业技术标准。对比谷歌TPU+JAX框架实现的20%效率提升，深度求索的技
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
vdist-1.3.1：Python项目自动化构建与分发工具 46497976464
本文还有配套的精品资源，点击获取简介：vdist-1.3.1.tar.gz是一个Python项目的自动化构建、打包和分发工具的源代码压缩包，采用tar.gz格式，支持在不同环境中快速部署。它集成了分布式系统支持，如Zookeeper，以及云原生技术标准，确保了高效的软件生命周期管理。该工具具备依赖管理、自动化构建流程、环境隔离和多平台支持等功能，并提供了解压后目录结构的详细说明。1.vdist-1
CDH_6.3.2的搭建我的K8409 Flink linux 大数据分布式
一站式搭建大数据的应用1、前提条件和准备工作hostnamectlset-hostnamecdh01hostnamectlset-hostnamecdh02hostnamectlset-hostnamecdh032、修改IP和Host映射关系（所有节点）在window中也配置一下vim/etc/hosts192.168.92.201cdh01192.168.92.202cdh02192.168.9
HBase Shell基本操作 wanglingli95 大数据开发 hbase 数据库大数据
一、进入HbaseShell客户端先在LinuxShell命令行终端执行start-dfs.sh脚本启动HDFS，再执行start-hbase.sh脚本启动HBase。如果Linux系统已配置HBase环境变量，可直接在任意目录下执行hbaseshell脚本命令，就可进入HBaseShell的命令行终端环境，exit可以退出HBaseShell（我安装的是伪分布式的HBase）。（1）help帮助
大数据笔记之 Flink1.17 算子凡许真大数据 flink1.17 算子
文章目录前言一、Partition分区（物理分区）1.1随机分区shuffle1.2轮询分区rebalance1.3重缩放分区rescale1.4广播分区broadcast1.5全局分区global1.6keyby1.7自定义分区Custom二、transform2.1flatMap2.2filter2.3RichFunction2.4map三、Aggregate聚合3.1keyBy()3.2ma
如何在 Kafka 中实现自定义分区器 My LQS 学习笔记篇历史经验篇 kafka 分布式
今天我来给大家分享一下如何在Kafka中实现一个自定义分区器。Kafka是一个分布式流处理平台，能够高效地处理海量数据。默认情况下，Kafka使用键的哈希值来决定消息应该发送到哪个分区，但是有时我们需要根据特定的业务逻辑来定制分区策略。这时候，自定义分区器就显得格外重要了。什么是Kafka分区器？Kafka中的分区器（Partitioner）决定了每条消息应该被发送到哪个分区。Kafka默认提供了
探索全球分布式数据库的新篇章：Azure Cosmos DB .NET SDK v3 施刚爽
探索全球分布式数据库的新篇章：AzureCosmosDB.NETSDKv3azure-cosmos-dotnet-v3.NETSDKforAzureCosmosDBforthecoreSQLAPI项目地址:https://gitcode.com/gh_mirrors/az/azure-cosmos-dotnet-v3AzureCosmosDB.NETSDKv3是一个强大的开发工具包，专为连接并利用
【Git】使用笔记总结悬铃木下的青春杂篇 git 笔记
目录概述安装Git注册GitHub配置Git常用命令常见场景1.修改文件2.版本回退3.分支管理常见问题1.gitadd[中文文件夹]无法显示中文问题2.gitadd[文件夹]文件名中含有空格3.gitadd触发LF回车换行警告4.gitpush提示不存在Origin仓库5.Git与GitHub中默认分支不一致问题6.gitpull提示无法合并无关联仓库概述Git是一个开源的分布式版本控制系统，用
分布式服务接口的幂等性如何设计（比如不能重复扣款）？码农小旋风后端
面试题分布式服务接口的幂等性如何设计（比如不能重复扣款）？面试官心理分析从这个问题开始，面试官就已经进入了实际的生产问题的面试了。一个分布式系统中的某个接口，该如何保证幂等性？这个事儿其实是你做分布式系统的时候必须要考虑的一个生产环境的技术问题。啥意思呢？你看，假如你有个服务提供一些接口供外部调用，这个服务部署在了5台机器上，接着有个接口就是付款接口。然后人家用户在前端上操作的时候，不知道为啥，总
如何学习Java后端开发写代码的大学生学习 java 开发语言
文章目录一、Java语言基础二、数据库与持久层三、Web开发基础四、主流框架与生态五、分布式与高并发六、运维与部署七、项目实战八、持续学习与提升总结路线图学习Java后端开发需要系统性地掌握多个技术领域，从基础到进阶逐步深入。以下是一个详细的学习路线和建议，帮助你高效入门并逐步提升：一、Java语言基础核心语法数据类型、流程控制、数组、字符串等基础语法。面向对象（OOP）：封装、继承、多态、抽象类
C/S架构与B/S架构嗯嗯= 架构
一.C/S架构与B/S架构的简述1.1什么是C./S架构C/S架构（Client/ServerArchitecture）是一种软件系统的基本架构模式，客户端负责用户界面和业务逻辑，服务器负责数据存储和处理。C/S架构是一个分布式的计算架构，客户端通过网络连接与服务器通信，完成任务。C/S架构的优点是数据处理效率高，实现灵活，但缺点是维护和安全方面的要求较高，且需要长期维护客户端和服务器。1.2什么
jwt权限验证原理深圳卢先生数据安全开发语言 java
1.JWT，全称是JsonWebToken，是一种JSON风格的轻量级的授权和身份认证规范，可实现无状态、分布式的Web应用授权！2.JWT由三部分组成：头部（Header）:通常包含令牌的类型（即JWT）和加密算法（如HMACSHA256或RSA）。例如：{"alg":"HS256","typ":"JWT"}载荷（Payload）:包含要传递的声明（Claims）。声明总共可以包括如下七项，但是
01.双Android容器解决方案高桐@BILL 容器 Android
目录写在前面一，容器1.1容器的原理1.1.1Namespace1.1.2Cgroups（ControlGroups）1.1.3联合文件系统（UnionFileSystem）1.2容器的应用1.2.1微服务架构1.2.2持续集成和持续部署（CI/CD）1.2.3多租户环境1.2.4混合云和多云环境1.2.5大数据和机器学习1.2.6android应用场景1.3容器方案选型1.3.1Docker1.
监控易：智慧高校一体化综合运维解决方案 MXsoft618 运维信息安全物联网监控类
新冠疫情发生以来，线上线下教育模式的初探，促使学校、家长和社会对于教育信息化认识产生巨大的转变。伴随着云计算和物联网的发展，教育已经开启了一个全新的时代。自“十三五”规划中明确提出“支持各级各类学校建设智慧校园，综合利用互联网、大数据、人工智能和虚拟现实技术探索未来教育教学新模式”以来，政策春风也不断加码教育信息化进程，《教育信息化2.0行动计划》以及《智慧校园总体框架》的相继发布，全国各地都在积
监控易：一体化智能运维在复杂网络环境的架构优势 MXsoft618 智能运维管理系统运维管理一体化监控平台智能运维数据库
在现代企业中，IT基础设施已成为业务成功的重要基石。面对海量设备与复杂的网络结构，传统的监控工具往往难以满足动态化、海量化的需求。监控易以其“一体化智能运维”的产品理念，成为运维领域的优势品牌。本文将从架构优势入手，深入探讨监控易如何通过领先的技术实现分布式复杂网络的灵活扩展，并为企业提供高效、稳定、可靠的运维支持。监控易的功能与竞争力一体化智能运维的核心理念监控易定位为“一体化智能运维”平台，致
【Sharding-Jdbc总结】壹佰大多 java java spring 数据库 spring cloud
文章目录shard-jdbc介绍核心功能分库分表：分布式事务：客户端框架：适用场景核心组件代码实现导包配置文件sql语句java代码shard-jdbc介绍Sharding-JDBC是ApacheShardingSphere的一个模块，它是一个轻量级的Java数据访问框架，通过增强JDBC驱动实现了分库分表、分布式事务、读写分离和数据加密等功能。它适用于任何基于JDBC的应用程序。核心功能分库分表
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
Redisson详解好运仔dzl Java笔记 redis 分布式 spring boot
什么是Redisson？什么业务中用过Redis的分布式锁？在SpringBoot中怎么用分布式锁？用的是哪个工具类？怎么设这个分布式锁？什么是Redisson？Redisson是一个用于Java的Redis客户端，它不仅提供了对Redis命令的访问，还实现了多种分布式对象、锁和同步工具。Redisson的设计目标是简化在分布式系统中使用Redis的复杂度，并为开发者提供更高层次的抽象，以便更容易
缓存的多种实现方式养生编程大队长 Java学习缓存
1.谷歌的guava包下面的Cache，基于内存的缓存2.自定义缓存，例如使用静态Map实现3.分布式缓存redis，memcached4.EHcache
Java 分布式与微服务架构：现代企业应用开发的新范式来恩1003 Java 从入门到精通架构 java 分布式
Java学习资料Java学习资料Java学习资料一、引言在当今数字化时代，企业应用面临着越来越高的性能、可扩展性和灵活性要求。传统的单体架构在应对大规模用户访问、复杂业务逻辑和频繁的功能迭代时，逐渐暴露出诸多问题。Java分布式与微服务架构应运而生，为解决这些问题提供了有效的方案。它们使得企业能够构建出更加高效、灵活和可维护的应用系统。二、分布式架构基础2.1分布式架构的概念分布式架构是将一个完整
Hadoop HA 架构 weixin_30569033 shell 大数据
为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件,都是主从架构master-slaveHDFS读写请求都是先到NN节点,但是,HBase读写请求不是经过master,建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务(-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active对外,另外一台是
守护每一比特的安全——探索基于差分隐私的MySQL数据脱敏之道墨夶数据库学习资料2 安全 mysql 数据库
在当今数字化时代，随着互联网和大数据技术的发展，数据的价值愈发凸显。然而，随之而来的个人隐私泄露风险也日益增加，成为社会广泛关注的问题之一。特别是在医疗、金融等领域，如何既能充分利用海量数据资源推动行业发展，又能有效保护用户隐私不被侵犯，成为了亟待解决的重要课题。本文将深入探讨一种创新的数据安全共享方案——基于差分隐私（DifferentialPrivacy,DP）的MySQL数据库实现方法，旨在
分布式系统架构7：本地缓存快乐非自愿架构缓存
1.引入缓存的影响我们在开发时，用到缓存的情况，无非就是为了减少客户端对相同资源的重复请求，降低服务器的负载压力。引入缓存后，既有好处也有坏处引入缓存负面影响：开发角度，增加了系统复杂度，需考虑缓存失效、更新、一致性问题运维角度，缓存会掩盖一些缺陷问题安全角度，缓存可能泄密某些保密数据引入缓存的理由：为了缓解CPU压力，将实时计算运行结果存储起来，节省CPU压力为了缓解I/O压力，将原本对网络、磁
云原生：构建现代化应用的基石 moton2017 后端架构云原生微服务容器 kubernetes docker
一、什么是云原生？云原生是一种构建和运行应用程序的方法，旨在充分利用云计算的分布式系统优势，例如弹性伸缩、微服务架构、容器化技术等。云原生应用程序从设计之初就考虑到了云环境的特点，能够更好地适应云平台的动态变化，并充分发挥云计算的优势。1.云原生核心特点：容器化：使用容器技术（如Docker）将应用打包成独立的容器镜像，实现快速部署和隔离。微服务架构：将单体应用拆分成多个松耦合的微服务，每个微服务
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

PySpark-Spark SQL基本介绍

Spark SQL基本介绍

Spark SQL特点

Spark SQL与Hive的异同

Spark SQL的数据结构

Spark SQL的入门

创建SparkSession对象

DataFrame详解

DataFrame基本介绍

DataFrame的构建方式

RDD构建DataFrame

内部初始化数据得到DataFrame

schema总结

读取外部文件得到DataFrame

Text方式读取

CSV方式读取

JSON方式读取

你可能感兴趣的:(spark,大数据,分布式)