不温卜火

Spark SQL 快速入门系列(2) | SparkSession与DataFrame的简单介绍

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客主页：https://buwenbuhuo.blog.csdn.net/

上一篇博客已经为大家介绍完了SparkSQL的基本概念以及其提供的两个编程抽象：DataFrame和DataSet，本篇博客，博主要为大家介绍的是关于SparkSQL编程的内容。本篇作为该系列的第一篇博客,为大家介绍的是SparkSession与DataFrame。

目录

一. SparkSession
二. 使用 DataFrame 进行编程

2.1 创建 DataFrame

1. 通过 Spark 数据源创建

2.2 DataFrame 语法风格

1. SQL 语法风格(主要)
2. DSL 语法风格(了解)

1. 查看 Schema 信息
2. 使用 DSL 查询

2.3 RDD 和 DataFrame 的交互

1. 从 RDD 到 DataFrame
2. 从 DataFrame到RDD

一. SparkSession

在老的版本中，SparkSQL 提供两种 SQL 查询起始点：一个叫SQLContext，用于Spark 自己提供的 SQL 查询；一个叫 HiveContext，用于连接 Hive 的查询。

从2.0开始, SparkSession是 Spark 最新的 SQL 查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的 API 在SparkSession上同样是可以使用的。

SparkSession内部封装了SparkContext，所以计算实际上是由SparkContext完成的。

当我们使用 spark-shell 的时候, spark 会自动的创建一个叫做spark的SparkSession, 就像我们以前可以自动获取到一个sc来表示SparkContext

二. 使用 DataFrame 进行编程

Spark SQL 的 DataFrame API 允许我们使用 DataFrame 而不用必须去注册临时表或者生成 SQL 表达式.

DataFrame API 既有 transformation操作也有action操作. DataFrame的转换从本质上来说更具有关系, 而 DataSet API 提供了更加函数式的 API

2.1 创建 DataFrame

With a SparkSession, applications can create DataFrames from an existing RDD, from a Hive table, or from Spark data sources.

有了 SparkSession 之后, 通过 SparkSession有 3 种方式来创建DataFrame:

通过 Spark 的数据源创建
通过已知的 RDD 来创建
通过查询一个 Hive 表来创建.

1. 通过 Spark 数据源创建

1. 查看Spark数据源进行创建的文件格式

2. 读取json文件创建DataFrame

// 读取 json 文件
scala> val df = spark.read.json("file:///opt/module/spark/examples/src/main/resources/employees.json")
df: org.apache.spark.sql.DataFrame = [name: string, salary: bigint]

3. 展示结果

// 展示结果
scala> df.show
+-------+------+
|   name|salary|
+-------+------+
|Michael|  3000|
|   Andy|  4500|
| Justin|  3500|
|  Berta|  4000|
+-------+------+

关于通过 RDD 进行转换和通过查询 Hive 表创建，博主会在后面专门探讨

2.2 DataFrame 语法风格

1. SQL 语法风格(主要)

SQL 语法风格是指我们查询数据的时候使用 SQL 语句来查询.

这种风格的查询必须要有临时视图或者全局视图来辅助

1. 读取json文件创建DataFrame

// 读取 json 文件
scala> val df = spark.read.json("file:///opt/module/spark/examples/src/main/resources/employees.json")
df: org.apache.spark.sql.DataFrame = [name: string, salary: bigint]

2. 对DataFrame创建一个临时表

scala> df.createOrReplaceTempView("people")

3. 通过SQL语句实现查询全表

scala> spark.sql("select * from people").show
+-------+------+
|   name|salary|
+-------+------+
|Michael|  3000|
|   Andy|  4500|
| Justin|  3500|
|  Berta|  4000|
+-------+------+

注意：

临时视图只能在当前 Session 有效, 在新的 Session 中无效.
可以创建全局视图. 访问全局视图需要全路径:如global_temp.xxx

4. 对于DataFrame创建一个全局表

scala> val df = spark.read.json("file:///opt/module/spark-local/examples/src/main/resources/people.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

scala> df.createGlobalTempView("people")

5. 通过SQL语句实现查询全表

scala> spark.sql("select * from global_temp.people")
res31: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

scala> res5.show
+-------+------+
|   name|salary|
+-------+------+
|Michael|  3000|
|   Andy|  4500|
| Justin|  3500|
|  Berta|  4000|
+-------+------+



scala> spark.newSession.sql("select * from global_temp.people")
res33: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

scala> res7.show
+-------+------+
|   name|salary|
+-------+------+
|Michael|  3000|
|   Andy|  4500|
| Justin|  3500|
|  Berta|  4000|
+-------+------+

2. DSL 语法风格(了解)

DataFrame提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据. 可以在 Scala, Java, Python 和 R 中使用 DSL

使用 DSL 语法风格不必去创建临时视图了.

1. 查看 Schema 信息

scala> val df = spark.read.json("file:///opt/module/spark-local/examples/src/main/resources/people.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

scala> df.printSchema
root
|-- age: long (nullable = true)
|-- name: string (nullable = true)

2. 使用 DSL 查询

1. 只查询name列数据

scala> df.select($"name").show
+-------+
|   name|
+-------+
|Michael|
|   Andy|
| Justin|
+-------+


scala> df.select("name").show
+-------+
|   name|
+-------+
|Michael|
|   Andy|
| Justin|
+-------+

2. 查询name和age

scala> df.select("name", "age").show
+-------+----+
|   name| age|
+-------+----+
|Michael|null|
|   Andy|  30|
| Justin|  19|
+-------+----+

3. 查询name和age + 1

// 设计到运算的时候, 每列都必须使用$
scala> df.select($"name", $"age" + 1).show
+-------+---------+
|   name|(age + 1)|
+-------+---------+
|Michael|     null|
|   Andy|       31|
| Justin|       20|
+-------+---------+

4. 查询age大于20的数据

scala> df.filter($"age" > 21).show
+---+----+
|age|name|
+---+----+
| 30|Andy|
+---+----+

5. 按照age分组，查看数据条数

scala> df.groupBy("age").count.show
+----+-----+
| age|count|
+----+-----+
|  19|    1|
|null|    1|
|  30|    1|
+----+-----+

2.3 RDD 和 DataFrame 的交互

1. 从 RDD 到 DataFrame

涉及到RDD, DataFrame, DataSet之间的操作时, 需要导入:import spark.implicits._ 这里的spark不是包名, 而是表示SparkSession 的那个对象. 所以必须先创建SparkSession对象再导入. implicits是一个内部object

首先创建一个RDD

scala> val rdd1 = sc.textFile("/opt/module/spark-local/examples/src/main/resources/people.txt")
rdd1: org.apache.spark.rdd.RDD[String] = /opt/module/spark-local/examples/src/main/resources/people.txt MapPartitionsRDD[10] at textFile at <console>:24

1. 手动转换

scala> val rdd2 = rdd1.map(line => { val paras = line.split(", "); (paras(0), paras(1).toInt)})
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[11] at map at <console>:26

// 转换为 DataFrame 的时候手动指定每个数据字段名
scala> rdd2.toDF("name", "age").show
+-------+---+
|   name|age|
+-------+---+
|Michael| 29|
|   Andy| 30|
| Justin| 19|
+-------+---+

2. 通过样例类反射转换(最常用)

// 1.创建样例类
scala> case class People(name :String, age: Int)
defined class People

// 2.使用样例把 RDD 转换成DataFrame
scala> val rdd2 = rdd1.map(line => { val paras = line.split(", "); People(paras(0), paras(1).toInt) })
rdd2: org.apache.spark.rdd.RDD[People] = MapPartitionsRDD[6] at map at <console>:28

scala> rdd2.toDF.show
+-------+---+
|   name|age|
+-------+---+
|Michael| 29|
|   Andy| 30|
| Justin| 19|
+-------+---+

3. 通过 API 的方式转换

package day05

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object DataFrameDemo2 {
    def main(args: Array[String]): Unit = {

        val spark: SparkSession = SparkSession.builder()
            .master("local[*]")
            .appName("Word Count")
            .getOrCreate()
        val sc: SparkContext = spark.sparkContext
        val rdd: RDD[(String, Int)] = sc.parallelize(Array(("lisi", 10), ("zs", 20), ("zhiling", 40)))
        // 映射出来一个 RDD[Row], 因为 DataFrame其实就是 DataSet[Row]
        val rowRdd: RDD[Row] = rdd.map(x => Row(x._1, x._2))
        // 创建 StructType 类型
        val types = StructType(Array(StructField("name", StringType), StructField("age", IntegerType)))
        val df: DataFrame = spark.createDataFrame(rowRdd, types)
        df.show

    }
}

2. 从 DataFrame到RDD

直接调用DataFrame的rdd方法就完成了从转换.

scala> val df = spark.read.json("/opt/module/spark-local/examples/src/main/resources/people.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

scala> val rdd = df.rdd
rdd: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = MapPartitionsRDD[6] at rdd at <console>:25

scala> rdd.collect
res0: Array[org.apache.spark.sql.Row] = Array([null,Michael], [30,Andy], [19,Justin])

说明：

得到的RDD中存储的数据类型是:Row.

本次的分享就到这里了,

好书不厌读百回，熟读课思子自知。而我想要成为全场最靓的仔，就必须坚持通过学习来获取更多知识，用知识改变命运，用博客见证成长，用行动证明我在努力。
如果我的博客对你有帮助、如果你喜欢我的博客内容，请“点赞” “评论”“收藏”一键三连哦！听说点赞的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。
码字不易，大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦！

你可能感兴趣的:(Spark,spark,大数据)

《传统教培机构的痛点：数字化转型如何破局？》
数字化浪潮下的困境在当今时代，数字化浪潮正以前所未有的速度席卷全球，深刻地改变着人们的生活、工作和学习方式。这是一个数据爆炸的时代，数据成为了驱动社会发展的核心要素之一。据统计，全球每天产生的数据量高达数万亿字节，这些数据涵盖了人们生活的方方面面，从购物习惯到社交行为，从健康状况到学习偏好，都被数字化记录下来。[]()数字化时代的技术创新日新月异，人工智能、大数据、云计算、物联网等新兴技术不断涌现
Aerospike 小的~~ nosql Aerospike
文章来源：拉勾教育Java高薪训练营第3期Aerospike介绍Aerospike（简称AS）是一个分布式，可扩展的键值存储的NoSQL数据库。T级别大数据高并发的结构化数据存储读写操作达微妙级，99%的响应可在1毫秒内实现采用混合架构，索引存储在内存中，而数据可存储在机械硬盘(HDD)或固态硬盘(SSD)上（也可存储在内存）AS内部在访问SSD屏蔽了文件系统层级，直接访问地址，保证了数据的读取速
6个大数据应用案例雪兽软件科技前沿大数据
根据市场数据预测报告，到2026年，全球大数据市场可能达到2684亿美元。随着大数据市场的快速增长，组织正在利用大数据来获得洞察力，帮助他们做出更好的决策，改善运营，最终推动最佳增长。从医疗保健到金融，从零售到电信，大数据正被用于改变行业的运作方式，使企业能够创造新的收入来源，增强客户体验，提高运营效率。这个全面的博客将探索令人兴奋的大数据用例领域，探索商业组织如何利用数据获得洞察力，推动创新，并
Java 大视界 -- Java 大数据在智能体育中的应用与赛事分析（80）青云交大数据新视界 Java 大视界 java 大数据智能体育数据采集运动员训练赛事分析赛事预测
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- Java 大数据在智能供应链中的应用与优化（76）青云交大数据新视界 Java 大视界大数据智能供应链数据采集整合数据存储管理需求预测物流调度风险管理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
基于 GBase 数据库的海量数据处理与性能优化 big crab 数据库 oracle
一、引言随着大数据时代的到来，海量数据的存储和高效处理成为各行业的核心需求。GBase系列数据库（包括GBase8a、GBase8s和GBase8c）以其强大的性能、灵活的存储架构以及高效的查询优化功能，成为处理大规模数据的理想选择。本文将从GBase数据库的特性出发，探讨如何在实际应用中进行海量数据的高效处理，同时提供相关代码示例，帮助开发者更好地理解和应用GBase数据库。二、GBase数据库
GBase 8a慢SQL优化案例-2 通过分析函数改写不等值关联排序取值 dudulang8088 sql 数据库数据仓库
某气象现场一条查询语句，大数据场景下，单个机构查询耗时5分钟以上，需要分析，SQL语句如下：SELECTt.station_no,t.collect_time_stamp,t.r2020,t.topFROM(SELECTt1.station_no,t1.collect_time_stamp,t1.r2020,(SELECTCOUNT(*)+1FROM(SELECTstation_no,--站点编号
数据驱动业务增长，E-MapReduce 真实案例解析 Anna_Tong mapreduce 大数据云计算数据分析阿里云实时计算数据驱动
在大数据时代，数据已经成为企业核心竞争力的关键因素之一。无论是电商、金融、物流还是制造业，企业都在探索如何更高效地处理、分析和利用海量数据，以实现精准决策、优化运营并提升业务增长。然而，面对PB级甚至EB级的数据规模，传统的本地大数据计算架构往往难以满足性能和成本的要求。如何在保证计算效率的同时降低运维成本，成为企业数据战略中的关键挑战。阿里云E-MapReduce（EMR）作为一款云原生的大数据
GBase 数据库的高性能架构与优化实践 big crab 数据库架构
引言随着信息技术的快速发展，数据库作为支撑各行各业数据存储和处理的核心技术之一，承担着越来越重要的角色。在现代企业中，大数据量、复杂查询和高并发处理已成为普遍需求。GBase数据库作为国内领先的数据库产品之一，提供了卓越的性能和灵活的架构设计，能够高效处理复杂的事务、分析查询和海量数据。本文将探讨GBase数据库的高性能架构，并结合实际案例展示其优化实践。一、GBase数据库架构概述GBase数据
大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_bert+lstm 2301_76348014 程序员深度学习大数据知识图谱
文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介Django技术介绍Neo4j数据库Bootstrap4框架Echarts简介NavicatPremium15简介Layui简介Python语言介绍MySQL数据库深度学习六、核心理论贪心算法A
大数据专业毕业设计选题118例：数据挖掘数据分析可视化 HaiLang_IT 毕设选题教程毕业设计大数据数据挖掘
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
Spark 性能优化（四）：Cache LevenBigData spark 性能调优 spark 性能优化大数据
在Spark中，缓存是一种将计算结果存储在内存中的方式，目的是加速后续操作。当你执行迭代算法或查询时，如果多次重复使用相同的数据集，缓存可以避免每次都重新计算相同的转换操作。通过缓存，Spark可以将数据存储在内存中，这样在后续的处理阶段就能更快地访问。1.Spark缓存的关键点：缓存基本概念：通过调用.cache()对DataFrame或RDD进行缓存。默认情况下，数据会存储在内存中（RAM），
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
使用Docker搭建Flink集群 O_1CxH Flink大数据 Kafka大数据 docker flink 容器
目录使用Docker搭建Flink集群docker-compose一键搭建步骤附录参考资料使用Docker搭建Flink集群在学习大数据框架的时候，需要一个真实的环境。我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管
国家网络安全宣传周 | 2024年网络安全领域重大政策法规一览网安加社区安全网络安全政策法规
随着我国网络安全政策法规不断健全，网络安全工作机制也日渐成熟，各项工作已稳步步入法治化的轨道，与此同时，网络安全标准体系逐步清晰，安全防线日益坚固，为国家的网络安全建设提供了坚实的基础。网安加社区特为大家整理了2024年国内发布的网络安全领域相关政策法规，希望能为广大从业者与关注者提供相关参考，共同促进网络安全生态的健康发展。2024年网络安全重大政策法规一览◉1.《旅游大数据安全与隐私保护要求（
【计算机毕设选题】2025计算机毕业设计选题推荐-高通过率选题指南（二）计算机YiDian 计算机毕设实战案例毕业设计选题/开题源码计算机毕业设计选题毕业设计选题计算机毕设选题计算机毕业设计
计算机毕业设计作为大学生涯的收官之作，承载着对学生专业技能、创新思维及实践能力的全面考验。随着信息技术的飞速发展，计算机毕业设计的形式也日益多样化，从传统的网站（Web）开发到新兴的小程序、APP构建，再到大数据分析与处理，每一种形式都代表着不同的技术挑战与实现路径。本文旨在探讨这些多样化的毕业设计形式及其背后的技术支撑，为即将踏上毕业设计征程的学子们提供一份详实的参考指南，对毕设开发需要帮助，以
Mongodb主从模式最佳方案 Christian Bai mongodb 数据库
我整理的一些关于【Java】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/bLN8S1MongoDB主从模式最佳方案MongoDB是一款开源的文档型数据库，被广泛应用于许多现代应用中。其强大的性能和灵活的数据结构使得它特别适合处理大数据和高并发访问。本文将介绍MongoDB的主从模式，并提供最佳方案和示例代码，帮助你更好地理解这种模式的运作原理。什么
DeepSeek推荐未来好就业的十大专业东锋1.3 人工智能 deepseek推荐就业
一、人工智能与数据科学专业聚焦人工智能、大数据技术、计算机科学与技术、机器学习、数据科学与大数据技术等专业，构成了这一前沿领域的核心。这些专业旨在培养学生掌握从数据收集、处理到模型构建、算法优化的全流程能力。就业前景洞察人工智能已广泛渗透到医疗、金融、制造、交通等众多领域。在医疗领域，AI辅助诊断系统帮助医生更精准地识别疾病；金融行业里，智能风控模型有效防范风险。未来，算法工程师负责开发和优化各种
云桌面主流架构解析与应用场景分析一休哥助手架构
引言随着云计算、大数据和虚拟化技术的快速发展，云桌面作为一种高效、安全、便捷的办公方式，逐渐被企业、教育和政府等多个领域广泛采用。云桌面通过虚拟化技术将计算资源集中管理，并将桌面操作系统、应用程序和数据存储在云端。用户通过终端设备访问云桌面，从而实现随时随地的灵活办公。云桌面架构的设计是其性能、安全性和用户体验的关键因素。目前主流的云桌面架构有多种类型，包括集中式架构、分布式架构、混合式架构等。本
微信视频号中的“多位朋友看过”是真的有朋友看过，还是系统分析过大数据后推荐的？ cda2024 微信大数据
不知道你有没有注意到，在微信视频号里，经常会出现“多位朋友看过”的提示。这一行小字往往能勾起人们的好奇心，让人不由自主地想要点击观看。那么，这究竟是不是真的意味着我们的朋友确确实实地浏览过这些视频呢？今天，我们就来聊聊这个话题。一、社交网络背后的算法在探讨这个问题之前，我们首先得了解一下社交网络平台背后的算法原理。社交网络平台的推荐机制主要依赖于大数据分析技术，通过用户的行为习惯、兴趣偏好等多维度
云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术 2301_79098963 程序员云计算大数据人工智能
物联网一、物联网的基本概念二、物联网的特征(一)物体感知(二)信息传输(三)智能处理三、物联网关键技术(一)射频识别技术(二)产品电子编码(三)短距离通信技术(四)互联网(五)感知控制技术(六)无线网络技术(七)中间件技术(八)智能处理技术四、物联网的应用领域虚拟现实技术一、VR的基本概念二、VR的特征(一)沉浸性(二)人交互性(三)多感知性(四)想象性(五)自主性三、VR的技术应用(一)在影视娱
阿里云MWC 2019发布7款重磅产品，助力全球企业迈向智能化数据库技术分享者大数据数据库人工智能
当地时间2月25日，在巴塞罗那举行的MWC2019上，阿里云面向全球发布了7款重磅产品，涵盖无服务器计算、高性能存储、全球网络、企业级数据库、大数据计算等主要云产品，可满足电子商务、物流、金融科技以及制造等各行业企业的数字化转型需求，助力全球企业迈向智能化。在大会期间，阿里云还携手德勤、RedHat以及VMware等合作伙伴展示了从基础设施到企业级应用的智能化解决方案。阿里云在MWC2019上展示
Spark 和 Flink 信徒_ spark flink 大数据
Spark和Flink都是目前流行的大数据处理引擎，但它们在架构设计、应用场景、性能和生态方面有较大区别。以下是详细对比：1.架构与核心概念方面ApacheSparkApacheFlink计算模型微批（Micro-Batch）为主，但支持结构化流（StructuredStreaming）原生流（TrueStreaming），基于事件驱动处理方式以RDD、DataFrame/Dataset作为核心抽
尚硅谷课程【笔记】——大数据之Zookeeper【一】赶紧写完去睡觉大数据生态圈大数据 zookeeper linux
课程视频：【尚硅谷Zookeeper教程】一、Zookeeper入门概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责同志已经在Zookeeper上注册的哪些观察者做出
spark任务运行冰火同学 Spark spark 大数据分布式
运行环境在这里插入代码片[root@hadoop000conf]#java-versionjavaversion"1.8.0_144"Java(TM)SERuntimeEnvironment(build1.8.0_144-b01)[root@hadoop000conf]#echo$JAVA_HOME/home/hadoop/app/jdk1.8.0_144[root@hadoop000conf]#
集群与分片：深入理解及应用实践一休哥助手架构系统架构
目录引言什么是集群？集群的定义集群的类型什么是分片？分片的定义分片的类型集群与分片的关系集群的应用场景负载均衡高可用性分片的应用场景大数据处理数据库分片集群与分片的架构设计系统架构设计数据存储设计案例分析Hadoop集群Elasticsearch分片性能优化策略集群性能优化分片性能优化挑战和解决方案总结参考资料引言在现代计算系统中，处理大规模数据和提高系统的可靠性已经成为了基础需求。集群和分片是两
【Redis】golang操作Redis基础入门寸铁 go 数据库 Redis redis golang 数据库 CRUD 基本操作分布式键值对
【Redis】golang操作Redis基础入门大家好我是寸铁总结了一篇【Redis】golang操作Redis基础入门sparkles:喜欢的小伙伴可以点点关注Redis的作用Redis（RemoteDictionaryServer）是一个开源的内存数据库，它主要用于存储键值对，并提供多种数据结构的支持。Redis的主要作用包括：1.缓存:Redis可以作为缓存系统，将常用的数据缓存在内存中，以
hive spark读取hive hbase外表报错分析和解决 spring208208 hive hive spark hbase
问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。“org.apache.hadoop.hbase.client.RetriesExhaustedException:Can’tgetthelocations”问题2：s
如何学习Elasticsearch（ES）：从入门到精通的完整指南狮歌~资深攻城狮 jenkins 运维 elasticsearch 大数据
如何学习Elasticsearch（ES）：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据搜索和分析感兴趣，并且想要掌握Elasticsearch这一强大的分布式搜索引擎，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解Elasticsearch。1.基础知识准备1.1理解全文搜索在开始学习Elasticsearch之前，建议先了解一下全文搜索的基本概念。全文搜索
如何学习HBase：从入门到精通的完整指南狮歌~资深攻城狮 hbase 大数据
如何学习HBase：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据存储感兴趣，并且想要掌握HBase这一强大的分布式数据库，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解HBase。1.基础知识准备1.1理解NoSQL数据库在开始学习HBase之前，建议先了解一下NoSQL数据库的基本概念和分类。NoSQL数据库与传统的关系型数据库（如MySQL）有很大的不同，
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他