落花雨时

SparkSQL 数据的加载和保存

一、通用加载和保存方式

SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet

1. 加载数据

spark.read.load 是加载数据的通用方法

scala> spark.read.

csv   format   jdbc   json   load   option   options   orc   parquet   schema   table   text   textFile

如果读取不同格式的数据，可以对不同的数据格式进行设定

scala> spark.read.format("…")[.option("…")].load("…")

format("…")：指定保存的数据类型，包括"csv"、“jdbc”、“json”、“orc”、“parquet"和"textFile”。
save ("…")：在"csv"、“orc”、"parquet"和"textFile"格式下需要传入保存数据的路径。
option("…")：在"jdbc"格式下需要传入JDBC相应参数，url、user、password和dbtable

保存操作可以使用 SaveMode, 用来指明如何处理数据，使用mode()方法来设置。
有一点很重要: 这些 SaveMode 都是没有加锁的, 也不是原子操作。
SaveMode是一个枚举类，其中的常量包括：

Scala/Java	Any Language	Meaning
SaveMode.ErrorIfExists(default)	“error”(default)	如果文件已经存在则抛出异常
SaveMode.Append	“append”	如果文件已经存在则追加
SaveMode.Overwrite	“overwrite”	如果文件已经存在则覆盖
SaveMode.Ignore	“ignore”	如果文件已经存在则忽略

df.write.mode("append").json("/opt/module/data/output")

二、Parquet

Spark SQL的默认数据源为Parquet格式。Parquet是一种能够有效存储嵌套数据的列式存储格式。

数据源为Parquet文件时，Spark SQL可以方便的执行所有的操作，不需要使用format。修改配置项spark.sql.sources.default，可修改默认数据源格式。

1. 加载数据

scala> val df = spark.read.load("examples/src/main/resources/users.parquet")

scala> df.show

2. 保存数据

scala> var df = spark.read.json("/opt/module/data/input/people.json")
//保存为parquet格式
scala> df.write.mode("append").save("/opt/module/data/output")

三、 JSON

Spark SQL 能够自动推测JSON数据集的结构，并将它加载为一个Dataset[Row]，可以通过SparkSession.read.json()去加载JSON 文件。

注意：Spark读取的JSON文件不是传统的JSON文件，每一行都应该是一个JSON串。

格式如下：

{"name":"Michael"}
{"name":"Andy"， "age":30}
[{"name":"Justin"， "age":19},{"name":"Justin"， "age":19}]

1. 导入隐式转换

import spark.implicits._

2. 加载JSON文件

val path = "/opt/module/spark-local/people.json"
val peopleDF = spark.read.json(path)

3. 创建临时表

peopleDF.createOrReplaceTempView("people")

4. 数据查询

val teenagerNamesDF = spark.sql("SELECT name FROM people WHERE age BETWEEN 13 AND 19")

teenagerNamesDF.show()
+------+
|  name|
+------+
|Justin|
+------+

四、CSV

Spark SQL可以配置CSV文件的列表信息，读取CSV文件,CSV文件的第一行设置为数据列

spark.read.format("csv").option("sep", ";").option("inferSchema", "true")
	.option("header", "true")
	.load("data/user.csv")

五、MySQL

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。如果使用spark-shell操作，可在启动shell时指定相关的数据库驱动路径或者将相关的数据库驱动放到spark的类路径下。

bin/spark-shell 
--jars mysql-connector-java-5.1.27-bin.jar

我们这里只演示在Idea中通过JDBC对Mysql进行操作

1. 导入依赖

<dependency>
    <groupId>mysqlgroupId>
    <artifactId>mysql-connector-javaartifactId>
    <version>5.1.27version>
dependency>

2. 读取数据

val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQL")

//创建SparkSession对象
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()

import spark.implicits._

//方式1：通用的load方法读取
spark.read.format("jdbc")
  .option("url", "jdbc:mysql://linux1:3306/spark-sql")
  .option("driver", "com.mysql.jdbc.Driver")
  .option("user", "root")
  .option("password", "123123")
  .option("dbtable", "user")
  .load().show


//方式2:通用的load方法读取 参数另一种形式
spark.read.format("jdbc")
  .options(Map("url"->"jdbc:mysql://linux1:3306/spark-sql?user=root&password=123123",
    "dbtable"->"user","driver"->"com.mysql.jdbc.Driver")).load().show

//方式3:使用jdbc方法读取
val props: Properties = new Properties()
props.setProperty("user", "root")
props.setProperty("password", "123123")
val df: DataFrame = spark.read.jdbc("jdbc:mysql://linux1:3306/spark-sql", "user", props)
df.show

//释放资源
spark.stop()

3. 写入数据

case class User2(name: String, age: Long)
。。。
val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQL")

//创建SparkSession对象
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
import spark.implicits._

val rdd: RDD[User2] = spark.sparkContext.makeRDD(List(User2("lisi", 20), User2("zs", 30)))
val ds: Dataset[User2] = rdd.toDS
//方式1：通用的方式  format指定写出类型
 
//方式2：通过jdbc方法
val props: Properties = new Properties()
props.setProperty("user", "root")
props.setProperty("password", "123123")
ds.write.mode(SaveMode.Append).jdbc("jdbc:mysql://linux1:3306/spark-sql", "user", props)

//释放资源
spark.stop()

六、Hive

Apache Hive 是 Hadoop 上的 SQL 引擎，Spark SQL编译时可以包含 Hive 支持，也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)以及 Hive 查询语言(HiveQL/HQL)等。需要强调的一点是，如果要在 Spark SQL 中包含Hive 的库，并不需要事先安装 Hive。一般来说，最好还是在编译Spark SQL时引入Hive支持，这样就可以使用这些特性了。如果你下载的是二进制版本的 Spark，它应该已经在编译时添加了 Hive 支持。
若要把 Spark SQL 连接到一个部署好的 Hive 上，你必须把 hive-site.xml 复制到 Spark的配置文件目录中($SPARK_HOME/conf)。即使没有部署好 Hive，Spark SQL 也可以运行。需要注意的是，如果你没有部署好Hive，Spark SQL 会在当前的工作目录中创建出自己的 Hive 元数据仓库，叫作 metastore_db。此外，如果你尝试使用 HiveQL 中的 CREATE TABLE (并非 CREATE EXTERNAL TABLE)语句来创建表，这些表会被放在你默认的文件系统中的 /user/hive/warehouse 目录中(如果你的 classpath 中有配好的 hdfs-site.xml，默认的文件系统就是 HDFS，否则就是本地文件系统)。

spark-shell默认是Hive支持的；代码中是默认不支持的，需要手动指定（加一个参数即可）。

1. 内嵌的HIVE

如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可.
Hive 的元数据存储在 derby 中, 默认仓库地址:$SPARK_HOME/spark-warehouse

scala> spark.sql("show tables").show
。。。
+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
+--------+---------+-----------+

scala> spark.sql("create table aa(id int)")

。。。

scala> spark.sql("show tables").show
+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
| default|       aa|      false|
+--------+---------+-----------+

向表加载本地数据

scala> spark.sql("load data local inpath 'input/ids.txt' into table aa")

。。。

scala> spark.sql("select * from aa").show
+---+
| id|
+---+
|  1|
|  2|
|  3|
|  4|
+---+

在实际使用中, 几乎没有任何人会使用内置的 Hive

2. 外部的HIVE

如果想连接外部已经部署好的Hive，需要通过以下几个步骤：

Spark要接管Hive需要把hive-site.xml拷贝到conf/目录下
把Mysql的驱动copy到jars/目录下
如果访问不到hdfs，则需要把core-site.xml和hdfs-site.xml拷贝到conf/目录下
重启spark-shell

scala> spark.sql("show tables").show
20/04/25 22:05:14 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
+--------+--------------------+-----------+
|database|           tableName|isTemporary|
+--------+--------------------+-----------+
| default|                 emp|      false|
| default|hive_hbase_emp_table|      false|
| default| relevance_hbase_emp|      false|
| default|          staff_hive|      false|
| default|                 ttt|      false|
| default|   user_visit_action|      false|
+--------+--------------------+-----------+

3.运行Spark SQL CLI

Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行查询任务。在Spark目录下执行如下命令启动Spark SQL CLI，直接执行SQL语句，类似一Hive窗口

bin/spark-sql

4. 运行Spark beeline

Spark Thrift Server是Spark社区基于HiveServer2实现的一个Thrift服务。旨在无缝兼容HiveServer2。因为Spark Thrift Server的接口和协议都和HiveServer2完全一致，因此我们部署好Spark Thrift Server后，可以直接使用hive的beeline访问Spark Thrift Server执行相关语句。Spark Thrift Server的目的也只是取代HiveServer2，因此它依旧可以和Hive Metastore进行交互，获取到hive的元数据。
如果想连接Thrift Server，需要通过以下几个步骤：

Spark要接管Hive需要把hive-site.xml拷贝到conf/目录下
把Mysql的驱动copy到jars/目录下
如果访问不到hdfs，则需要把core-site.xml和hdfs-site.xml拷贝到conf/目录下
启动Thrift Server

sbin/start-thriftserver.sh

使用beeline连接Thrift Server

bin/beeline -u jdbc:hive2://linux1:10000 -n root

5. 代码操作Hive(IDEA)

5.1 导入依赖

<dependency>
    <groupId>org.apache.sparkgroupId>
    <artifactId>spark-hive_2.12artifactId>
    <version>3.0.0version>
dependency>

<dependency>
    <groupId>org.apache.hivegroupId>
    <artifactId>hive-execartifactId>
    <version>1.2.1version>
dependency>
<dependency>
    <groupId>mysqlgroupId>
    <artifactId>mysql-connector-javaartifactId>
    <version>5.1.27version>
dependency>

5.2 将hive-site.xml文件拷贝到项目的`resources`目录中，代码实现

//创建SparkSession
val spark: SparkSession = SparkSession
  .builder()
  .enableHiveSupport()
  .master("local[*]")
  .appName("sql")
  .getOrCreate()

注意：在开发工具中创建数据库默认是在本地仓库，通过参数修改数据库仓库的地址:

config("spark.sql.warehouse.dir", "hdfs://linux1:8020/user/hive/warehouse")

如果在执行操作时，出现如下错误：

可以代码最前面增加如下代码解决：

System.setProperty("HADOOP_USER_NAME", "root")

此处的root改为你们自己的hadoop用户名称

spark任务运行冰火同学 Spark spark 大数据分布式
运行环境在这里插入代码片[root@hadoop000conf]#java-versionjavaversion"1.8.0_144"Java(TM)SERuntimeEnvironment(build1.8.0_144-b01)[root@hadoop000conf]#echo$JAVA_HOME/home/hadoop/app/jdk1.8.0_144[root@hadoop000conf]#
python运行路径和脚本文件所在路径 Wiseehw Python
我在sublimeText2编辑python脚本程序，用ipython导入脚本模块，打开文件时总是报错，原来是路径问题deffile2matrix(filename):fp=open(filename,'r')datalines=fp.readlines()lenlines=len(datalines)dataSet=np.zeros((lenlines,3))labels=[]index=0fo
Openshift或者K8S上部署xxl-job RedCong openshift kubernetes 容器
本案例以版本2.3.0为例1.packagejarbysourcecodesourcecode:https://github.com/xuxueli/xxl-job/blob/2.3.0/2.initmysqldatabasesqlcode:https://github.com/xuxueli/xxl-job/blob/2.3.0/doc/db/tables_xxl_job.sql3.buildi
Windows环境下使用Ollama搭建本地AI大模型教程冰山上的柯莱人工智能 windows 人工智能 ollama deepseek cuda
注：Ollama仅支持Windows10及以上版本。安装Ollama去ollama官网下载对应平台及OS的安装包。运行安装包，点击“安装”按钮即可开始安装。Ollama会自动安装到你的C:\Users\\AppData\Local\Programs\Ollama目录上。安装完成后，Ollama会自动启动。启动时任务栏中图标显示如下：当Ollama未启动时，可以通过点击开始菜单Ollama快捷方式或
IDEA项目能正常启动但是get/set 方法都是爆红 TFHoney intellij-idea java
问题背景：项目中也引入了lombok的依赖,@Data注解也标注在实体类上了,但所有的get和set方法爆红,项目也可以正常启动问题原因：没有安装lombok插件问题解决：只需在idea上:file—>settings—>plugins---->搜索lombok的插件，install安装即可或者去官网下载，选择链接附上（Lombok-IntelliJIDEsPlugin|Marketplace）,
第四章：Matlab 数据处理与分析正是读书时《邂逅 matlab 人工智能大数据
第四章：Matlab数据处理与分析4.1数据的导入与导出4.1.1从文件导入数据文本文件:使用load,importdata,textscan等函数。Excel文件:使用xlsread,readtable等函数。MAT文件:使用load函数。代码示例:%从文本文件导入数据(假设文件名为data.txt)%load函数适用于纯数值数据data1=load('data.txt');%importdat
OpenMetadata 获取 MySQL 数据库表血缘关系详解 yongge 数据治理数据库 mysql 元数据治理
概述OpenMetadata是一个开源的元数据管理平台，支持端到端的血缘关系追踪。对于MySQL数据库，OpenMetadata通过解析表的外键约束、视图定义及查询日志（可选）构建表级血缘。本文结合源码分析其实现机制。环境配置与数据摄取1.配置文件示例（YAML）source:type:mysqlserviceName:mysql_devserviceConnection:config:type:
集群与分片：深入理解及应用实践一休哥助手架构系统架构
目录引言什么是集群？集群的定义集群的类型什么是分片？分片的定义分片的类型集群与分片的关系集群的应用场景负载均衡高可用性分片的应用场景大数据处理数据库分片集群与分片的架构设计系统架构设计数据存储设计案例分析Hadoop集群Elasticsearch分片性能优化策略集群性能优化分片性能优化挑战和解决方案总结参考资料引言在现代计算系统中，处理大规模数据和提高系统的可靠性已经成为了基础需求。集群和分片是两
MNIST Examples for GGML - Fully connected network Yongqiang Cheng ggml -llama.cpp -whisper.cpp GGML MNIST Examples Fully connected
MNISTExamplesforGGML-Fullyconnectednetwork1.Build2.MNISTExamplesforGGML2.1.Obtainingthedata2.2.Fullyconnectednetwork2.2.1.TotrainafullyconnectedmodelinPyTorchandsaveitasaGGUFfile2.2.2.Toevaluatethemod
MNIST Examples for GGML - Convolutional network Yongqiang Cheng ggml -llama.cpp -whisper.cpp GGML MNIST Examples Convolutional network
MNISTExamplesforGGML-Convolutionalnetwork1.Build2.MNISTExamplesforGGML2.1.Obtainingthedata2.2.Convolutionalnetwork2.2.1.TotrainaconvolutionalnetworkusingTensorFlow2.2.2.ToevaluatethemodelontheCPUusing
【Redis】golang操作Redis基础入门寸铁 go 数据库 Redis redis golang 数据库 CRUD 基本操作分布式键值对
【Redis】golang操作Redis基础入门大家好我是寸铁总结了一篇【Redis】golang操作Redis基础入门sparkles:喜欢的小伙伴可以点点关注Redis的作用Redis（RemoteDictionaryServer）是一个开源的内存数据库，它主要用于存储键值对，并提供多种数据结构的支持。Redis的主要作用包括：1.缓存:Redis可以作为缓存系统，将常用的数据缓存在内存中，以
hive spark读取hive hbase外表报错分析和解决 spring208208 hive hive spark hbase
问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。“org.apache.hadoop.hbase.client.RetriesExhaustedException:Can’tgetthelocations”问题2：s
HBase的合并操作 b1gx HBase
compact的作用flush操作会将memstore的数据落地为一个个StoreFile（HFile），那么随着时间的增长在HDFS上面就会有很多的HFile文件，这样对读操作会产生比较大的影响（读操作会对HFile进行归并查询），并且对DataNode的压力也会比较大。为了降低对读操作的影响，可以对这些HFile进行compact操作，但是compact操作会产生大量的IO，所以可以看出com
java springboot连接sqlserver使用大得369 java spring boot sqlserver
pom.xml增加sqlserver驱动com.microsoft.sqlservermssql-jdbc9.4.0.jre8application.yml配置文件server:port:9001#spring:#application:#name:dade01#datasource:#driver-class-name:com.mysql.jdbc.Driver#url:jdbc:mysql:/
如何学习Elasticsearch（ES）：从入门到精通的完整指南狮歌~资深攻城狮 jenkins 运维 elasticsearch 大数据
如何学习Elasticsearch（ES）：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据搜索和分析感兴趣，并且想要掌握Elasticsearch这一强大的分布式搜索引擎，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解Elasticsearch。1.基础知识准备1.1理解全文搜索在开始学习Elasticsearch之前，建议先了解一下全文搜索的基本概念。全文搜索
如何学习HBase：从入门到精通的完整指南狮歌~资深攻城狮 hbase 大数据
如何学习HBase：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据存储感兴趣，并且想要掌握HBase这一强大的分布式数据库，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解HBase。1.基础知识准备1.1理解NoSQL数据库在开始学习HBase之前，建议先了解一下NoSQL数据库的基本概念和分类。NoSQL数据库与传统的关系型数据库（如MySQL）有很大的不同，
【人工智能在制造业的具体应用-设备能耗优化】局外人_Jia 深度学习人工智能 c#visual studio 大数据
人工智能在制造业设备能耗优化中使用C#的具体实现方案，涵盖从数据采集到智能调控的全链路技术实现：1.多源数据采集系统工业协议通信层//ModbusTCP数据采集（使用NModbus库）publicclassModbusDataCollector{publicfloatReadPowerConsumption(byteslaveId,ushortstartAddress){usingvarclien
spark-广播变量哈哈哈哈q +spark hdfs hadoop 大数据 spark
当本地数据极大的时候，可以使用广播变量，使得减少内存。本地集合对象和分布式集合对象（RDD）进行关联的时候，需要将本地集合对象广播变量。本地的数据传输到集群上，会发到每一个线程，每一个分区。每一个进程executor，有多个线程分区，进程内的线程数据共享因此，给每一个线程发送数据会导致数据占用，浪费资源。所有，出现了广播变量，使得只发送给进程代码使用：broadcast=sc.broadcast(
ADX物化视图的内存优化与去重策略 t0_54coder 编程问题解决手册 flask python 后端个人开发
在AzureDataExplorer（ADX）中使用物化视图（MaterializedView）时，处理大规模数据集的去重和聚合操作时，可能会遇到内存问题。本文将详细讨论如何通过优化策略来克服这些问题，并提供一个具体的实例来展示如何实现。问题背景当我们尝试在ADX中创建一个物化视图，用于从源表中去除重复数据并进行聚合操作时，常常会遇到内存不足的错误。这通常是由于distinct*操作过于消耗内存，
Go 语言的优势和学习路线图 weixin_jie401214 golang 学习 java
简介Go语言又称Golang，由Google公司于2009年发布，近几年伴随着云计算、微服务、分布式的发展而迅速崛起，跻身主流编程语言之列，和Java类似，它是一门静态的、强类型的、编译型编程语言，为并发而生，所以天生适用于并发编程（网络编程）。目前Go语言支持Windows、Linux等多个平台，也可以直接在Android和iOS等移动端执行，从业务角度来看，Go语言在云计算、微服务、大数据、区
第2节下：线性表示代码带写【带注释】人间普通饼饼深度学习自学记录深度学习 python
importtorchimportmatplotlib.pyplotasplt#画图用的importrandom#随机#生成数据，w表示权重，是一维向量（张量），b表示偏置值，是一个标量defcreate_data(w,b,data_num):#torch.normal是用于生成正态分布随机数的函数，它的作用是从指定的正态分布中生成张量，其中每个元素都是从该正态分布中采样的随机数。#语法：torc
Debian1 KubernetesV1.32 NFS搭建十八点四零 k8s nfs 动态供给
1、NFS1.1服务端#服务端安装aptinstall-ynfs-kernel-server#写入共享存储目录cat>>/etc/exports<
IoTDB 集群重启某节点失败铁头乔 iotdb 数据库开源时序数据库
问题现象IoTDB1.3.3.6版本部署的3C3D集群，在重启某个节点服务时失败，报错信息为节点冲突，日志部分截图如下：问题原因当前IoTDB会根据data/confignode/system路径下的confignode-system.properties文件及data/datanode/system路径下的system.properties文件去判断是否为重启加入集群。如果该文件被误删除，则可能
知识点查漏补缺 modouwu java
1.BigDecimal为什么可以精度不丢失？BigDecimal之所以能够保持精度不丢失，主要是因为它的实现方式和数据存储结构与其他浮点数类型（如float和double）不同。BigDecimal通过一个整数数组和一个整数标度（scale）来表示数值。标度代表了小数点的位置，整数数组存储了数值的精确值。比如，数字1.234可以表示为1234和10^3的形式（即1234*10^(-3)）。这种表
架构师技术图谱 modouwu 系统架构
分布式漫谈分布式系统大数据存储微服务可落地的DDD(6)-工程结构推荐系统框架消息队列编程语言设计模式重构集群
python 读取各类文件格式的文本信息:doc,html,mht,excel 北房有佳人手写功能 python读取doc文档 python读取mht python读取excel python读取html
引言众所周知,python最强大的地方在于，python社区汇总拥有丰富的第三方库，开源的特性，使得有越来越多的技术开发者来完善python的完美性。未来人工智能，大数据方向，区块链的识别和进阶都将以python为中心来展开。咳咳咳！好像有点打广告的嫌疑了。当前互联网信息共享时代，最重要的是什么?是数据。最有价值的是什么？是数据。最能直观体现技术水平的是什么?还是数据。所以，今天我们要分享的是：如
python中常见的生成器内容哈哈哈哈q python python
在Python中，生成器（Generator）是一种特殊的迭代器，可以通过函数中的yield关键字轻松创建。生成器的主要特点有：惰性计算：生成器不会一次性计算出所有的值，而是在需要时逐个生成值。节省内存：因为不会一次性存储所有值，所以在处理大数据时效率很高。访问的形式
antd vue 表格排序升序 Ciito 前端 vue.js javascript 前端
1、按照中文首字母排序{title:'乡镇',width:100,align:'center',dataIndex:'village',//antdv表格，按中文首字母排序；升序，降序；sorter:(a,b)=>a.village.slice(0,1).charCodeAt(0)-b.village.slice(0,1).charCodeAt(0)},2、按照时间排序{title:'时间',wi
DataWhale 组队学习 wow-agent task2 体验总结归纳菜鸟码农01 学习 datawhale
一、Llama-index知识体验1.ReActAgent与业务自动化ReActAgent：通过ReActAgent，业务逻辑可以自动转换为代码，只要有相应的API，模型就可以调用。这种自动化能力使得许多业务场景变得更加高效和智能化。LlamaIndex开源工具：LlamaIndex提供了一些开源工具，帮助开发者实现这些功能。通过访问官网，开发者可以获取这些工具并应用到自己的项目中。2.Agent
DataWhale组队学习 LeetCode task4 菜鸟码农01 学习 leetcode 算法
目录1.二分查找算法介绍1.1二分查找算法简介1.2二分查找算法步骤1.3二分查找算法思想2.简单二分查找2.1题目：704.二分查找2.2解题思路3.二分查找细节3.1区间的开闭问题3.2mid的取值问题3.3出界条件的判断3.4搜索区间范围的选择4.二分查找的两种思路4.1直接法4.2排除法5.总结1.二分查找算法介绍1.1二分查找算法简介二分查找算法（BinarySearchAlgorith
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running]root@192.168.9.136:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

SparkSQL 数据的加载和保存

一、通用加载和保存方式

1. 加载数据

二、Parquet

1. 加载数据

2. 保存数据

三、 JSON

1. 导入隐式转换

2. 加载JSON文件

3. 创建临时表

4. 数据查询

四、CSV

五、MySQL

1. 导入依赖

2. 读取数据

3. 写入数据

六、Hive

1. 内嵌的HIVE

2. 外部的HIVE

3.运行Spark SQL CLI

4. 运行Spark beeline

5. 代码操作Hive(IDEA)

5.1 导入依赖

5.2 将hive-site.xml文件拷贝到项目的resources目录中，代码实现

你可能感兴趣的:(大数据,spark,yarn,big,data,大数据)

5.2 将hive-site.xml文件拷贝到项目的`resources`目录中，代码实现