E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkSession
Spark读取MySQL中的数据为DataFrame
//聚合的时候默认分区是200,可以在此设置valspark=
SparkSession
.builder().master("local").appName("schema").config("spark.sql.shuffle.partitions
墨玉浮白
·
2019-07-30 21:06
Spark
Spark读取json格式文件
一、普通json格式valsession=
SparkSession
.builder().appName("sql").master("local").getOrCreate()valdf=session.read.format
墨玉浮白
·
2019-07-30 19:50
Spark
Spark Sql 处理groupby 的数据倾斜问题
importjava.util.Randomimportorg.apache.spark.sql.SparkSessionobjectTestUDF{defmain(args:Array[String]):Unit={valspark=
SparkSession
.builder
ZhuangYQ丶
·
2019-07-29 21:26
大数据学习
Spark
数据算法——Spark的TopN实现
然后把剩下的逐个对应数组中的元素,*有大的就把小的弹出去,大的加进来,并移动位置来重新排序*/objectTopN{defmain(args:Array[String]):Unit={valsession=
SparkSession
.builder
墨玉浮白
·
2019-07-23 20:50
Spark
SparkSession
、SparkContext、SQLContext和HiveContext之间的区别。
SparkContext是什么?驱动程序使用SparkContext与集群进行连接和通信,它可以帮助执行Spark任务,并与资源管理器(如YARN或Mesos)进行协调。使用SparkContext,可以访问其他上下文,比如SQLContext和HiveContext。使用SparkContext,我们可以为Spark作业设置配置参数。如果您在spark-shell中,那么SparkContext
lillcol
·
2019-07-23 17:00
Spark 读写数据、抽象转换 拾遗
{Dataset,Row,SaveMode,
SparkSession
}/***@authorAdministrator*2019/7/22-17:09**/objectTestReadData{valspark
lillcol
·
2019-07-22 22:00
3. Spark SQL解析
3.1新的起始点
SparkSession
在老的版本中,SparkSQL提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive
铖歌
·
2019-07-22 08:00
Spark 初始化对象
Spark1+和Spark2+初始化SparkContext有所区别,现列出Spark1.5.1和Spark2+中初始化sc方式:1.Spark2+先创建一个
SparkSession
对象:通过config
daoxu_hjl
·
2019-07-21 00:00
Spark
sparkSQL实现对hive动态分区
1.开始hive动态分区参数valspark=
SparkSession
.builder().appName(“test”).enableHiveSupport().config(“spark.sql.adaptive.enabled
weixin_42412645
·
2019-07-19 18:28
Spark
spark通过jdbc连接数据库
valconf=newSparkConf().setAppName("jdbctest").setMaster("local[*]")valsession=
SparkSession
.builder().
怎么全部重名了
·
2019-07-18 17:16
spark
Spark系列 —— Spark访问读写MySQL
1.基于整型列设置并行度先上代码,对着代码再做详细的解释:defreadByIntegralColumn(spark:
SparkSession
):Unit={valoptions=Map("url"->
A&F
·
2019-07-17 21:04
Spark
spark sql保存DataFrame到mysql & 从mysql读取数据
cust.txt:1,smith,122,bob,133,alex,144,alice,156,mike,261.保存DataFrame到mysqlimportorg.apache.spark.sql.
SparkSession
赵厚雄
·
2019-07-15 13:42
大数据
spark sql保存DataFrame成json格式与读取json数据成DataFrame
133,alex,144,alice,156,mike,261.将DataFrame转换为json数据格式importorg.apache.sparkimportorg.apache.spark.sql.
SparkSession
赵厚雄
·
2019-07-15 12:06
大数据
Spark每日半小时(37)——Spark Streaming:(下)
我们必须使用StreamingContext正在使用地SparkContext创建
SparkSession
。此外,必须如此,才可以在驱动器故障时重新启动。
DK_ing
·
2019-07-08 14:41
#
大数据——Spark每日半小时
#
Spark每日半小时
spark读取MySQL的方式及并发度优化
前段时间用
sparksession
读取MySQL的一个表的时候,出现耗时长,频繁出现oom等情况,去网上查找了一下,是因为用的默认读取jdbc方式,单线程任务重,所以出现耗时长,oom等现象.这时候需要提高读取的并发度
a904364908
·
2019-07-07 16:20
大数据
spark
大数据运维
PySaprk 将 DataFrame 数据保存为 Hive 分区表
PySaprk将DataFrame数据保存为Hive分区表创建SparkSessionfrompyspark.sqlimportSparkSessionspark=
SparkSession
.builder.enableHiveSupport
XnCSD
·
2019-06-28 18:48
pyspark
Spark每日半小时(30)——结构化流式编程:Dataset/DataFrame API1:基本操作
与静态Dataset/DataFrame类似,我们可以使用公共入口点
SparkSession
从流源创建流式Dataset/DataFrame,并对它们应用与静态Dataset/DataFrame相同的操作
DK_ing
·
2019-06-28 09:26
#
大数据——Spark每日半小时
#
Spark每日半小时
spark RDD编程实践例子
本文把spark基本操作函数方法详细描述,并应用实践sparkSesion:是对在spark2.0后出现了
sparksession
的方法来声明sparkconf和context:是spark早期版本的数据生成
jacobwe
·
2019-06-25 14:28
大数据开发
大数据spark笔记
spark dataframe/dataset解析json字符串的字段
defmain(args:Array[String]):Unit={Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)valspark=
SparkSession
.builder
master.zZ
·
2019-06-23 11:03
spark
spark sql(phoenix cdh4.14.0)遇到的问题
=column_encoded_bytes=0;2.TIMESTAMP和DATE类型的数据相差八个小时3.sparksql读取数据的两种方式
sparkSession
.sqlContext.phoenixTableAsDataFramespark.read.format
luo222
·
2019-06-20 15:40
大数据
Spark读写MySQL
1.Spark读取MySQL数据1.spark.read.jdbc()defmain(args:Array[String]):Unit={valspark=
SparkSession
.builder().
心有余力
·
2019-06-18 16:37
Spark
MySQL
spark通过jdbc读取数据库的并行
代码如下:valconf=newSparkConf().setAppName("testMysqlToHiveJdbc").setMaster("local")valspark=
SparkSession
.builder
Wind_LPH
·
2019-06-16 18:00
Spark SQL,DataFrame 和Datasets 指南--Spak2.4.3
目录SparkSQL,DataFrame,DatasetSQLDatasets和DataFrameStart出发吧:
SparkSession
创建DataFrame非泛型Dataset操作(即DataFrame
涯若
·
2019-06-15 23:24
大数据
Spark
SQL
Hive
SQL
Spark----RDD,DF,DS效率比较
{Dataset,
SparkSession
}objectTest_DF_DS
砥砺前行的疯子
·
2019-06-12 20:31
spark
程序人生
利用spark进行机器学习时模型序列化存储到hive解决方案
训练子工程训练模型后存储到hive,之后预测子工程项目再将模型重hive中load出来进行预测1.模型存储到hive存储很简单,将要存储的模型调用如下spark的序列化方法defserialize(spark:
SparkSession
HelloData
·
2019-06-09 00:00
人工智能
机器学习
model
spark
序列化
Spark 系列(十二)—— Spark SQL JOIN操作
分别创建员工和部门的Datafame,并注册为临时视图,代码如下:valspark=
SparkSession
.builder().appName("aggregations").master("local
hei bai ying
·
2019-06-08 08:08
Spark
Spark 系列(十一)—— Spark SQL 聚合函数 Aggregations
_valspark=
SparkSession
.builder().appName("aggregations").master("local[2]").getOrCreate()valempDF=spark.read.json
hei bai ying
·
2019-06-08 08:04
Spark
spark动态更新hive表的分区数据
使用spark操作hive的时候,当需要对hive的分区表进行动态更新分区内容时,可在
SparkSession
中进行如下设置
SparkSession
.builder().master("yarn").appName
Alex.liu
·
2019-05-31 17:08
Spark
SparkSQL访问Hive遇到的问题及解决方法
需要先将hadoop的core-site.xml,hive的hive-site.xml拷贝到project中测试代码defmain(args:Array[String]):Unit={valspark:
SparkSession
小朋友2D
·
2019-05-30 12:52
Spark
Spark 数据读取冷启动优化分析
InMemoryFileIndexbeforespark2.1afterspark2.1优化HDFS获取File元数据性能文件元数据读取方式及元数据缓存管理结语参考背景Spark一次查询过程可以简单抽象为planning阶段和execution阶段,在一个新的
SparkSession
breeze_lsw
·
2019-05-27 18:53
Spark
生产环境中的spark
基于Spark2.X系列的累加器和Streaming基础
Spark2.0系列引入了一个更加简单和更高性能的累加器API,如在1.X版本中可以这样使用累加器:valsparkSession=
SparkSession
.builder().master("local
|旧市拾荒|
·
2019-05-21 21:00
Spark SQL有关broadcast join的不生效问题2
今天同事反应他的广播不生效,看了一下代码,它的代码样子如下: defmain(args:Array[String]):Unit={ valspark=
SparkSession
.builder().appName
javartisan
·
2019-05-21 00:00
scala 中 insertinto 插入hive数据数据重复或者乱码或者为空
pyspark.sql.html#pyspark.sql.DataFrameReaderhive数据读取:#读取hive要加enableHiveSupport(),以可以使用hql对hive进行操作spark=
SparkSession
.builder.enableHiveSupport
lbf_ML
·
2019-05-16 14:11
dataprocessing
scala
SparkSQL DataFrame和Dataset基本操作
1.正常打印输出1)创建SparkSessionvalspark=
SparkSession
.builder().appName("dfdemo").master("local[*]").getOrCreate
猫君之上
·
2019-04-29 21:50
Spark
Spark读取mysql大数据量最佳实践 备忘
至于最佳实践,噱头嘛~~~Spark读取关系型数据库,官方有API接口,如下:①、
SparkSession
.read.jdbc(url,table,properties)②、
SparkSession
.read.jdbc
精通要饭
·
2019-04-29 11:34
spark
spark的DataFrame数据保存到hdfs产生过多小文件该怎么解决
所以可以再save之前设置dataframe的partitions设置为0,但是这样设置一定会影响spark写入的性能valresult:DataFrame=WorkOperator(dataFrame,
sparkSession
love_zy0216
·
2019-04-24 10:35
用shell命令行查询hive的数据库的过程
deploy-modeclient--queueweimi.xxxx命令行.2.然后输入你想要查找的命令行importorg.apache.spark.sql.SparkSessionvalsparkBuilder=
SparkSession
.builder
回忆19930207
·
2019-04-12 14:54
pyspark离线多表合并
在统计中通常需要聚合多表信息到宽表,一般采用crontab+pyspark脚本1.创建sessionspark=
SparkSession
.builder.master("local").appName(
StonyBlue
·
2019-04-06 21:48
sparksql之JDBC支持
defmain(args:Array[String]):Unit={//sparkSparkSession对象操作sql语句valspark=
SparkSession
.builder().config(
LMY____梦阳� � �
·
2019-03-28 15:05
sparksql
jdbc
Windows环境下使用pyspark创建和使用DataFrame出现Py4JJavaError错误
Windows环境下使用pyspark创建和使用DataFrame出现Py4JJavaError错误测试代码frompyspark.sqlimportSparkSessionspark=
SparkSession
.builder.appName
qwq_up
·
2019-03-22 20:42
算法小白的第一次尝试---Kmeans (适用于任何维度数据)
{DataFrame,Row,
SparkSession
}importscala.collection.mu
小糖宝
·
2019-03-18 21:34
机器学习
scala
算法
Spark
Kmeans
小白的算法之路
SparkSQL实战7——综合实战完成日志分析3
需求:按地市统计主站最受欢迎的TopN课程//按照地市进行统计TopN课程defcityAccessTopNStat(spark:
SparkSession
,accessDF:DataFrame):Unit
驭风者yuzhansheng
·
2019-03-12 17:42
Spark
大数据相关
SparkSQL实战6——综合实战完成日志分析2
{DataFrame,
SparkSession
}importorg.apache.spark.sql.functions.
驭风者yuzhansheng
·
2019-03-12 12:33
Spark
大数据相关
pyspark dataframe基本用法
572019@author:lg"""frompyspark.sqlimportSparkSessionupper='/opt/spark/spark-2.4.0-bin-hadoop2.7/'spark=
SparkSession
luoganttcc
·
2019-03-08 19:47
spark
pyspark读取hbase,并将spark-rdd转化为dataframe
importjsonfrompyspark.sqlimportSparkSessionhost='192.168.11.xxx'#tablenametable='I_OCS_COLLECT'#建立spark连接spark=
SparkSession
土豆土豆,我是洋芋
·
2019-03-03 17:50
pyspark
DataFrame 转换为Dataset
ADataFrameisaDatasetorganizedintonamedcolumns.ADatasetisadistributedcollectionofdata.贴代码:packagefebruary.sqlimportorg.apache.spark.sql.
SparkSession
liuge36
·
2019-02-27 15:00
IDEA+SBT+Spark+MySQL SparkSQL连接mysql数据库驱动依赖问题(略坑)
_importorg.apache.spark.sql.Rowimportorg.apache.spark.sql.
SparkSession
liuhehe123
·
2019-02-26 16:56
spark
大数据
Scala
redis读取数据,写入mysql
{DataFrame,Dataset,Row,
SparkSession
}importredis.clients.jedis.JedisobjectRedisToMysql{defmain(ar
念念不忘_
·
2019-02-21 13:55
spark
redis
mysql
本地IDEA中使用Spark SQL 连接服务器Hive
Spark-Home/conf目录下的hive-site.xml复制到IDEA工程的resource目录下2.修改入口Spark2.x版本将SparkContext和HiveContext整合起来,统一使用
SparkSession
jzy3711
·
2019-02-19 16:43
大数据
CDH
hive
spark
Spark----SparkSQL简单操作
SparkSession
前面我们已经介绍了
SparkSession
,这里我们在系统回顾一下,并做一些补充在老的版本中,SparkSQL提供两种SQL查询起始点,一个叫SQLContext,用于Spark
XiaodunLP
·
2019-02-18 01:38
Spark
SparkSQL
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他