SparkSession 第15页

Spark读取MySQL中的数据为DataFrame

//聚合的时候默认分区是200，可以在此设置valspark=SparkSession.builder().master("local").appName("schema").config("spark.sql.shuffle.partitions

墨玉浮白·2019-07-30 21:06

Spark读取json格式文件

一、普通json格式valsession=SparkSession.builder().appName("sql").master("local").getOrCreate()valdf=session.read.format

墨玉浮白·2019-07-30 19:50

Spark Sql 处理groupby 的数据倾斜问题

importjava.util.Randomimportorg.apache.spark.sql.SparkSessionobjectTestUDF{defmain(args:Array[String]):Unit={valspark=SparkSession.builder

ZhuangYQ丶·2019-07-29 21:26

数据算法——Spark的TopN实现

然后把剩下的逐个对应数组中的元素，*有大的就把小的弹出去，大的加进来，并移动位置来重新排序*/objectTopN{defmain(args:Array[String]):Unit={valsession=SparkSession.builder

墨玉浮白·2019-07-23 20:50

SparkSession、SparkContext、SQLContext和HiveContext之间的区别。

SparkContext是什么?驱动程序使用SparkContext与集群进行连接和通信，它可以帮助执行Spark任务，并与资源管理器(如YARN或Mesos)进行协调。使用SparkContext，可以访问其他上下文，比如SQLContext和HiveContext。使用SparkContext，我们可以为Spark作业设置配置参数。如果您在spark-shell中，那么SparkContext

lillcol·2019-07-23 17:00

Spark 读写数据、抽象转换拾遗

{Dataset,Row,SaveMode,SparkSession}/***@authorAdministrator*2019/7/22-17:09**/objectTestReadData{valspark

lillcol·2019-07-22 22:00

3. Spark SQL解析

3.1新的起始点SparkSession在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive

铖歌·2019-07-22 08:00

Spark 初始化对象

Spark1+和Spark2+初始化SparkContext有所区别，现列出Spark1.5.1和Spark2+中初始化sc方式：1.Spark2+先创建一个SparkSession对象:通过config

daoxu_hjl·2019-07-21 00:00

sparkSQL实现对hive动态分区

1.开始hive动态分区参数valspark=SparkSession.builder().appName(“test”).enableHiveSupport().config(“spark.sql.adaptive.enabled

weixin_42412645·2019-07-19 18:28

spark通过jdbc连接数据库

valconf=newSparkConf().setAppName("jdbctest").setMaster("local[*]")valsession=SparkSession.builder().

怎么全部重名了·2019-07-18 17:16

Spark系列 —— Spark访问读写MySQL

1.基于整型列设置并行度先上代码，对着代码再做详细的解释：defreadByIntegralColumn(spark:SparkSession):Unit={valoptions=Map("url"->

A&F·2019-07-17 21:04

spark sql保存DataFrame到mysql & 从mysql读取数据

cust.txt:1,smith,122,bob,133,alex,144,alice,156,mike,261.保存DataFrame到mysqlimportorg.apache.spark.sql.SparkSession

赵厚雄·2019-07-15 13:42

spark sql保存DataFrame成json格式与读取json数据成DataFrame

133,alex,144,alice,156,mike,261.将DataFrame转换为json数据格式importorg.apache.sparkimportorg.apache.spark.sql.SparkSession

赵厚雄·2019-07-15 12:06

Spark每日半小时（37）——Spark Streaming：（下）

我们必须使用StreamingContext正在使用地SparkContext创建SparkSession。此外，必须如此，才可以在驱动器故障时重新启动。

DK_ing·2019-07-08 14:41

spark读取MySQL的方式及并发度优化

前段时间用sparksession读取MySQL的一个表的时候,出现耗时长,频繁出现oom等情况,去网上查找了一下,是因为用的默认读取jdbc方式,单线程任务重,所以出现耗时长,oom等现象.这时候需要提高读取的并发度

a904364908·2019-07-07 16:20

PySaprk 将 DataFrame 数据保存为 Hive 分区表

PySaprk将DataFrame数据保存为Hive分区表创建SparkSessionfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.enableHiveSupport

XnCSD·2019-06-28 18:48

Spark每日半小时（30）——结构化流式编程：Dataset/DataFrame API1：基本操作

与静态Dataset/DataFrame类似，我们可以使用公共入口点SparkSession从流源创建流式Dataset/DataFrame，并对它们应用与静态Dataset/DataFrame相同的操作

DK_ing·2019-06-28 09:26

spark RDD编程实践例子

本文把spark基本操作函数方法详细描述，并应用实践sparkSesion：是对在spark2.0后出现了sparksession的方法来声明sparkconf和context：是spark早期版本的数据生成

jacobwe·2019-06-25 14:28

spark dataframe/dataset解析json字符串的字段

defmain(args:Array[String]):Unit={Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)valspark=SparkSession.builder

master.zZ·2019-06-23 11:03

spark sql（phoenix cdh4.14.0）遇到的问题

=column_encoded_bytes=0;2.TIMESTAMP和DATE类型的数据相差八个小时3.sparksql读取数据的两种方式sparkSession.sqlContext.phoenixTableAsDataFramespark.read.format

luo222·2019-06-20 15:40

Spark读写MySQL

1.Spark读取MySQL数据1.spark.read.jdbc()defmain(args:Array[String]):Unit={valspark=SparkSession.builder().

心有余力·2019-06-18 16:37

spark通过jdbc读取数据库的并行

代码如下：valconf=newSparkConf().setAppName("testMysqlToHiveJdbc").setMaster("local")valspark=SparkSession.builder

Wind_LPH·2019-06-16 18:00

Spark SQL，DataFrame 和Datasets 指南--Spak2.4.3

目录SparkSQL,DataFrame,DatasetSQLDatasets和DataFrameStart出发吧：SparkSession创建DataFrame非泛型Dataset操作（即DataFrame

涯若·2019-06-15 23:24

Spark----RDD,DF,DS效率比较

{Dataset,SparkSession}objectTest_DF_DS

砥砺前行的疯子·2019-06-12 20:31

利用spark进行机器学习时模型序列化存储到hive解决方案

训练子工程训练模型后存储到hive，之后预测子工程项目再将模型重hive中load出来进行预测1.模型存储到hive存储很简单，将要存储的模型调用如下spark的序列化方法defserialize(spark:SparkSession

HelloData·2019-06-09 00:00

Spark 系列（十二）—— Spark SQL JOIN操作

分别创建员工和部门的Datafame，并注册为临时视图，代码如下：valspark=SparkSession.builder().appName("aggregations").master("local

hei bai ying·2019-06-08 08:08

Spark 系列（十一）—— Spark SQL 聚合函数 Aggregations

_valspark=SparkSession.builder().appName("aggregations").master("local[2]").getOrCreate()valempDF=spark.read.json

hei bai ying·2019-06-08 08:04

spark动态更新hive表的分区数据

使用spark操作hive的时候，当需要对hive的分区表进行动态更新分区内容时，可在SparkSession中进行如下设置SparkSession.builder().master("yarn").appName

Alex.liu·2019-05-31 17:08

SparkSQL访问Hive遇到的问题及解决方法

需要先将hadoop的core-site.xml，hive的hive-site.xml拷贝到project中测试代码defmain(args:Array[String]):Unit={valspark:SparkSession

小朋友2D·2019-05-30 12:52

Spark 数据读取冷启动优化分析

InMemoryFileIndexbeforespark2.1afterspark2.1优化HDFS获取File元数据性能文件元数据读取方式及元数据缓存管理结语参考背景Spark一次查询过程可以简单抽象为planning阶段和execution阶段，在一个新的SparkSession

breeze_lsw·2019-05-27 18:53

基于Spark2.X系列的累加器和Streaming基础

Spark2.0系列引入了一个更加简单和更高性能的累加器API，如在1.X版本中可以这样使用累加器：valsparkSession=SparkSession.builder().master("local

|旧市拾荒|·2019-05-21 21:00

Spark SQL有关broadcast join的不生效问题2

今天同事反应他的广播不生效，看了一下代码，它的代码样子如下： defmain(args:Array[String]):Unit={ valspark=SparkSession.builder().appName

javartisan·2019-05-21 00:00

scala 中 insertinto 插入hive数据数据重复或者乱码或者为空

pyspark.sql.html#pyspark.sql.DataFrameReaderhive数据读取：#读取hive要加enableHiveSupport()，以可以使用hql对hive进行操作spark=SparkSession.builder.enableHiveSupport

lbf_ML·2019-05-16 14:11

SparkSQL DataFrame和Dataset基本操作

1.正常打印输出1）创建SparkSessionvalspark=SparkSession.builder().appName("dfdemo").master("local[*]").getOrCreate

猫君之上·2019-04-29 21:50

Spark读取mysql大数据量最佳实践备忘

至于最佳实践，噱头嘛~~~Spark读取关系型数据库，官方有API接口，如下：①、SparkSession.read.jdbc(url,table,properties)②、SparkSession.read.jdbc

精通要饭·2019-04-29 11:34

spark的DataFrame数据保存到hdfs产生过多小文件该怎么解决

所以可以再save之前设置dataframe的partitions设置为0，但是这样设置一定会影响spark写入的性能valresult:DataFrame=WorkOperator(dataFrame,sparkSession

love_zy0216·2019-04-24 10:35

用shell命令行查询hive的数据库的过程

deploy-modeclient--queueweimi.xxxx命令行.2.然后输入你想要查找的命令行importorg.apache.spark.sql.SparkSessionvalsparkBuilder=SparkSession.builder

回忆19930207·2019-04-12 14:54

pyspark离线多表合并

在统计中通常需要聚合多表信息到宽表，一般采用crontab+pyspark脚本1.创建sessionspark=SparkSession.builder.master("local").appName(

StonyBlue·2019-04-06 21:48

sparksql之JDBC支持

defmain(args:Array[String]):Unit={//sparkSparkSession对象操作sql语句valspark=SparkSession.builder().config(

LMY____梦阳� � �·2019-03-28 15:05

Windows环境下使用pyspark创建和使用DataFrame出现Py4JJavaError错误

Windows环境下使用pyspark创建和使用DataFrame出现Py4JJavaError错误测试代码frompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName

qwq_up·2019-03-22 20:42

算法小白的第一次尝试---Kmeans (适用于任何维度数据)

{DataFrame,Row,SparkSession}importscala.collection.mu

小糖宝·2019-03-18 21:34

SparkSQL实战7——综合实战完成日志分析3

需求：按地市统计主站最受欢迎的TopN课程//按照地市进行统计TopN课程defcityAccessTopNStat(spark:SparkSession,accessDF:DataFrame):Unit

驭风者yuzhansheng·2019-03-12 17:42

SparkSQL实战6——综合实战完成日志分析2

{DataFrame,SparkSession}importorg.apache.spark.sql.functions.

驭风者yuzhansheng·2019-03-12 12:33

pyspark dataframe基本用法

572019@author:lg"""frompyspark.sqlimportSparkSessionupper='/opt/spark/spark-2.4.0-bin-hadoop2.7/'spark=SparkSession

luoganttcc·2019-03-08 19:47

pyspark读取hbase,并将spark-rdd转化为dataframe

importjsonfrompyspark.sqlimportSparkSessionhost='192.168.11.xxx'#tablenametable='I_OCS_COLLECT'#建立spark连接spark=SparkSession

土豆土豆，我是洋芋·2019-03-03 17:50

DataFrame 转换为Dataset

ADataFrameisaDatasetorganizedintonamedcolumns.ADatasetisadistributedcollectionofdata.贴代码：packagefebruary.sqlimportorg.apache.spark.sql.SparkSession

liuge36·2019-02-27 15:00

IDEA+SBT+Spark+MySQL SparkSQL连接mysql数据库驱动依赖问题(略坑)

_importorg.apache.spark.sql.Rowimportorg.apache.spark.sql.SparkSession

liuhehe123·2019-02-26 16:56

redis读取数据,写入mysql

{DataFrame,Dataset,Row,SparkSession}importredis.clients.jedis.JedisobjectRedisToMysql{defmain(ar

念念不忘_·2019-02-21 13:55

本地IDEA中使用Spark SQL 连接服务器Hive

Spark-Home/conf目录下的hive-site.xml复制到IDEA工程的resource目录下2.修改入口Spark2.x版本将SparkContext和HiveContext整合起来，统一使用SparkSession

jzy3711·2019-02-19 16:43

Spark----SparkSQL简单操作

SparkSession前面我们已经介绍了SparkSession,这里我们在系统回顾一下,并做一些补充在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark

XiaodunLP·2019-02-18 01:38

推荐频道

SparkSession