富兰克林008

spark-sql测试总结

spark-sql测试总结
最近倒腾spark-sql，原来测试都是很小的数据，由于自己的是6个虚拟机资源有限，也不能太大，于是在找了帖子。

http://colobu.com/2014/12/11/spark-sql-quick-start/
Spark SQL 初探：使用大数据分析2000万数据

############## 不要问我数据怎么下载的，自己搜索，我用完就删了。
1、文件检查，shell中wc和awk命令帮忙检查一下行和列。

############ head 一下文件，得知，都有列头，逗号分隔。因为涉及名字隐私信息，只打印列头，第二行开始是具体记录。

[hue@snn 2000w]$ head -1 1-200W.csv
Name,CardNo,Descriot,CtfTp,CtfId,Gender,Birthday,Address,Zip,Dirty,District1,District2,District3,District4,District5,District6,
FirstNm,LastNm,Duty,Mobile,Tel,Fax,EMail,Nation,Taste,Education,Company,CTel,CAddress,CZip,Family,Version,id
[hue@snn 2000w]$

############ wc 检查一下行数

[hadoop@snn 2000w]$ cat 1000W-1200W.csv | wc -l
2000050
[hadoop@snn 2000w]$ cat 1200W-1400W.csv | wc -l
2000205
[hadoop@snn 2000w]$ cat 1-200W.csv | wc -l
2000094
[hadoop@snn 2000w]$

############ awk 检查一下列数，33列

[hadoop@snn 2000w]$ awk 'BEGIN {FS=","}END{print "Filename:" FILENAME ",Linenumber:" NR ",Columns:" NF}' 1000W-1200W.csv

Filename:1000W-1200W.csv,Linenumber:2000050,Columns:33

####################################

2、hdfs创建文件夹，并put文件上去

[hue@snn ~]$ hadoop fs -mkdir /user/hue/external/2000w
[hue@snn ~]$ hadoop fs -put /opt/2000w/* /user/hue/external/2000w/
[hue@snn ~]$ hadoop fs -ls -R /user/hue/external/2000w/
-rw-r--r-- 3 hue hue 348173735 2015-12-17 14:36 /user/hue/external/2000w/1-200W.csv
-rw-r--r-- 3 hue hue 317365192 2015-12-17 14:36 /user/hue/external/2000w/1000W-1200W.csv
-rw-r--r-- 3 hue hue 307266272 2015-12-17 14:36 /user/hue/external/2000w/1200W-1400W.csv
-rw-r--r-- 3 hue hue 319828719 2015-12-17 14:36 /user/hue/external/2000w/1400W-1600W.csv
-rw-r--r-- 3 hue hue 310125772 2015-12-17 14:37 /user/hue/external/2000w/1600w-1800w.csv
-rw-r--r-- 3 hue hue 298454235 2015-12-17 14:37 /user/hue/external/2000w/1800w-2000w.csv
-rw-r--r-- 3 hue hue 311349431 2015-12-17 14:38 /user/hue/external/2000w/200W-400W.csv
-rw-r--r-- 3 hue hue 311013782 2015-12-17 14:38 /user/hue/external/2000w/400W-600W.csv
-rw-r--r-- 3 hue hue 308703632 2015-12-17 14:38 /user/hue/external/2000w/600W-800W.csv
-rw-r--r-- 3 hue hue 310797175 2015-12-17 14:38 /user/hue/external/2000w/800W-1000W.csv
-rw-r--r-- 3 hue hue 7487744 2015-12-17 14:38 /user/hue/external/2000w/last_5000.csv
[hue@snn ~]$

####################################

3、创建外部表，不用挪动文件，即可查询。

Create external table IF NOT EXISTS external_2000w
(
Name String,
CardNo String,
Descriot String,
CtfTp String,
CtfId String,
Gender String,
Birthday String,
Address String,
Zip String,
Dirty String,
District1 String,
District2 String,
District3 String,
District4 String,
District5 String,
District6 String,
FirstNm String,
LastNm String,
Duty String,
Mobile String,
Tel String,
Fax String,
EMail String,
Nation String,
Taste String,
Education String,
Company String,
CTel String,
CAddress String,
CZip String,
Family String,
Version String,
id int
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/user/hue/external/2000w/';

##########################################################################################################
4、专题查询

############################ 全部记录，文件夹下11个文件，结构一样

select count(1) as cnt from external_2000w;

spark-sql> select count(1) as cnt from external_2000w;
20051440
Time taken: 27.806 seconds, Fetched 1 row(s)
spark-sql>

############################ 11 个文件，11个列头需要剔除。

select count(1) as cnt from external_2000w where name == 'Name';

spark-sql> select count(1) as cnt from external_2000w where name == 'Name';
11
Time taken: 29.432 seconds, Fetched 1 row(s)
spark-sql>

############################ 剔除列头，一共“20051429”条记录
select count(1) as cnt from external_2000w where name != 'Name';

spark-sql> select count(1) as cnt from external_2000w where name != 'Name';
20051429
Time taken: 34.129 seconds, Fetched 1 row(s)
spark-sql>

########################### 异常数据筛选，性别不是（M,F）

select count(1) as cnt from external_2000w where name != 'Name' and Gender not in('M','F');

spark-sql> select count(1) as cnt from external_2000w where name != 'Name' and Gender not in('M','F');
802043
Time taken: 34.735 seconds, Fetched 1 row(s)
spark-sql>

########################### 男女分组统计

select Gender,count(1) as cnt from external_2000w where name != 'Name' and Gender in('M','F') GROUP BY Gender;

spark-sql> select Gender,count(1) as cnt from external_2000w where name != 'Name' and Gender in('M','F') GROUP BY Gender;
F 6478121
M 12771211
Time taken: 41.875 seconds, Fetched 2 row(s)
spark-sql>

########################### 星座分组统计

select XingZuo,count(1) as cnt from (
select
CASE
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 120 and substring(Birthday,5) <= 219 THEN "水瓶座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 220 and substring(Birthday,5) <= 320 THEN "双鱼座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 321 and substring(Birthday,5) <= 420 THEN "白羊座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 421 and substring(Birthday,5) <= 521 THEN "金牛座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 522 and substring(Birthday,5) <= 621 THEN "双子座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 622 and substring(Birthday,5) <= 722 THEN "巨蟹座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 723 and substring(Birthday,5) <= 823 THEN "狮子座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 824 and substring(Birthday,5) <= 923 THEN "处女座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 924 and substring(Birthday,5) <= 1023 THEN "天秤座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 1024 and substring(Birthday,5) <= 1122 THEN "天蝎座"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 1123 and substring(Birthday,5) <= 1222 THEN "射手座"
WHEN (length(Birthday) == 8 and substring(Birthday,5) >= 120 and substring(Birthday,5) <= 1231)
or (length(Birthday) == 8 and substring(Birthday,5) >= 101 and substring(Birthday,5) <= 119) THEN "摩蝎座"
ELSE "未知"
END AS XingZuo
from external_2000w where name != 'Name'
) as atable
group by XingZuo;

弹出很多乱七八糟的东西，难道是中文引起的，不要中文试试。

########################

select XingZuo,count(1) as cnt from (
select
CASE
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 120 and substring(Birthday,5) <= 219 THEN "A"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 220 and substring(Birthday,5) <= 320 THEN "B"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 321 and substring(Birthday,5) <= 420 THEN "C"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 421 and substring(Birthday,5) <= 521 THEN "D"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 522 and substring(Birthday,5) <= 621 THEN "E"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 622 and substring(Birthday,5) <= 722 THEN "F"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 723 and substring(Birthday,5) <= 823 THEN "G"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 824 and substring(Birthday,5) <= 923 THEN "H"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 924 and substring(Birthday,5) <= 1023 THEN "I"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 1024 and substring(Birthday,5) <= 1122 THEN "J"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 1123 and substring(Birthday,5) <= 1222 THEN "K"
WHEN (length(Birthday) == 8 and substring(Birthday,5) >= 120 and substring(Birthday,5) <= 1231)
or (length(Birthday) == 8 and substring(Birthday,5) >= 101 and substring(Birthday,5) <= 119) THEN "L"
ELSE "M"
END AS XingZuo
from external_2000w
where name != 'Name'
) as atable
group by XingZuo;

A 1636084
B 1510535
C 1410462
D 1406847
E 1406631
F 1498724
G 1614266
H 1666768
I 1897450
J 1820476
K 1615660
L 2406878
M 160648
Time taken: 91.985 seconds, Fetched 13 row(s)

跟那个帖子的结果有点差异。过滤条件不一样？

############################ 结果直接存入一个表格。

create table external_2000w_new as
select substring(Birthday,5) as born_day,
CASE
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 120 and substring(Birthday,5) <= 219 THEN "A"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 220 and substring(Birthday,5) <= 320 THEN "B"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 321 and substring(Birthday,5) <= 420 THEN "C"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 421 and substring(Birthday,5) <= 521 THEN "D"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 522 and substring(Birthday,5) <= 621 THEN "E"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 622 and substring(Birthday,5) <= 722 THEN "F"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 723 and substring(Birthday,5) <= 823 THEN "G"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 824 and substring(Birthday,5) <= 923 THEN "H"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 924 and substring(Birthday,5) <= 1023 THEN "I"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 1024 and substring(Birthday,5) <= 1122 THEN "J"
WHEN length(Birthday) == 8 and substring(Birthday,5) >= 1123 and substring(Birthday,5) <= 1222 THEN "K"
WHEN (length(Birthday) == 8 and substring(Birthday,5) >= 120 and substring(Birthday,5) <= 1231)
or (length(Birthday) == 8 and substring(Birthday,5) >= 101 and substring(Birthday,5) <= 119) THEN "L"
ELSE "M"
END AS XingZuo
from external_2000w
where name != 'Name';

############################ 结果直接存入一个表格。

31个小文件，stage里面分31tasks。

[root@snn conf]# hadoop fs -ls -R /user/hive/warehouse/external_2000w_new
drwxrwxrwt - hadoop hive 0 2015-12-17 17:18 /user/hive/warehouse/external_2000w_new/.hive-staging_hive_2015-12-17_17-18-32_719_3374007692051174329-1
drwxr-xr-x - hadoop hive 0 2015-12-17 17:20 /user/hive/warehouse/external_2000w_new/.hive-staging_hive_2015-12-17_17-18-32_719_3374007692051174329-1/-ext-10000
-rw-r--r-- 3 hadoop hive 0 2015-12-17 17:20 /user/hive/warehouse/external_2000w_new/.hive-staging_hive_2015-12-17_17-18-32_719_3374007692051174329-1/-ext-10000/_SUCCESS
-rwxrwxrwt 3 hadoop hive 6307372 2015-12-17 17:18 /user/hive/warehouse/external_2000w_new/part-00000
-rwxrwxrwt 3 hadoop hive 4747600 2015-12-17 17:18 /user/hive/warehouse/external_2000w_new/part-00001
-rwxrwxrwt 3 hadoop hive 2943508 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00002
-rwxrwxrwt 3 hadoop hive 5949216 2015-12-17 17:18 /user/hive/warehouse/external_2000w_new/part-00003
-rwxrwxrwt 3 hadoop hive 5887275 2015-12-17 17:18 /user/hive/warehouse/external_2000w_new/part-00004
-rwxrwxrwt 3 hadoop hive 2160089 2015-12-17 17:20 /user/hive/warehouse/external_2000w_new/part-00005
-rwxrwxrwt 3 hadoop hive 5950706 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00006
-rwxrwxrwt 3 hadoop hive 6322605 2015-12-17 17:18 /user/hive/warehouse/external_2000w_new/part-00007
-rwxrwxrwt 3 hadoop hive 1722862 2015-12-17 17:18 /user/hive/warehouse/external_2000w_new/part-00008
-rwxrwxrwt 3 hadoop hive 5927935 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00009
-rwxrwxrwt 3 hadoop hive 5839186 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00010
-rwxrwxrwt 3 hadoop hive 2229685 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00011
-rwxrwxrwt 3 hadoop hive 5907388 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00012
-rwxrwxrwt 3 hadoop hive 6142019 2015-12-17 17:20 /user/hive/warehouse/external_2000w_new/part-00013
-rwxrwxrwt 3 hadoop hive 1869211 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00014
-rwxrwxrwt 3 hadoop hive 6119244 2015-12-17 17:20 /user/hive/warehouse/external_2000w_new/part-00015
-rwxrwxrwt 3 hadoop hive 6200692 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00016
-rwxrwxrwt 3 hadoop hive 1399629 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00017
-rwxrwxrwt 3 hadoop hive 6045320 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00018
-rwxrwxrwt 3 hadoop hive 6044653 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00019
-rwxrwxrwt 3 hadoop hive 1906355 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00020
-rwxrwxrwt 3 hadoop hive 6024204 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00021
-rwxrwxrwt 3 hadoop hive 6035401 2015-12-17 17:20 /user/hive/warehouse/external_2000w_new/part-00022
-rwxrwxrwt 3 hadoop hive 1936859 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00023
-rwxrwxrwt 3 hadoop hive 6101666 2015-12-17 17:20 /user/hive/warehouse/external_2000w_new/part-00024
-rwxrwxrwt 3 hadoop hive 6075192 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00025
-rwxrwxrwt 3 hadoop hive 1819634 2015-12-17 17:20 /user/hive/warehouse/external_2000w_new/part-00026
-rwxrwxrwt 3 hadoop hive 6058918 2015-12-17 17:20 /user/hive/warehouse/external_2000w_new/part-00027
-rwxrwxrwt 3 hadoop hive 6032423 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00028
-rwxrwxrwt 3 hadoop hive 1905099 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00029
-rwxrwxrwt 3 hadoop hive 341632 2015-12-17 17:19 /user/hive/warehouse/external_2000w_new/part-00030
[root@snn conf]#

################### 遗留问题：

1、中文查询那个，为何出现那么多异常抛出？后来改A/B/C之类的也有一个异常抛出；

2、根据外部表生成的结果直接生成到hive表，生成的文件数变成task的数量那么多part，小文件hdfs一个硬伤啊。

################### 遗留问题跟踪：

1、第一个问题是由于操作符引起，等于是=，不等于是<>，但是在spark里面还是可以执行，hive直接抛异常。

修改后，结果显示正常。

2、小文件这个问题，是spark不支持，hive可以支持。

参数：hive-site.xml 直接修改的值为true

或者CLI里面敲：set hive.merge.mapredfiles = true

避免Hive和Spark生成HDFS小文件穷目楼数据库大数据大数据 spark hive hadoop
HDFS是为大数据设计的分布式文件系统，对大数据做了存储做了针对性的优化，但却不适合存储海量小文件。Hive和spark-sql是两个在常用的大数据计算分析引擎，用户直接以SQL进行大数据操作，底层的数据存储则多由HDFS提供。对小数据表的操作如果没做合适的处理则很容易导致大量的小文件在HDFS上生成，常见的一个情景是数据处理流程只有map过程，而流入map的原始数据数量较多，导致整个数据处理结束
HIVE- SPARK 流川枫_ 20210706 hdfs hive spark
日常记录备忘Hive修改字段类型之后（varchar->string）Hive可以查到数据，Presto查询报错;分区字段数据类型和表结构字段类型不一样；spark-sql分区表和非分区表兼容问题，不能关联可以建临时表把分区数据导入，用完数据将表删除；count有数据，select没数据可能是压缩格式所导致；优化合全量任务，之前是row_number()函数先插入当天增量，取出最新的数据插入全量表
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
spark任务优化参数整理尘世壹俗人大数据Spark技术 spark 大数据分布式
以下参数中有sql字眼的一般只有spark-sql模块生效，例外的时候会另行说明，此外由于总结这些参数是在不同时间段，当时使用的spark版本也不一样，因此要注意是否有效，如果本博主已经试过的会直接说明。1、任务使用资源限制，基本参数，注意，这些资源配置有spark前缀是因为他们是标准的conf配置，也就是submit脚本，你调用–conf参数写的，和–driver.memory这种属于不同的优先
Spark - SQL查询文件数据 kikiki5
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数不想起的昵称 hive spark hive 数据仓库
背景：在数仓任务中，经常要解决小文件的问题。有时间为了解决小文件问题，我们把spark.sql.shuffle.partitions这个参数调整的很小，但是随着时间的推移，数据量越来越大，当初设置的参数就不合适了，那有没有一个可以自我伸缩的参数呢？看看这个参数如何运用：我们的spark-sql版本：[hadoop@666~]$spark-sql--versionWelcometo______/__
hive join中出现的数据暴增（数据重复）不想起的昵称 hive 大数据 hadoop hive
什么是join过程中导致的数据暴增？例如：给左表的每个用户打上是否是新用户的标签，左表的用户数为100，但是关联右表之后，得到的用户数为200甚至更多什么原因导致的数据暴增呢？我们来看一下案例：spark-sql>withtest1as>(select'10001'asuid,'xiaomi'asqid>unionall>select'10002'asuid,'huawei'asqid>union
记一次spark-sql数据倾斜解决方案王糍粑的小夕 spark spark sql 大数据
spark-sql数据倾斜解决方案背景今天在做一张埋点事实表，需要关联几张维表，补充一些维度属性。经过两三个小时，终于把sql写出来，提交到spark集群，跑的时候发现跑了二十多分钟没跑完，心想肯定是倾斜，因为并没有做什么复杂的处理，仅仅是解析一下字段，补充点维度信息。如何发现倾斜从sparkwebui中可以看到，只有这一个人task跑了21分钟，其他都是几十秒就跑完了，而且这个task处理了几个
Spark - SQL查询文件数据 kikiki4
>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.`/tmp/demo.csv`").sho
spark-sql字段血缘实现王糍粑的小夕 spark spark sql 大数据
spark-sql字段血缘实现背景ApacheSpark是一个开源的大数据处理框架，它提供了一种高效、易于使用的方式来处理大规模数据集。在Spark中，数据是通过DataFrame和Dataset的形式进行操作的，这些数据结构包含了一系列的字段（也称为列）。字段血缘是Spark中的一个关键概念，它帮助我们理解数据的来源和流向，从而更好地理解和控制数据处理过程。字段血缘是指在数据处理过程中，一个字段
Spark - SQL查询文件数据大猪大猪
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark - SQL查询文件数据 kikiki2
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark - SQL查询文件数据 kikiki4
>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.`/tmp/demo.csv`").sho
Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error smileyboy2009 spark
在spark2.4中报ArrayIndexOutOfBoundsException原因是Spark2.4.0中引用的paranamer版本是2.7导致问题。在spark-core/spark-sql之前添加以下依赖项为我解决了这个问题。com.thoughtworks.paranamerparanamer2.8
阻断血缘关系以及checkpoint文件清理 Keep hunger Spark spark
spark-sql读写同一张表，报错Cannotoverwriteapaththatisalsobeingreadfrom1.增加checkpoint，设置检查点阻断血缘关系sparkSession.sparkContext.setCheckpointDir("/tmp/spark/job/OrderOnlineSparkJob")valoldOneIdTagSql="selectone_id,t
Spark - SQL查询文件数据 kikiki5
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
大数据基础知识偶余杭
为了一场紧急考试，没有正经系统学习过大数据知识的我开始恶补概念涉及Hadoop、Hbase、Spark、Flink、Flume、Kafka、Sqoop、HDFS、Hive、Mapreduce、Impala、Spark-Sql、Elasticsearch、Yarn、Hue、ClouderaManager，这篇文章的目的就是作为小白要把这些相关的知识概念还有可能的考点整理出来。大数据-概念什么是大数据
Spark - SQL查询文件数据 kikiki2
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark - SQL查询文件数据 kikiki2
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark - SQL查询文件数据 kikiki2
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Hudi-集成Spark之spark-sql方式迷雾总会解大数据数据库 spark sql 大数据 hudi
Hudi集成Spark之spark-sql方式启动spark-sql#启动spark-sql之前需要先启动Hive的Metastorenohuphive--servicemetastore&#针对Spark3.2spark-sql\--conf'spark.serializer=org.apache.spark.serializer.KryoSerializer'\--conf'spark.sql
spark-sql 指定metastore地址、读取mysql qzWsong spark spark sql hive
spark-sql-hivespark-sql--databasesrc--hiveconfhive.metastore.uris=thrift://hdp02:2083-e"select*fromsrc_db2"--driver-java-options'-Djava.net.preferIPv4Stack=true'spark-sql-jdbc1.启动spark-sql##--driver-c
【Spark九十四】spark-sql工具的使用 axxbc123 Spark 大数据数据库
spark-sql是Sparkbin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过hive>输入的指令可以通过spark-sql>输入的指令来完成。spark-sql可以使用内置的Hivemetadata-store，也可以使用已经独立安装的Hive的metadatastore关于HivebuildintoSpark1.SparkSQLcanbebuiltwithor
高效率：使用DBeaver连接spark-sql open_test01 SparkSQL-巩固篇 spark sql 大数据
提高运行效率一般采取底层使用spark引擎替换成hive引擎的方式提高效率，但替换引擎配置较为复杂考虑到兼容版本且容易出错，所以本篇将介绍使用DBeaver直接连接spark-sql快速操作hive数据库。在spark目录下运行以下命令，创建一个SparkThirdService端口号为10016sudo-uroot./sbin/start-thriftserver.sh\--hiveconfhi
SPARK-SQL中join问题 marvinbb SPARK-SQL SPARK SPARK-SQL
首先抛出Dataset的join算子在spark-sql_2.11版本2.3.0中所有重载方法：由于本人公司产品在执行挖掘任务时任务过长，划分stage过多，并且在过程中存在着关联关系，因此不得不进行数据关联。首次本人在编写代码时使用Seq的join方式：Datasetselect=json1.select("id","callID");SeqcallID=JavaConverters.asSca
Spark-sql离线抽取全量数据到hive分区表中 77zhi spark hive 大数据
先建立spark连接valspark:SparkSession=SparkSession.builder().appName("test").master("local[*]).enableHiveSupport().getOrCreate()控制日期格式并获取当前日期(这里做了-1)valdateStr=newSimpleDateFormat("yyyyMMdd")valcalendar=Cal
SPARK-SQL - RDD/Dataset/DataFrame的互相转换小哇666 #spark spark
转换用到的方法如下rdd()，as()，toDF()代码示例importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.rdd.RDD;importorg.apache.spark.sql.*;importpojo.Dog;import
SparkSQL项目实战 shangjg3 Spark spark 大数据 sql
1准备数据我们这次Spark-sql操作所有的数据均来自Hive，首先在Hive中创建表，并导入数据。一共有3张表：1张用户行为表，1张城市表，1张产品表。1）将city_info.txt、product_info.txt、user_visit_action.txt上传到/opt/module/data[atguigu@hadoop102module]$mkdirdata2）将创建对应的三张表hi
spark创建DataFrame的N种方式阿民啊 SparkSql spark 大数据
注：本篇介绍基于scala（pyspark选择性参考）一、maven配置基础依赖scala-library（scala基础环境）spark-sql（sparksql执行环境）mysql（要访问mysql数据库的驱动包）spark-hive（访问hive，配合方法enableHiveSupport()使用）org.scala-langscala-library2.11.11org.apache.sp
spark进行数据清洗时，如何读取xlsx表格类型文件枯槁橘子皮大数据 spark excel apache 大数据
首先可以确定的是spark有专门对应excel表格读取的工具，在用spark-sql对xlsx类型文件进行读取的时候只需要再pom.xml文件里添加依赖就可以了添加依赖如下com.crealyticsspark-excel_2.110.12.2org.codehaus.janinojanino3.0.8com.fasterxml.jackson.corejackson-databind2.10.0
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

spark-sql测试总结

你可能感兴趣的:(spark-sql)