E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
分布式程序中YARN中的角色
YARNResuourceManager和NodeManagerMR程序中主管进程:MrApplicationMaster任务进程:YarnChildYarnChild运行MapTask和ReduceTask
Spark
qzWsong
·
2023-09-22 07:45
hadoop
yarn
大数据
几秒完成百万行Scala代码编译?
做为开发
Spark
的最主要公司,砖厂【Databircks】是如何开发的呢?也是用SBT?还是用Maven?其实我们用的是Bazel。可以脑补,一百多个人日以继夜地往代码库里疯狂扔代码。
smilegator
·
2023-09-22 04:32
一百八十一、Hive——海豚调度HiveSQL任务时当Hive的计算引擎是mr或
spark
时脚本的区别(踩坑,附截图)
一、目的当Hive的计算引擎是
spark
或mr时,发现海豚调度HQL任务的脚本并不同,mr更简洁二、Hive的计算引擎是
Spark
时(一)海豚调度脚本#!
天地风雷水火山泽
·
2023-09-22 04:43
Hive
hive
mr
spark
启动
spark
历史服务失败问题处理
1.场景执行启动
spark
历史服务器start-history-server.sh报错[root@managerfile]#$
SPARK
_HOME/sbin/start-history-server.shstartingorg.apache.
spark
.deploy.history.HistoryServer
泊涯
·
2023-09-21 23:52
debian
运维
大数据
4.py
spark
.sql.Column
Spark
SQL和DataFrames重要的类有:py
spark
.sql.SQLContext:DataFrame和SQL方法的主入口py
spark
.sql.DataFrame:将分布式数据集分组到指定列名的数据框中
丫丫iii
·
2023-09-21 21:00
py
spark
一些简单常用的函数方法
1、将一个字符或数字列转换为vector/arrayfrompy
spark
.sql.functionsimportcol,udffrompy
spark
.ml.linalgimportVectors,_convert_to_vector
ROBOT玲玉
·
2023-09-21 19:41
spark
Py
Spark
之机器学习库ML(分类、聚类、回归)
Py
Spark
之机器学习库ML(分类、聚类、回归)importfind
spark
find
spark
.init()frompy
spark
.sql.sessionimport
Spark
Session
spark
ROBOT玲玉
·
2023-09-21 19:11
机器学习
分类
聚类
py
spark
dataframe vector转array 保存到csv文件
test_df.printSchema()root|--features:vector(nullable=true)|--output:double(nullable=true)|--prediction:double(nullable=false)vector_udf=F.udf(lambdavector:vector.toArray().tolist(),ArrayType(FloatType
ROBOT玲玉
·
2023-09-21 19:09
算法
spark
Spark
的基础
实训笔记--
Spark
的基础
Spark
的基础一、
Spark
的诞生背景二、
Spark
概念2.1
Spark
Core2.2.
Spark
SQL2.3
Spark
Streaming2.4
Spark
MLlib2.5
Spark
GraphX2.6
Spark
R
cai-4
·
2023-09-21 18:56
实训
spark
大数据
分布式
必看!S3File Sink Connector 使用文档
提示:如果您使用的是
Spark
/Flink,在使用此连接器之前,必须确保您的
Spark
/Flink集群已经
·
2023-09-21 16:34
数据库
Doris-05-集成
Spark
、Flink、Datax,以及数据湖分析(JDBC、ODBC、ES、Hive、多源数据目录Catalog)
文章目录集成其他系统
Spark
读写Doris准备
Spark
环境使用
Spark
DorisConnectorFlinkDorisConnector准备Flink环境使用FlinkDorisConnectorDataXdoriswriter
迷雾总会解
·
2023-09-21 12:33
大数据
数据库
spark
flink
elasticsearch
大数据
doris
Python实现发邮件
代码写不完了的博客代码写不完了擅长Python项目,python爬虫,python操作文件,等方面的知识,代码写不完了关注pandas,python,django,pygame,
spark
,pip,virtualenv
一只程序猿子
·
2023-09-21 11:36
Python项目
python
开发语言
2023_
Spark
_实验七:Scala函数式编程部分演示
1、Scala中的函数在Scala中,函数是“头等公民”,就和数字一样。可以在变量中存放函数,即:将函数作为变量的值(值函数)。def myFun1(name:String):String="Hello" +nameprintln(myFun1("Tom"))def myFun2():String = "HelloWorld"//值函数:将函数作为变量的值val v1=myFun1("Tom")v
pblh123
·
2023-09-21 11:49
Scala
spark
scala
大数据
2023_
Spark
_实验八:Scala高级特性实验
1、什么是泛型类和Java或者C++一样,类和特质可以带类型参数。在Scala中,使用方括号来定义类型参数,如下所示:/*这里的T就是泛类型,可以代表任意类型,_表示可以是任意类型*/class GenericClass[T]{//定义一个变量privatevar content:T=_//定义变量的get和set方法def set(value:T)={content=value}def get(
pblh123
·
2023-09-21 11:47
Scala
spark
scala
大数据
打印 py
spark
.sql.dataframe.DataFrame 有哪些列
在Py
Spark
中,要打印py
spark
.sql.dataframe.DataFrame的列,可以使用columns属性。
jp_666
·
2023-09-21 09:39
pandas
是选impala还是presto_SQL查询引擎对峙:
Spark
VS Impala VS Hive VS Presto
近日,AtScale公布了第四季度主流大数据SQL引擎的测试结果,主要针对
Spark
、Impala、Hive/Tez以及Presto。
守望大屁股
·
2023-09-21 09:53
HIVE,
Spark
Sql和Presto对比
HIVE,
Spark
Sql和Presto对比HIVEhive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
loophome
·
2023-09-21 09:20
大数据处理
hive
hadoop
数据仓库
hive报错Cannot overwrite a path that is also being read from
从本表读数写到本表set
spark
.sql.hive.convertMetastoreParquet=false;
weixin_44352020
·
2023-09-21 06:53
hive
spark
广播连接超出阈值,返回内存不足错误 OutOfMemory
Spark
Exception
广播连接超出阈值,返回内存不足错误报错信息:org.apache.
spark
.sql.execution.OutOfMemory
Spark
Exception:Sizeofbroadcastedtablefarexceedsestimatesandexceedslimitof
spark
.driver.maxResultSize
weixin_44352020
·
2023-09-21 06:23
spark
spark
Broadcast
py
spark
之数据处理学习【缺失值处理】(2)
frompy
spark
.sqlimport
Spark
Session
spark
=
Spark
Sess
清萝卜头
·
2023-09-21 02:22
spark
pyspark
windows安装py
spark
1.下载py
spark
-2.3.1.tar.gzhttps://archive.apache.org/dist/
spark
/
spark
-2.3.1/2.安装pip3installpypandoc-ihttp
大数据私房菜
·
2023-09-21 02:22
Spark
Windows下Pycharm的
Spark
、Hadoop、Scala安装及常见报错(graphframes避坑、jupyter的文件位置更换、conda环境建立)
目录软件安装1、jdk安装2、Anaconda安装3、scala安装4、Hadoop安装5、
Spark
安装6、安装sbt包安装1、安装py4j2、安装py
spark
接下来是新建python项目1、项目配置
soberld
·
2023-09-21 02:21
pycharm
spark
hadoop
Mac pycharm 导入py
spark
转载于:点击打开链接1前提:已经安装了pycharm,下载了
spark
(官网下载,我下的是
spark
-2.1.1-bin-hadoop2.7.tgz,解压缩后为文件夹
spark
-2.1.1-bin-hadoop2.7
大师兄你家猴跑啦
·
2023-09-21 02:51
spark
linux
python
vue项目实现分片上传及断点续传
的git官网:https://github.com/simple-uploader/vue-uploader效果图代码部分项目框架:vue+elementUI、vue-simple-uploader、
spark
-md5
我是槑槑
·
2023-09-21 00:48
Vue
vue.js
javascript
html5
前端实现文件分片和断点续传
在项目中会遇到大文件上传,使用传统二进制码传输方式,可能因为用户误操作、网络不通畅和其他各种原因导致无法一次性完成,这时用户可能又要重新上传,就浪费了时间,此场景就可以使用文件分片涉及知识:MD5(使用
spark
-md5
无头充电器
·
2023-09-21 00:47
前端开发问题
前端
javascript
开发语言
vue.js
carbondata表中出现beeline连接问题
连接问题简析:【借助问题分析】这个和起的的beeline问题有不同,主要这是链接carbondata的不是连接hive的Q1:[hdfs@ps-device-id-ydsc-229045hive]$$
SPARK
_HOME
不吃饭的猪
·
2023-09-20 22:07
hadoop
java
大数据
hive
Required field ‘client_protocol‘ is unset!
spark
连接hive报错Causedby:java.sql.SQLException:Couldnotestablishconnectiontojdbc:hive2://192.168.xx.101:
鸭梨山大哎
·
2023-09-20 22:35
hive
Hive
hive
jdbc
JAVA代码实现hive连接mysql_Java采用JDBC的方式连接Hive(
Spark
SQL)
(作者:yangyang8848)一、Hive的访问方式一般情况下,Hive是不能直接Java连接并访问的,后来出现来一个
Spark
SQL的东东,变得可以通过JDBC的方式访问连接。首先,我先
林生风
·
2023-09-20 22:35
报错:org.apache.thrift.TApplicationException: Required field 'client_protocol' is unset!
我用的sbt来管理的
spark
项目,我所需要的jar包都放到了lib目录下,我用jdbc的方式去连接hive。本地测试一点毛病没有。但是!!!
qq_562293298
·
2023-09-20 22:34
spark
hive
jdbc
beeline连接报错Required field ‘client_protocol‘ is unset
文章目录报错现象问题原因报错现象使用beeline连接
Spark
ThriftServer报错beeline-u"jdbc:hive2://ip:port/;pricipal=hive/xxxxxx"23
zincooo
·
2023-09-20 22:30
线上问题
hive
大数据
hadoop
spark
2023_
Spark
_实验九:Scala函数式编程部分演示
main()2、创建CONF3、创建SC-->读取文件的方式--》RDD4、RDD进行处理5、关闭资源一、新建object类取名为WordCount2、编写如下代码3、本地运行,查看运行结果如下解决无法下载
spark
pblh123
·
2023-09-20 20:08
Scala
spark
scala
大数据
2023_
Spark
_实验十二:
Spark
高级算子使用
掌握
Spark
高级算子在代码中的使用相同点分析三个函数的共同点,都是Transformation算子。惰性的算子。
pblh123
·
2023-09-20 20:08
Scala
Spark实验
spark
ajax
大数据
2023_
Spark
_实验十:RDD基础算子操作
Ø练习1://通过并行化生成rddvalrdd1=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))//对rdd1里的每一个元素乘2然后排序valrdd2=rdd1.map(_*2).sortBy(x=>x,true)//过滤出大于等于十的元素valrdd3=rdd2.filter(_>=10)//将元素以数组的方式在客户端显示rdd3.collectØ练习2:v
pblh123
·
2023-09-20 20:37
Scala
spark
android
大数据
2023_
Spark
_实验十一:RDD高级算子操作
//checkpoint :sc.setCheckpointDir("hdfs://Master:9000/ck") // 设置检查点val rdd=sc.textFile("hdfs://Master:9000/input/word.txt").flatMap(_.split("")).map((_,1)).reduceByKey(_+_) // 执行wordcount任务的转换rdd.chec
pblh123
·
2023-09-20 20:34
spark
大数据
分布式
【无标题】
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群背景介绍Notebook解决的问题部分任务类型(python、
spark
等)在创建配置阶段,需要进行分步调试;由于探索查询能力较弱
字节数据平台
·
2023-09-20 18:12
大数据
数据研发
数据库
数据中台
数据安全
数据治理
毫秒时间戳转换为字符串
1、将stime列的时间戳与字符串进行转换例如stimeimsi16939675831231693967179124............selectfrom_unixtime(`stime`);
spark
Matrix70
·
2023-09-20 16:39
SQL
mysql
数据库
数据探索神器:火山引擎 DataLeap Notebook 揭秘
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群背景介绍Notebook解决的问题部分任务类型(python、
spark
等)在创建配置阶段,需要进行分步调试;由于探索查询能力较弱
·
2023-09-20 16:15
大数据数据库数据安全
虚幻引擎资产管理总结
【U
Spark
le专栏】如果你深怀绝技,爱“搞点研究”,乐于分享也博采众长,我们期待你的加入,让智慧的火花碰撞交织,让知识的传递生生不息!
·
2023-09-20 14:12
assetsunreal
喜鹊家专栏 | 人物专访第一期:贾钦豪&设计亦是人生之旅 ——
选择成为你的月亮去温柔夜色包容星光Thenightisgentle
Spark
lingstars喜鹊家专栏:首期人物专访来自于南京设计从业者01作品赏析典雅气质,细腻如兰,邂逅诗意与美好介绍:新中式风格有着诗一般的意境
室内设计达人
·
2023-09-20 10:39
hive、
spark
、presto 中的增强聚合-grouping sets、rollup、cube
目录1、什么是增强聚合和多维分析函数?2、groupingsets-指定维度组合3、withrollup-上卷维度组合4、withcube-全维度组合5、Grouping__ID、grouping()的使用场景6、使用增强聚合会不会对查询性能有提升呢?7、对groupingsets、withcube、withrollup的优化1、什么是增强聚合和多维分析函数?增强聚合指的是:在SQL中使用分组聚合
广阔天地大有可为
·
2023-09-20 08:16
Hive
hive
spark
hadoop
spark
-单条记录含有多个号码的人员信息,把有交集号码的合并。
实现具体功能,如下图:合并前的增量和历史数据有红色一对,和绿色一对的号码是相同的。因此可以认定,id是10001和10003是同一人。10002和10004是同一人。最终取较小的id作为人员id,分别是合并结果集中的10001和10002。两个最后合并后的人员均有7个(8-1)各号码。(一)读取数据具体读取数据库的代码需要自行取消注释(默认是本地测试状态)。DatabaseToFilesystem
lisacumt
·
2023-09-20 07:27
spark
大数据
Py
Spark
集群完全分布式搭建
Py
Spark
集群完全分布式搭建本文的目的是使读者对
spark
的安装流程有一个清晰的认识,并且能根据本文的内容搭建一个属于自己的完全分布式
Spark
集群,并在此基础上增加py
spark
的分布式环境。
Ahaxian
·
2023-09-20 05:23
Spark学习之路
分布式
大数据
hadoop
spark
python
java
spark
单词统计_
Spark
入门(三)--
Spark
经典的单词统计
spark
经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著《GoneWithTheWind》(《飘》)的文本来做一个数据统计,看看文章中各个单词出现频次如何。
13858573656
·
2023-09-20 05:53
java
spark
单词统计
Spark
经典入门程序:统计单词个数
2019独角兽企业重金招聘Python工程师标准>>>package
spark
importorg.apache.
spark
.
weixin_34187862
·
2023-09-20 05:52
大数据
scala
python
py
spark
MLlib基本使用
MLib基本概念MLib其实就是将数据以RDD的形式进行表示,在分布式数据集上调用各种算法。使用方法MLlib中包含能够在集群上运行良好的并行算法,如kmeans、分布式RF、交替最小二乘等,这能够让MLib中的每个算法都能够适用于大规模数据集也可以将同一算法的不同参数列表通过parallelize(),在不同节点上运行,最终找到性能最好的一组参数,这可以节省小规模数据集上参数选择的时间。对垃圾邮
littletomatodonkey
·
2023-09-20 05:22
分布式计算
python相关
机器学习
pyspark
MLlib
python
机器学习
如何使用py
spark
统计词频?
——古德尔
Spark
作为一个用途广泛的大数据运算平台。
shadowcz007
·
2023-09-20 05:51
转载:
Spark
的运行架构分析(二)
转载:
Spark
的运行架构分析(二)之运行模式详解一:
Spark
OnLocal此种模式下,我们只需要在安装
Spark
时不进行hadoop和Yarn的环境配置,只要将
Spark
包解压即可使用,运行时
Spark
小小少年Boy
·
2023-09-20 05:54
Python大数据处理库 Py
Spark
实战 总结二
Python大数据处理库Py
Spark
实战二Py
spark
建立
Spark
RDDpy
spark
shellVScodeJupyternotebook动作算子变换算子Py
spark
建立
Spark
RDD每个RDD
jialun0116
·
2023-09-20 05:49
Python大数据处理库
PySpark实战
大数据
python
数据库
spark
pyspark
算子
py
spark
入门系列 - 01 统计文档中单词个数
导入
Spark
Conf和
Spark
Context模块,任何
Spark
程序都是
Spark
Context开始的,
Spark
Context的初始化需要一个
Spark
Conf对象,
Spark
Conf包含了
Spark
铁甲大宝
·
2023-09-20 05:49
pyspark
大数据
数据挖掘
机器学习
py
spark
练习(学习笔记)
一、单词统计importfind
spark
find
spark
.init()frompy
spark
import
Spark
Conf,
Spark
Contextif__name__=='__main__':conf
梦痕长情
·
2023-09-20 05:48
python
上一页
75
76
77
78
79
80
81
82
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他