E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark集群搭建
py
spark
之Structured Streaming文件file案例
#generate_file.py#生成数据生成500个文件,每个文件1000条数据#生成数据格式:eventtimenameprovinceaction()时间用户名省份动作)importosimporttimeimportshutilimporttimeFIRST_NAME=['Zhao','Qian','Sun','Li','Zhou','Wu','Zheng','Wang']SECOND_
heiqizero
·
2024-01-21 06:59
spark
mysql
python
数据库
spark
py
spark
之Structured Streaming window函数-滚动模式
#file文件使用py
spark
之StructuredStreamingfile文件案例1生成文件,以下代码主要探讨window函数使用window三种方式:滚动、滑动、会话,只有windowDuration
heiqizero
·
2024-01-21 06:59
spark
mysql
数据库
spark
python
py
spark
之Structured Streaming结果保存到Mysql数据库-socket例子统计(含批次)
frompy
spark
.sqlimport
Spark
Session,DataFramefrompy
spark
.sql.functionsimportexplode,split,lit"""实现将数据保存到
heiqizero
·
2024-01-21 06:28
数据库
mysql
spark
python
Spark
面试题
1.
spark
core1.简述hadoop和
spark
的不同点(为什么
spark
更快)♥♥♥ shuffle都是需要落盘的,因为在宽依赖中需要将上一个阶段的所有分区数据都准备好,才能进入下一个阶段,那么如果一直将数据放在内存中
韩顺平的小迷弟
·
2024-01-21 06:53
大数据面试题
spark
大数据
分布式
一文详解py
spark
中sql的join
大家好,今天分享一下py
spark
中各种sqljoin。数据准备本文以学生和班级为单位进行介绍。学生表有sid(学生id)、sname(学生姓名)、sclass(学生班级id)。
不负长风
·
2024-01-21 06:23
#
python数据分析
sql
py
spark
之Structured Streaming file文件案例1
#generate_file.py#生成数据生成500个文件,每个文件1000条数据#生成数据格式:eventtimenameprovinceaction()时间用户名省份动作)importosimporttimeimportshutilimporttimeFIRST_NAME=['Zhao','Qian','Sun','Li','Zhou','Wu','Zheng','Wang']SECOND_
heiqizero
·
2024-01-21 06:23
spark
mysql
python
数据库
spark
Spark
和Flink的区别?
Flink和
Spark
都是基于内存计算、支持实时/批处理等多种计算模式的统一框架1,技术理念不同
Spark
的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次
写scala的老刘
·
2024-01-21 06:42
Flutter实现windows应用版本升级功能
可以使用auto_updater库,这个插件允许Flutter桌面应用自动更新自己(基于
spark
le和win
spark
le)地址如下:https://github.com/leanflutter/auto_updater
落华X
·
2024-01-21 05:32
Flutter
flutter
windows
一文读懂Delta Lake:大数据时代的数据湖框架新选择!
介绍:DeltaLake是一个开源存储层,为Apache
Spark
和大数据工作负载提供了ACID事务能力。这个存储层由Databricks公司推出,并已成为数据湖方案的重要组成部分。
知识分享小能手
·
2024-01-21 03:56
学习心得体会
大数据
大数据
数据分析
数据库
111.Parquet表的使用
Avro,Thrift,ProtocolBuffers,POJOs查询引擎:Hive,Impala,Pig,Presto,Drill,Tajo,HAWQ,IBMBigSQL计算框架:MapReduce,
Spark
大勇任卷舒
·
2024-01-21 02:33
通过WordCount解析
Spark
RDD内部源码机制
我们通过
Spark
WordCount动手实践,编写单词计数代码;在wordcount.scala的基础上,从数据流动的视角深入分析
Spark
RDD的数据处理过程。
联旺
·
2024-01-21 01:54
spark
on Yarn 动态资源分配
配置文件:
spark
.default.parallelism=40#
spark
.executor.memory=1536m#
spark
.executor.memoryOverhead=512m#
spark
.driver.cores
金刚_30bf
·
2024-01-20 23:09
Spark
读取kafka(流式和批数据)
spark
读取kafka(批数据处理)#按照偏移量读取kafka数据frompy
spark
.sqlimport
Spark
Sessionss=
Spark
Session.builder.getOrCreate
中长跑路上crush
·
2024-01-20 23:55
Spark阶段
spark
kafka
大数据
Spark
流式读取文件数据
流式读取文件数据frompy
spark
.sqlimport
Spark
Sessionss=
Spark
Session.builder.getOrCreate()#todo注意1:流式读取目录下的文件--》一定一定要是目录
中长跑路上crush
·
2024-01-20 23:25
Spark阶段
spark
javascript
前端
Spark
Streaming通过receiver方式消费kafka数据时数据积压问题
1.问题在通过receiver方式接受kafka消息时,发现有大量消息在队列中阻塞最终导致
spark
任务执行失败。
sinat_36710456
·
2024-01-20 22:23
大数据
数据积压
Spark
Streaming
kafka
Spark
(一): 基本架构及原理
前言:目标:架构及生态:
Spark
与hadoop:运行流程及特点:常用术语:
Spark
运行模式:RDD运行流程:前言:Apache
Spark
是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009
贝賏赑钡
·
2024-01-20 22:46
spark
架构
大数据
PDF如何裁剪页面,PDF裁剪页面的小技巧
使用工具:旋风PDF编辑器下载地址:http://www.679
spark
le.com/pdfeditor操作方法:1:先打开旋风PDF编辑器,点击打开文件按钮打开需要编辑的PDF文件。2:在菜单
六号_db7a
·
2024-01-20 18:09
11.Join的MapReduce实现
Join在MapReduce中的实现一、概述tips:Hive:MapReduce/
Spark
巧用explain查看语法树常见的面试题:描述如何使用MapReduce来实现join功能:考察点MapReduce
哈哈大圣
·
2024-01-20 18:40
Spark
在降本增效中的一些思考
背景在大环境不好的情况下,本司也开始了“降本增效”,本文探讨一下,在这种背景下
Spark
怎么做的降本增效。
鸿乃江边鸟
·
2024-01-20 14:25
spark
大数据
分布式
es-kibana
集群搭建
(7.3版本带x-pack)
一、前言es因为版本迭代太快,网上的资料大多停留在6.x及之前的版本,但是6.x版本之前的es安全插件x-pack是收费的,如果不付费那es就是裸奔的状态。而从6.8.0和7.1.0版本开始,x-pack安全功能免费提供,但是网上关于x-pack的安装与使用确极少,本人最近恰好有用到所以记录一下(我这里使用的是7.3版本,我这里搭的是伪集群,搭建正式环境修改对应ip和端口就行)。二、安装elast
石用软件
·
2024-01-20 12:26
es
搜索引擎
elasticsearch
java
hive 运行报错
Error:Errorwhilecompilingstatement:FAILED:UDFArgumentTypeExceptionExactlyoneargumentisexpected.近期用
spark
圆周率的后六位
·
2024-01-20 12:35
hadoop
spark
设计模式——管道模式(并发模式)
在分布式处理领域,由于管道模式是数据驱动,而目前流行的
Spark
分布式处理平台也是数据驱动的,两者非常合拍,于是在spar
码上得天下
·
2024-01-20 11:52
设计模式
spark
big
data
spark
的jdbc接口,类似于hiveserver2
https://
spark
.apache.org/docs/2.4.0/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server
Spark
SQL
zdkdchao
·
2024-01-20 10:53
spark
大数据
分布式
Kylin安装学习教程
Kylin安装学习教程Kylin是一个开源的分布式分析引擎,提供Hadoop/
Spark
之上的SQL接口及多维分析(OLAP)能力以支持大数据分析,最初由eBayInc.开发并贡献到开源社区。
Luo_Yang111
·
2024-01-20 09:28
kylin
spark
连接操作
将有键的数据与另一组有键的数据一起使用是对键值对数据执行的最有用的操作之一。连接数据可能是PairRDD最常用的操作之一。连接的方式多种多样:右外连接,左外连接、交叉连接以及内连接普通的join操作符表示是内连接。只有在两个键值对中都存在的键才叫输出。
追赶的程序猿
·
2024-01-20 09:45
Spring Cloud详细入门使用
文章目录SpringCloud服务注册与发现EurekaServer启动服务注册服务发现NacosServer启动(nacos2.2.0)服务注册服务发现服务集群命名空间配置中心
集群搭建
负载均衡RPC远程过程调用
怡人蝶梦
·
2024-01-20 08:59
JAVA
spring
cloud
spring
后端
Kafka系列(二)、架构原理及存储机制
kafkaeagle安装使用滴滴开源的kafka-manager编译及部署使用kafka管理监控系统CMAK(yahoo的kafka-manager)部署及使用Kafka系列(一)、2.6.0版本kafka
集群搭建
架构原理架构
王义凯_Rick
·
2024-01-20 08:56
#
Kafka
kafka
架构
控制器
存储机制
原理
Data Bricks Delta Lake 入门
DeltaLake是一个开源存储层,它将关系数据库语义添加到基于
Spark
的数据湖处理中。
AI普惠大师
·
2024-01-20 07:03
flask
python
后端
Spark
从入门到精通30:
Spark
SQL:核心源码深度剖析
在前面一节我们讲解了
Spark
SQL的工作原理,接下来在这一节,我们对
Spark
SQL工作原理进一步地深入和加强,这一节主要讲解
Spark
SQL核心源码导读和剖析首先,我们看SQLContext.scala
勇于自信
·
2024-01-20 07:57
【
Spark
】
Spark
容错及 HA--Master 异常
一、Master配置recoveryModeMaster作为
Spark
Standalone模式中的核心,如果Master出现异常,则整个集群的运行情况和资源将无法进行管理,整个集群将处于“群龙无首”的状况
w1992wishes
·
2024-01-20 05:37
余老师带你学习大数据-
Spark
快速大数据处理第十章Kafka第八节Kafka-Connect
kafkaKafkaConnect基本概念1、KafkaConnect是Kafka流式计算的一部分,左侧是数据源包括了数据库、hadoop、文本等等,右侧是数据结果包括了文本、hadoop、数据库,中间上层就是KafkaConnect,它里面会有很多的输入,将输入的内容的读取进来转交给Kafka里,也有可能将kafka里的内容拿出来放到我们的外部数据源中。2、KafkaConnect主要用来与其他
weixin_45810046
·
2024-01-20 03:41
kafka
kylin安装学习教程
ApacheKylin是一个开源的分布式分析引擎,提供Hadoop/
Spark
之上的SQL接口及多维分析(OLAP)能力以支持大数据分析,最初由eBayInc.开发并贡献到开源社区。
打工人何苦为难打工人
·
2024-01-20 03:07
kylin
Kylin安装学习教程
ApacheKylin是一个开源的分布式分析引擎,提供Hadoop/
Spark
上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。
终将老去的穷苦程序员
·
2024-01-20 03:04
kylin
CVE-2023-46226 Apache iotdb远程代码执行漏洞
它具有体量轻、性能高、易使用的特点,完美对接Hadoop与
Spark
生态,适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。
棱镜七彩
·
2024-01-20 02:27
apache
iotdb
自然语言处理大数据:
spark
ML Word2Vec详解
简介Word2Vec是一种著名的词嵌入(WordEmbedding)方法,它可以计算每个单词在其给定语料库环境下的分布式词向量(DistributedRepresentation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画每个单词的语义。如果词的语义相近,它们的词向量在向量空间中也相互接近,这使得词语的向量化建模更加精确,可以改善现有方法并提高鲁棒性。词向量已被证明在许多自然语言处理问题
nnnancyyy
·
2024-01-19 17:23
机器学习
python
人工智能
自然语言处理
深度学习
大数据学长面试之OPPO面试题
1)技术部分(1)
Spark
Streaming消费方式及区别,
Spark
读取HDFS的数据流程(2)Kafka高性能(3)Hive调优,数据倾斜(4)Zookeeper怎么避免脑裂,什么是脑裂。
大数据小理
·
2024-01-19 16:01
大数据1
大数据
面试
职场和发展
某汽车外包-大数据开发-面试
4.
spark
的提交参数有那些命令5.
spark
rdd,dataframe,dataSe解释一下。
劝学-大数据
·
2024-01-19 16:28
大数据面试题
大数据
spark
读取MySQL数据机器学习预测存入MySQL
importorg.apache.
spark
.
Spark
Confimportorg.apache.
spark
.ml.classification.
大数据驱动
·
2024-01-19 14:12
#
spark
mysql
机器学习
Elasticsearch8
集群搭建
(二)配置篇:(2)系统配置
此篇记录Elasticsearch8的一些系统配置。1、更改文件描述符的限制Elasticsearch使用了大量的文件描述符,它用于表示系统打开的文件的标识符。文件描述符是非负整数,它在操作系统层面被用来唯一标识一个打开的文件、套接字或其他I/O资源。每个进程都有一组文件描述符,这些描述符用于跟踪它当前打开的文件和网络连接。操作系统为每个进程分配一定数量的文件描述符。这个数量是由操作系统的配置和限
要薪贫气和哦
·
2024-01-19 13:55
Elasticsearch
elasticsearch
大数据
关于jenkins集成python的单元测试
最近在研究jenkins的集成,然后想把自己写的python工具也用jenkins集成一下废话少说,来看结构
spark
ing.py@author:lianying'''class
Spark
ing:@staticmethoddefget_num_of_zero
百晓生说测试
·
2024-01-19 13:21
软件测试
jenkins
python
单元测试
自动化测试
软件测试
功能测试
程序人生
详解SpringCloud微服务技术栈:Nacos配置管理
Nacos的
集群搭建
,感觉太复杂了,就一台电脑要弄很久去模拟,所以不
布布要成为最负责的男人
·
2024-01-19 12:49
微服务技术全家桶
spring
cloud
微服务
java
nacos
springboot
html源码(html+css)
运维&从测试>UI设计>产品>我的课程表继续学习程序语言设计正在学习-使用对象继续学习程序语言设计正在学习-使用对象继续学习程序语言设计正在学习-使用对象全部课程精品推荐JQuery
Spark
MySQLJava
奇遇少年
·
2024-01-19 11:26
html
css
html5
css3
其他
Flink1.17 基础知识
Flink1.17基础知识来源:B站尚硅谷目录Flink1.17基础知识Flink概述Flink是什么Flink特点Flinkvs
Spark
StreamingFlink的应用场景Flink分层APIFlink
魅美
·
2024-01-19 08:16
大数据基础
大数据
flink
Eureka整合seata分布式事务
修改conf目录中flie.conf文件1.3、修改conf目录中registry.conf文件1.4、初始化seata数据库二、微服务整合Seata2.1、父工程项目创建引入依赖2.2、Eureka
集群搭建
人生就像一场戏!
·
2024-01-19 07:52
springcloud
eureka
分布式
云原生
spark
dateformat源码排错
背景有一个任务yyyy写成了YYYY,导致年份不对触发告警selectfrom_unixtime(unix_timestamp(),'YYYY-MM-ddHH:mm:ss')第一时间用
spark
dateformat
这个程序猿可太秀了
·
2024-01-19 06:47
spark
大数据
数据仓库
利用 Apache
Spark
和 Databricks 进行企鹅种类预测的机器学习实践入门
这里演示使用Apache
Spark
和Databricks平台进行企鹅物种预测的完整机器学习流程。
AI普惠大师
·
2024-01-19 06:17
机器学习
人工智能
spark
+phoenix读取hbase
spark
直接操作hbase也是通过hbase的原语操作,操作起来比较繁琐,下面就是将
spark
和phoenix相结合的方法步骤。我用的是scala语言,首先pom.xml中添加依赖o
潮落拾贝
·
2024-01-19 06:16
spark
hbase
大数据
py
spark
笔记:窗口函数window
窗口函数相关的概念和基本规范可以见:py
spark
笔记:over-CSDN博客1创建Py
spark
dataFramefrompy
spark
.sql.windowimportWindowimportpy
spark
.sql.functionsasFemployee_salary
UQI-LIUWJ
·
2024-01-19 06:15
python库整理
笔记
Spark
基础学习--基础介绍
1.
Spark
基本介绍1.1定义
Spark
是可以处理大规模数据的统一分布式计算引擎。
Yan_bigdata
·
2024-01-19 06:37
spark
学习
大数据
mapreduce
对比
入门案例
词频统计
Py
spark
安装(Mac M2版)
引言本文为个人本地部署py
spark
遇到的问题以及解决办法,包含个人的一些理解,仅供参考。
矮人三等
·
2024-01-19 06:35
工具
java
相关
macos
spark
python
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他