E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据处理Spark
Spark
Streaming和Kafka
0.一些问题
Spark
Streaming如何消费KafkaKafka的offset如何维护如何获取Kafka的offsetKafka获取offset的时候会不会消费kafka的记录Kafka的分区和
spark
task
天之見證
·
2023-12-23 16:25
Spark
Core
Spark
Core介绍
Spark
Core是
Spark
的核心计算引擎。它有着速度快和通用的特点,并且实现了
Spark
的基本功能,包含任务调度,内存管理,错误恢复,与存储交互等模块。
hipeer
·
2023-12-23 15:35
MINIO在java中的使用
对象存储可以充当主存储层,以处理
Spark
、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为HadoopHDFS的替代品--------引自官网的话。
IT小学僧
·
2023-12-23 14:48
MinIo
Java
java
spring
boot
Hago 的
Spark
on ACK 实践
作者:华相Hago于2018年4月上线,是欢聚集团旗下的一款多人互动社交明星产品。Hago融合优质的匹配能力和多样化的垂类场景,提供互动游戏、多人语音、视频直播、3D虚拟形象互动等多种社交玩法,致力于为用户打造高效、多样、最具沉浸式的社交娱乐体验,在东南亚、中东和南美等地区拥有广泛的用户群。在技术层面,Hago提供优秀的自研音视频技术,实现更加稳定、高效和优质的数字人服务。包括3D超写实模型、真人
阿里云云原生
·
2023-12-23 13:59
spark
大数据
分布式
Spark
Shell的简单使用
简介
Spark
shell是一个特别适合快速开发
Spark
原型程序的工具,可以帮助我们熟悉Scala语言。即使你对Scala不熟悉,仍然可以使用这个工具。
necessary653
·
2023-12-23 11:12
spark
大数据
分布式
Spark
Machine Learning进行数据挖掘的简单应用(兴趣预测问题)
数据挖掘的过程数据挖掘任务主要分为以下六个步骤:1.数据预处理2.特征转换3.特征选择4.训练模型5.模型预测6.评估预测结果数据准备这里准备了20条关于不同地区、不同性别、不同身高、体重…的人的兴趣数据集(命名为hobby.csv):id,hobby,sex,address,age,height,weight1,football,male,dalian,12,168,552,pingpang,f
冲鸭嘟嘟可
·
2023-12-23 10:28
spark
机器学习
数据挖掘
【分布式技术专题】「OSS中间件系列」Minio的文件服务的存储模型及整合Java客户端访问的实战指南
此特性对于机器学习与
大数据处理
非常重要。数据管理元数据与数据一起存放在磁盘上:数据部分纠删分片以后存储在磁盘上,元数据以明文形式存放在元数据文件里(xl.json)。
洛神灬殇
·
2023-12-23 08:39
多臂老虎机算法步骤
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-23 08:57
算法
多臂老虎机
MAB
Apache Flink 进阶教程(七):网络流控及反压剖析
目录前言网络流控的概念与背景为什么需要网络流控网络流控的实现:静态限速网络流控的实现:动态反馈/自动反压案例一:Storm反压实现案例二:
Spark
Streaming反压实现疑问:为什么Flink(beforeV1.5
话数Science
·
2023-12-23 08:10
Flink
大数据
flink
大数据
Spark
Streaming学习记录
版本:
Spark
2.4.01.Overview
Spark
ingStreaming是对
Spark
API的一种扩展,用于处理实时数据流。
Jorvi
·
2023-12-23 08:49
CVE-2023-49898 Apache incubator-streampark 远程命令执行漏洞
项目介绍ApacheFlink和Apache
Spark
被广泛用作下一代大数据流计算引擎。基于大量优秀经验结合最佳实践,我们将任务部署和运行时参数提取到配置文件中。
棱镜七彩
·
2023-12-23 07:51
apache
PID算法
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-23 07:21
算法
【hadoop|报错】Cannot modify tez.queue.name at runtime. It is not in list of params that are allowed ...
*|
spark
.*|tez*hive.security.authorization.sqlstd.confwhitelist.appe
维运
·
2023-12-23 06:10
大数据Hadoop
hadoop
大数据
分布式
真正解决
spark
local模式的日志级别输出问题
真正解决
spark
local模式的日志级别输出问题在IDEA中开发
Spark
程序,程序一执行密密麻麻的Info日志一大堆,这让人很恶心,如下图:image很早以前就解决过一次,不过谷歌百度都没有真正的解决这个问题
小狼星I
·
2023-12-23 05:14
【
Spark
源码分析】
Spark
的RPC通信二-初稿
Spark
的RPC通信二-初稿
Spark
RPC的传输层传输层主要还是借助netty框架进行实现。
顧棟
·
2023-12-23 05:25
spark
rpc
【
Spark
源码分析】
Spark
的RPC通信一-初稿
Spark
的RPC通信一-初稿文章目录
Spark
的RPC通信一-初稿
Spark
的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`
Spark
RPC
顧棟
·
2023-12-23 05:53
Spark
spark
rpc
Py
Spark
日志治理方法
无论是Py
Spark
程序、还是Scala编写的
Spark
程序,对于运行中的日志写入与查看的现状都是类似的,大体有两点痛点:1.特别是一直在线运行的Streaming项目,通过print打印的日志直接进入了
AGERA_0429
·
2023-12-23 03:37
毕业设计项目:基于Django2.2+MySQL+
spark
的在线电影智能推荐系统的设计与实现
项目源码地址:https://download.csdn.net/download/lijunhcn/88463157本项目实现在线电影推荐系统的前后端开发,使用Django2.2+MySQL+
spark
辣椒种子
·
2023-12-23 02:44
计算机课程毕设源码
课程设计
mysql
spark
Hive-分区与分桶详解(超详细)
在
大数据处理
场景下,通过合理地使用分区和分桶可以提高查询性能、管理灵活性以及支持
大数据魔法师
·
2023-12-22 18:25
Hive之旅
hive
Spark
(二十二)Shuffle调优之调节Map端内存缓冲与Reduce端内存占比
一、背景
spark
.shuffle.file.buffer,默认32k
spark
.shuffle.memoryFraction,0.2Map端内存缓冲,Reduce端内存占比;很多资料、网上视频,都会说
文子轩
·
2023-12-22 17:57
Learning
Spark
——client mode和cluster mode的区别
在使用
spark
-submit提交
Spark
任务一般有以下参数:./bin/
spark
-submit\--class\--master\--deploy-mode\--conf=\...
达微
·
2023-12-22 16:48
Spark
性能优化:资源分配
提交
spark
作业时,用的
spark
-
stone_zhu
·
2023-12-22 16:00
Spark
中使用scala完成数据抽取任务 -- 总结
如题任务二:离线数据处理,校赛题目需要使用
spark
框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中,并且添加一个字段设置字段的格式第二个任务和第一个的内容几乎一样
冲鸭嘟嘟可
·
2023-12-22 12:23
spark
scala
大数据
工具系列:PyCaret介绍_Fugue 集成_
Spark
、Dask分布式训练
工具系列:PyCaret介绍_Fugue集成_
Spark
、Dask分布式训练Fugue是一个低代码的统一接口,用于不同的计算框架,如
Spark
、Dask。
愤斗的橘子
·
2023-12-22 12:22
数据挖掘
分布式
大数据
数据挖掘
[
Spark
] 读取项目下resources/的文件
背景这个
spark
程序要读取项目下的一些文件,当我把这个项目打成jar包后,
spark
-submit到集群后执行将文件作为资源文件打包到JAR中可以通过Maven或sbt这样的构建工具完成。
言之。
·
2023-12-22 12:22
spark
大数据
分布式
Spark
系列之:使用
spark
合并hive数据库多个分区的数据到一个分区中
Spark
系列之:使用
spark
合并hive数据库多个分区的数据到一个分区中把两个分区的数据合并到同一个分区下把其中一个分区的数据通过append方式添加到另一个分区即可%
spark
valdf=
spark
.sql
最笨的羊羊
·
2023-12-22 11:37
大数据
Spark系列
合并hive数据库
多个分区的数据到一个分区中
SQL---数据抽样
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-22 11:01
大数据
SQL
sql
数据库
抽样
RAND
Apache
Spark
的基本概念和在大数据分析中的应用。
个人主页:SHOW科技,公众号:SHOW科技♂️作者简介:2020参加工作,专注于前端各领域技术,共同学习共同进步,一起加油呀!优质专栏:前端主流技术分享资料领取:前端进阶资料可以找我免费领取摸鱼学习交流:我们的宗旨是在「工作中摸鱼,摸鱼中进步」,期待大佬一起来摸鱼!————————————————版权声明:本文为CSDN博主「SHOW科技」的原创文章,遵循CC4.0BY-SA版权协议,转载请附
SHOW科技
·
2023-12-22 10:41
spark
数据分析
大数据
Spark
SQL 教程
一、什么是
Spark
SQL
Spark
SQL是
Spark
用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。
数据萌新
·
2023-12-22 10:06
最新国内AI绘画Midjourney绘画提示词Prompt分享
一、Midjourney绘画工具
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-22 08:17
人工智能
AIGC
教程
AI作画
midjourney
prompt
PYTHON的一维转二维
那么在
大数据处理
过程中,通过PYTHON怎么实现?PYTHON有一个专门的命令,pivot_table。今天就介
lzl8101
·
2023-12-22 07:32
python
pandas
数据分析
centos
spark
单机版伪分布式模式
Spark
的部署方式包括Standalone、YARN、Mesos,在我们学习
Spark
编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。
数据萌新
·
2023-12-22 07:17
spark
-thrift-server 报错 Wrong FS
文章目录@[toc]具体报错实际原因查看hive元数据修改
spark
-thrift-server配置修改hive元数据具体报错
spark
-thrift-server执行删表语句,出现如下报错Error:
月巴左耳东
·
2023-12-22 07:47
bigdata
spark
大数据
hive报metadata.HiveException: Hive Runtime Error while processing row (tag=0)错误
个人觉得报出这样的异常是由于
spark
sql转化成物理计划时会
weixin_42412645
·
2023-12-22 07:45
hive
hive
tag=0
org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create
Spark
client for
Spark
session
问题描述Logginginitializedusingconfigurationinjar:file:/opt/module/hive/lib/hive-common-3.1.2.jar!/hive-log4j2.propertiesAsync:trueHiveSessionID=0c953008-3c72-4e36-bcaf-47e92a5b9759FAILED:SemanticExceptio
qq_41504585
·
2023-12-22 07:13
大数据分享
hive
Spark
在云原生时代的发展
在这个云原生的时代拥抱云变成了不二之选,那么对于
Spark
[1]来说它是如何在云原生时代积极拥抱云的呢?背景1
Apache Spark中国社区
·
2023-12-22 07:18
SQL---Zeppeline前驱记录与后驱记录查询
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-22 07:17
大数据
SQL
sql
数据库
presto
zeppeline
spark
广播变量,累加器和
Spark
Shuffle
文章目录广播变量累加器
Spark
shuffle
spark
shuffle演进的历史1、未经优化的HashShuffleManager2、优化后的HashShuffleManager3、SortShuffle4
落幕7
·
2023-12-22 07:16
#
spark
spark累加器
spark广播变量
spark
shuffle
LAS
Spark
+云原生:数据分析全新解决方案
文章主要介绍了火山引擎湖仓一体分析服务LAS(下文以LAS指代)基于
Spark
的云原生湖仓分析实践,利用Spar
字节数据平台
·
2023-12-22 07:15
云原生
数据分析
大数据
数据库
火山引擎
字节跳动
Spark
Shuffle 大规模云原生化演进实践
Spark
是字节跳动内部使用广泛的计算引擎,已广泛应用于各种大规模数据处理、机器学习和大数据场景。目前中国区域内每天的任务数已经超过150万,每天的Shuffle读写数据量超过500PB。
字节跳动云原生计算
·
2023-12-22 07:09
spark
云原生
大数据
深度学习库 SynapseML for .NET 发布0.1 版本
2021年11月微软开源一款简单的、多语言的、大规模并行的机器学习库SynapseML(以前称为MML
Spark
),以帮助开发人员简化机器学习管道的创建。
dotNET跨平台
·
2023-12-22 06:08
c#
python
java
深度学习
人工智能
Spark
的stage源码解析
https://zhuanlan.zhihu.com/p/535000671?utm_id=0stage创建划分的过程就是一个深度优先遍历rdd依赖树的过程,通过不断的循环递归形式,最早的stage被首先创建出来。然后顺序创建后续stage,stage创建完毕后会注册stage到shuffleToMapStage,这是一个map,key为shuffleId,value为stage。每一个stage
Logan_addoil
·
2023-12-22 05:19
大数据学习之旅
spark
大数据
分布式
MapReduce 的 shuffle 与
spark
的 shuffle 有什么区别?
MapReduce的shuffle在Map端的shuffle过程是对Map的结果进行分区、排序、分割,然后将属于同一划分(分区)的输出合并在一起并写在磁盘上,最终得到一个分区有序的文件。主要是:Partition、Collector、Sort、Spill、Merge几个阶段。在Reduce端,shuffle主要分为复制Map输出、排序合并两个阶段。主要是:Copy、Merge、Reduce几个阶段
Logan_addoil
·
2023-12-22 05:18
大数据学习之旅
mapreduce
spark
大数据
Iceberg基于
Spark
MergeInto语法实现数据的增量写入
SPARK
SQL基本语法示例SQL如下MERGEINTOtarget_tabletUSINGsource_tablesONs.id=t.id//这里是JOIN的关联条件WHENMATCHEDANDs.opType
Dreammmming Time
·
2023-12-22 04:31
数据湖
数据存储
spark
3.3
iceberg
1.0.x
MERGE
INTO
UPSERT
spark
架构
一、基本概念RDD(ResilientDistributedDatasets):弹性分布式数据集,只读分区记录的集合,
Spark
对所处理数据的基本抽象。RDD是
Spark
分发数据和计算的基础抽象类。
allin8116
·
2023-12-22 01:47
大数据处理
与分析
掌握分布式并行编程框架MapReduce掌握基于内存的分布式计算框架
Spark
理解MapReduce的工作流程、
Spark
运行原理熟悉机器学习概念一.MapReduceHadoopMapReduce是一个软件框架
僖僖cc
·
2023-12-21 22:34
大数据
大数据处理
与分析-
Spark
导论(基于Hadoop的MapReduce的优缺点)MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它将数据处理过程分为两个主要阶段:Map阶段和Reduce阶段。在Map阶段,数据被分割为多个小块,并由多个并行运行的Mapper进行处理。在Reduce阶段,Mapper的输出
僖僖cc
·
2023-12-21 22:03
spark
大数据
分布式
AI创作系统ChatGPT商业运营网站系统源码,支持AI绘画,GPT语音对话+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-21 21:48
人工智能
软件源码
ChatGPT
人工智能
chatgpt
语音识别
midjourney
AI作画
最新ChatGPT网站系统源码+AI绘画系统+支持GPT语音对话+详细图文搭建教程/支持GPT4.0/H5端系统/文档知识库
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-21 21:45
人工智能
ChatGPT
软件源码
chatgpt
人工智能
语音识别
AIGC
AI作画
【翻译】通用人工智能的花火——GPT-4的早期研究
Spark
s of Arti cial General Intelligence:Early experiments with GPT-4
10.1Denitionsofintelligence,AI,andAGI智能、人工智能和通用人工智能的定义Inthispaper,wehaveusedthe1994denitionofintelligencebyagroupofpsychologists[Got97]asaguidingframeworktoexploreGPT-4'sarticialintelligence.Thisdenit
m0_58185557
·
2023-12-21 20:23
人工智能
微软
上一页
29
30
31
32
33
34
35
36
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他