E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据处理Spark
9.
Spark
Core-
Spark
经典案例之非结构数据处理
需求:根据tomcat日志计算url访问了情况,具体的url如下,要求:区别统计GET和POSTURL访问量结果为:访问方式、URL、访问量测试数据集:在CODE上查看代码片派生到我的代码片196.168.2.1--[03/Jul/2014:23:36:38+0800]“GET/course/detail/3.htmHTTP/1.0”200384350.038182.131.89.195--[03
__元昊__
·
2023-12-29 14:25
Spark
集群- 连接hadoop、hive集群
目的使
spark
代码提交到集群运行时,能够操作hdfs、hive等保证所有
spark
机器都能解析hadoop集群的机器名称如果
spark
和hadoop部署在同样的集群,则可以省略这一步如果
spark
和hadoop
heichong
·
2023-12-29 13:59
最新AI系统ChatGPT网站系统源码,Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+思维导图一站式解决方案
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-29 10:05
人工智能
ChatGPT
AIGC
人工智能
chatgpt
语音识别
midjourney
gpt
Spark
相关
1、
Spark
运行模式1、local:运行在一台机器上。测试用。2、Standalone:是
Spark
自身的一个调度系统。对集群性能要求非常高时用。国内很少使用。
大数据点滴
·
2023-12-29 09:29
#
Spark相关
spark
大数据
分布式
seatunnel同步oracle到clickhouse问题
拷贝oracle的包ojdbc6-11.2.0.4.jar到/opt/
spark
-2.3.3/jar目录下##HowtosolvetheError`Exceptioninthread"main"java.lang.NoSuchFieldError
lin502
·
2023-12-29 09:58
seatunnel
hadoop
spark
hdfs
spark
数据分析(sogou500w数据集)
1.实验环境1.1操作系统macOSMojave10.14.11.2虚拟化软件VMwareFusion1.3虚拟机操作系统ubuntu18.0464位1.4数据sogou500w数据2.实验步骤和方法流程2.1安装jdk前往官网下载jdk1.8,安装位置为/home/kyle/env。2.1.2配置环境变量vsudovim/etc/profileexportJAVA_HOME=/home/kyle
pacmoc
·
2023-12-29 08:45
spark
并行度
并行度的解释:并行度:是一个
spark
应用中,每个stage之中的task的数目。什么是task:一个
spark
应用任务执行的最基本单位。
流砂月歌
·
2023-12-29 07:44
【
Spark
精讲】一文讲透
Spark
RDD
MapReduce的缺陷MR虽然在编程接口的种类和丰富程度上已经比较完善了,但这些系统普遍都缺乏操作分布式内存的接口抽象,导致很多应用在性能上非常低效。这些应用的共同特点是需要在多个并行操作之间重用工作数据集,典型的场景就是机器学习和图应用中常用的迭代算法(每一步对数据执行相似的函数)。RDDRDD是只读的。RDD五大属性:①分区、②依赖、③计算函数、④分区器、⑤首选运行位置。RDD则是直接在编程
话数Science
·
2023-12-29 07:36
大数据
Spark精讲
Spark
spark
大数据
面试
【
Spark
精讲】一文讲透
Spark
宽窄依赖的区别
宽依赖窄依赖的区别窄依赖:RDD之间分区是一一对应的宽依赖:发生shuffle,多对多的关系宽依赖是子RDD的一个分区依赖了父RDD的多个分区父RDD的一个分区的数据,分别流入到子RDD的不同分区特例:cartesian算子对应的CartesianRDD,是通过创建了两个NarrowDependency完成了笛卡尔乘积操作,属于窄依赖。窄依赖搜索源码,RangeDependency只有UnionR
话数Science
·
2023-12-29 07:06
Spark
大数据
Spark精讲
大数据
面试
[
spark
] dataframe的数据导入Mysql5.6
在
Spark
项目中使用Scala连接MySQL5.6并将DataFrame中的数据保存到MySQL中的步骤如下:添加MySQL连接驱动依赖:在
Spark
项目中,你需要在项目的构建工具中添加MySQL连接驱动的依赖
言之。
·
2023-12-29 07:02
spark
大数据
分布式
Spark
Streaming与Kafka整合
1.3
Spark
Streaming与Kafka整合1.3.1整合简述kafka是做消息的缓存,数据和业务隔离操作的消息队列,而
spark
streaming是一款准实时流式计算框架,所以二者的整合,是大势所趋
Guff_hys
·
2023-12-29 06:55
linq
c#
spark
大数据
分布式
开发语言
kafka
【数据采集与预处理】数据接入工具Kafka
(一)Kafka核心组成(二)写入流程(三)Zookeeper存储结构(四)Kafka消费过程四、Kafka准备工作(一)Kafka安装配置(二)启动Kafka(三)测试Kafka是否正常工作五、编写
Spark
Streaming
Francek Chen
·
2023-12-29 06:55
大数据技术基础
Spark编程基础
kafka
分布式
字节跳动 MapReduce -
Spark
平滑迁移实践
摘要:本文整理自字节跳动基础架构工程师魏中佳在本次CommunityOverCodeAsia2023中的《字节跳动MapReduce-
Spark
平滑迁移实践》主题演讲。
字节跳动云原生计算
·
2023-12-29 06:20
spark
云原生
大数据
Spark
权威指南(中文版)--第23章 生产环境中的结构化流
Spark
TheDefinitiveGuide(
Spark
权威指南)中文版。本书详细介绍了
Spark
2.x版本的各个模块,目前市面上最好的
Spark
2.x学习书籍!!!
登峰大数据
·
2023-12-29 06:00
自动分区推断
Spark
SQL中的Parquet数据源,支持自动根据目录名推断出分区信息。例如,如果将人口数据存储在分区表中,并且使用性别和国家作为分区列。
一个人一匹马
·
2023-12-29 05:04
2022-02-24-
Spark
-44(性能调优通用调优)
1.应用开发的原则原则一:坐享其成我们应该尽可能地充分利用
Spark
为我们提供的“性能红利”,如钨丝计划、AQE、SQLfunctions等等。
冰菓_lam
·
2023-12-29 03:14
Hive安装笔记——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理
将下发的ds_db01.sql数据库文件放置mysql中12、编写Scala代码,使用
Spark
将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info
Stitch .
·
2023-12-29 02:29
我的大学笔记
大数据
笔记
hive
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制`TableInputFormat`来实现我们的需求了,我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`
Spark
kikiki5
·
2023-12-29 01:49
Spark
集群搭建
文章目录搭建前准备安装搭建解压并重命名环境变量配置配置文件yarn-site.xml
spark
-env.sh官网求π(PI)案例启动
spark
-shell通过浏览器查看显示查看
Spark
的网页信息展示搭建前准备下载地址
撕得失败的标签
·
2023-12-29 00:42
大数据技术
spark
大数据
分布式
hadoop
yarn
hdfs
Hive和
Spark
生产集群搭建(
spark
on doris)
bigdata-001bigdata-002bigdata-003bigdata-004bigdata-005MySQL-8.0.31mysqlDataxDataxDataxDataxDataxDatax
Spark
tuoluzhe8521
·
2023-12-28 23:56
Hive相关
hive
spark
hadoop
大数据
yarn
Hbase BulkLoad用法
要导入大量数据,Hbase的BulkLoad是必不可少的,在导入历史数据的时候,我们一般会选择使用BulkLoad方式,我们还可以借助
Spark
的计算能力将数据快速地导入。
kikiki2
·
2023-12-28 23:55
ClickHouse 单机安装及基础知识与
Spark
应用
什么是ClickHouse?ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。在传统的行式数据库系统中,数据按如下顺序存储:处于同一行中的数据总是被物理的存储在一起。常见的行式数据库系统有:MySQL、Postgres等。在列式数据库系统中,数据按如下的顺序存储:这些示例只显示了数据的排列顺序。来自不同列的值被单独存储,来自同一列的数据被存储在一起。不同的数据存储
月亮给我抄代码
·
2023-12-28 18:36
clickhouse
spark
数据库
【大数据】Hudi HMS Catalog 完全使用指南
HudiHMSCatalog完全使用指南1.HudiHMSCatalog基本介绍2.在Flink中写入数据3.在FlinkSQL中查看数据4.在
Spark
中查看数据5.在Hive中查看数据1.HudiHMSCatalog
G皮T
·
2023-12-28 18:24
#
Hudi
大数据
hudi
数据湖
hive
flink
spark
metastore
spark
应用编写时5个最需要避免的错误
https://www.slideshare.net/cloudera/top-5-mistakes-to-avoid-when-writing-apache-
spark
-applications
Bitson
·
2023-12-28 18:24
Actor模型与Akka Actor体系基础总结
前言最近用业余时间把Flink的RPC基础设施翻了个底朝天,又与之前分析过的
Spark
RPC机制做了一些对比,越发觉得Actor模型甚为精妙,值得简单记录一下,顺便也可作为日后解析FlinkRPC机制的基础入门
LittleMagic
·
2023-12-28 17:51
大数据处理
各组件概念及作用
一、数据采集:1.1Flume集群:数据采集工具,如写脚本将不同源端的数据采集后进行数据存储,或推送至Kafka等;1.2FTP集群:文件传输工具;1.3Kafka集群:消息队列,未避免消息堵塞而将消息由Kafka统一管理,进行消息的接收和发布;1.4爬虫服务器:依据需求定时定向抓取页面数据;二、数据存储:2.1HDFS集群:(1)概念:分布式文件存储系统,做数据存储(理解为一个磁盘),相当于数据
p1i2n3g4
·
2023-12-28 17:11
大数据
kafka
分布式
大数据
Dbeaver,Hudi,Hive,
Spark
,Presto应用问题及解决措施梳理
问题1:基于Dbeaver工具,新建的Hudi表无法进行更新(即表结构,新增字段等);解决措施:在Dbeaver中集成
spark
的包,通过
spark
SQL的方式进行Hudi表的新建,解决表无法更新问题。
p1i2n3g4
·
2023-12-28 17:31
大数据
hive
spark
hadoop
PingCAP 被评为 Translytical Data Platforms 2023 全球技术领导者
近日,PingCAP在全球化商业咨询公司QuadrantKnowledgeSolutions公布的
SPARK
MatrixforTranslyticalDataPlatforms中,被评为2023年全球TranslyticalDataPlatforms
TiDB_PingCAP
·
2023-12-28 16:40
tidb
TiDB
数据库
macOS hadoop+
spark
+scala安装教程
macOShadoop+
spark
+scala安装教程环境搭建操作系统:macOS10.13.6JDK:1.8.0_201hadoop:2.8.5
Spark
:2.4.3Scala:2.13.0一、文件准备
飞翔客栈
·
2023-12-28 15:43
Flink 在有赞实时计算的实践
在这个部分,主要是Flink与
Spark
的structuredstreaming的一些对比和选择Flink的原因。第三个就是比较重点的内容,Flink在有赞的实践。
有赞技术团队
·
2023-12-28 15:11
Spark
- 动态注册UDF
昨天有位大哥问小弟一个
Spark
问题,他们想在不停
Spark
程序的情况下动态更新UDF的逻辑,他一问我这个问题的时候,本猪心里一惊,
Spark
**还能这么玩?
kikiki2
·
2023-12-28 14:18
探究Presto SQL引擎(1)-巧用Antlr
从Hadoop生态的Hive,
Spark
,Presto,Kylin,Druid到非Hadoop生态的Clic
vivo互联网技术
·
2023-12-28 12:14
Hadoop安装笔记_单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理
将下发的ds_db01.sql数据库文件放置mysql中12、编写Scala代码,使用
Spark
将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info
Stitch .
·
2023-12-28 12:32
我的大学笔记
Hadoop
分布式
大数据
hadoop
笔记
hadoop hive
spark
flink 安装
下载地址Indexof/distubuntu安装hadoop集群准备IP地址主机名称192.168.1.21node1192.168.1.22node2192.168.1.23node3上传hadoop-3.3.5.tar.gz、jdk-8u391-linux-x64.tar.gzJDK环境node1、node2、node3三个节点解压tar-zxvfjdk-8u391-linux-x64.tar
nsa65223
·
2023-12-28 11:59
hadoop
hive
spark
如何利用数据分析快速解决企业出海业务中存在的问题?
AWS上的分析服务是包括了AWSS3(存储)ML(机器学习)AWSEMR(
大数据处理
)等一系列服务。AWS宣称其分析服务“从所有数据中获得对所有用户的解答的最快方式。”提供了广泛的分析服务选
九河云
·
2023-12-28 11:34
数据分析
数据挖掘
【头歌实训】Py
Spark
Streaming 数据源
文章目录第1关:MySQL数据源任务描述相关知识Py
Spark
JDBC概述Py
Spark
JDBCPy
Spark
StreamingJDBC编程要求测试说明答案代码第2关:Kafka数据源任务描述相关知识Kafka
撕得失败的标签
·
2023-12-28 11:24
【头歌实训】
pyspark
streaming
Kafka
mysql
kafka
头歌实训
[
spark
] RDD, DataFrame和DataSet是什么?如何相互转化
文章目录是什么如何转化是什么在Apache
Spark
中,RDD(ResilientDistributedDataset)、DataFrame和Dataset是三个不同的数据抽象层,各自有不同的特点和用途
言之。
·
2023-12-28 11:53
spark
大数据
分布式
[
spark
] SaveMode
https://
spark
.apache.org/docs/latest/api/java/index.html?
言之。
·
2023-12-28 11:53
spark
大数据
分布式
Spark
从入门到精通23:
Spark
SQL简介
Spark
SQL是
Spark
专门用来处理结构化数据的一个模块,它提供了一个名为DataFrame的编程抽象,并且可以作为分布式SQL查询引擎来使用。本节就来介绍一下
Spark
SQL的相关知识。
金字塔下的小蜗牛
·
2023-12-28 09:20
最新AI系统ChatGPT网站H5系统源码,支持Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-28 05:05
人工智能
ChatGPT
AIGC
人工智能
chatgpt
AI作画
语音识别
midjourney
Spark
- SQL查询文件数据
那么我们可以利用
spark
-sql直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会
spark
了,因为我就只会sql。##使用方法csv```
spark
.sql("select*fromcsv.
kikiki4
·
2023-12-28 03:49
Hadoop集成对象存储和HDFS磁盘文件存储
1.环境配置1.1版本说明组件版本是否必须其他事项Hadoop3.3.0+是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用
spark
sql,使用hive
tuoluzhe8521
·
2023-12-28 02:38
Hadoop
hadoop
hdfs
大数据
阿里云
spark
开发笔记(三、
Spark
SQL笔记)
基本概念Shark、
Spark
SQL和Hive之间的关系:Shark借用了Hive大部分的组件,包括词法分析、语法分析和逻辑分析阶段,只是在最后将逻辑执行计划转化为物理执行计划这一步,将底层的实现从MapReduce
眼君
·
2023-12-27 22:27
【头歌实训】
Spark
MLlib ( Python 版 )
文章目录第1关:基本统计编程要求测试说明答案代码第2关:回归编程要求测试说明参考资料答案代码第3关:分类编程要求测试说明参考资料答案代码第4关:协同过滤编程要求测试说明参考资料答案代码第5关:聚类编程要求测试说明参考资料答案代码第6关:降维编程要求测试说明参考资料答案代码第7关:特征提取与转化编程要求测试说明答案代码第8关:频繁模式挖掘编程要求测试说明参考资料答案代码第9关:评估指标编程要求测试说
撕得失败的标签
·
2023-12-27 20:26
【头歌实训】
spark-ml
python
开发语言
头歌实训
【头歌实训】
Spark
完全分布式的安装和部署
文章目录第1关:Standalone分布式集群搭建任务描述相关知识课程视频
Spark
分布式安装模式示例集群信息配置免密登录准备
Spark
安装包配置环境变量修改
spark
-env.sh配置文件修改slaves
撕得失败的标签
·
2023-12-27 20:56
【头歌实训】
分布式
spark
大数据
头歌实训
【头歌实训】
Spark
完全分布式的安装和部署(新)
文章目录第1关:Standalone分布式集群搭建任务描述相关知识课程视频
Spark
分布式安装模式主机映射免密登录准备
Spark
安装包配置环境变量修改
spark
-env.sh配置文件修改slaves文件分发安装包启动
撕得失败的标签
·
2023-12-27 20:56
【头歌实训】
分布式
spark
wpf
头歌实训
【头歌实训】Py
Spark
Streaming 入门
文章目录第1关:
Spark
Streaming基础与套接字流任务描述相关知识
Spark
Streaming简介Python与
Spark
StreamingPython
Spark
StreamingAPI
Spark
Streaming
撕得失败的标签
·
2023-12-27 20:54
【头歌实训】
pyspark
streaming
头歌实训
【知乎大数据技术】用Flink取代
Spark
Streaming!知乎实时数仓架构演进
“数据智能”(DataIntelligence)有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。本文主要讲述知乎的实时数仓实践以及架构的演进,这包
yoku酱
·
2023-12-27 19:34
Impala 基于hive的交互式实时分析工具(一) 概念及原理介绍
技术背景impala是参照谷歌的新三篇论文(caffeine-网络搜索引擎,pregel-图形数据库,dremel-瞬时类sql查询)当中的dremel而来,号称是当前大数据领域最快的sql查询工具,比
spark
sql
章云邰
·
2023-12-27 19:59
Spark
与Py
Spark
(1.概述、框架、模块)
目录1.
Spark
概念2.Hadoop和
Spark
的对比3.
Spark
特点3.1运行速度快3.2简单易用3.3通用性强3.4可以允许运行在很多地方4.
Spark
框架模块4.1
Spark
Core4.2
Spark
SQL4.3
Spark
Streaming4.4MLlib4.5GraphX5
还是那个同伟伟
·
2023-12-27 18:06
Spark
spark
大数据
分布式
python
上一页
26
27
28
29
30
31
32
33
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他