E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
Py
Spark
学习笔记一
为了更好地进行大数据分析与处理,最近在学习Py
Spark
,整理了一下笔记,加深印象。
想当兔纸的猫
·
2023-10-28 18:01
pyspark
pyspark
py
spark
基础学习——环境配置
目录一、配置版本二、windows下安装py
spark
2.1jdk安装2.2
spark
安装2.3Hadoop安装2.4检测代码2.5运行环境总结一、配置版本JavaJDK1.8.0_111Python3.9.0
Spark
3.2.1Hadoop3.2.3
紫金叮咛
·
2023-10-28 18:29
学习
大数据
hadoop
spark
python
pycharm使用服务器py
spark
环境
一.背景最近想整理整理py
spark
的环境,由于本人是windows本,所以之前都是用winutils解决跨平台问题,最近想着我能不能直接使用服务器上的py
spark
环境啊,所以在网上搜索了一番加上测试了一趟
无语梦醒
·
2023-10-28 18:57
python
python
Py
Spark
库的安装和一些方法
文章目录如何安装Py
Spark
库构建Py
Spark
执行环境入口对象Python数据容器转RDD对象数据计算_map方法数据计算_flatMap方法——flatMap算子数据计算_reduceByKey方法
王木木@
·
2023-10-28 18:27
spark
python
大数据
python py
spark
用法
字符串的格式化方法分为两种,分别为占位符(%)和format方式Pythonlambda介绍Py
Spark
之mappy
spark
行转列、列转行或宽表转窄表、窄表转宽表Pythonpandas列转行操作(
飞驰的拖鞋
·
2023-10-28 18:56
spark
python
hive
0302 Data Sources
转载请注明出处,谢谢合作~该篇中的示例暂时只有Scala版本~数据源
Spark
SQL支持通过DataFrame接口操作多种数据源。
Whaatfor
·
2023-10-28 18:41
大数据基础平台——
Spark
大数据处理
2.实验内容及结果截屏(1)
Spark
大数据处理载入本章需要用到的程序包:(2)数据框的创建①通过键入创建调用
spark
的函数createDataFrame()创建数据框:调用数据框的函数show()查看数据集前几行
樱桃小叮当
·
2023-10-28 18:53
大数据基础平台
大数据
spark
分布式
2.
spark
读取流数据
packagecom.
spark
test.bigdata.
spark
importorg.apache.
spark
.
一杭oneline
·
2023-10-28 16:52
本机
spark
通idea连接Oracle的坑
$init$(Lscala/Product;)V查询网上资料,是idea引入的scala运行环境版本与idea默认的scala版本不一样也就是写的项目中的pom的
spark
版本与idea默认的版本不一致解决方法
刘文钊1
·
2023-10-28 15:26
spark
大数据
分布式
Spark
(Streaming)写入数据到文件-关键为根据数据内容输出到不同自定义名称文件(saveAsHadoopFile以及自定义MultipleOutputFormat)
之前的
Spark
实时流处理的数据处理程序,要求把数据从kafka接收之后,分2路分别写入kafka和hdfs,写入kafka的部分之前已经有过总结,现在回过头来把之前的写入HDFS的地方重新总结一下,整个过程从头到尾有一个写入方式的优化
超级侠哥
·
2023-10-28 15:17
Hadoop大数据相关
spark
streaming
2024秋招 阿里云存储-存储基础技术-女娲&;工程效能团队
外卖骑手一面面经网易校招开始啦~芯原一面字节跳动大数据开发面经答案汇总之
Spark
篇上集美团一面校招经验教训请接收一份来自大厂的保姆级面试稿!
han_xue_feng
·
2023-10-28 13:33
java
【2024大数据专业毕业设计必过选题】100个大数据专业毕设选题免费详细讲解,大数据毕业生必看毕设选题、创新点,hadoop/
spark
/hive/实时数据分析选题指导
2024年大数据专业毕设必过选题选题注意事项:(1)数据是否能够获取(2)工作量是否满足毕设要求(3)代码是否通俗易懂,能否在短期内掌握(4)选题是否具有现实意义,创新点(5)个人电脑硬件是否支持运行大数据项目大数据毕设项目主要流程:(1)大数据环境搭建:虚拟机搭建(分布式、伪分布式)、Hadoop、Hbase、Zookeeper、Hive、Hbase、Kafka、Flume等组件的安装(2)数据
奶糖小果冻
·
2023-10-28 11:43
大数据
hadoop
课程设计
毕业设计
毕设
大数据面试题2
9
spark
处理了哪些业务10flink类加载,两个类型了解吗11java垃圾回收机制12你感觉你的优势是什么13你工作的三年最有成就感的事应聘者二2022-11-26(1)介绍下你们项目的人员组成(2
添柴少年yyds
·
2023-10-28 08:17
大数据
java
开发语言
windows下安装
spark
1、安装jdkimage.png2、安装scalaimage.png3、下载
spark
spark
下载地址image.png3.1安装
spark
将下载的文件解压到一个目录,注意目录不能有空格,比如说不能解压到
test_dw
·
2023-10-28 07:26
Ai创作系统ChatGPT网站源码+图文搭建教程+支持GPT4.0+支持ai绘画(Midjourney)
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统+AI绘画系统,支持OpenAIGPT全模型+国内AI全模型。
白云如幻
·
2023-10-28 07:57
人工智能
软件源码
ChatGPT
人工智能
chatgpt
数据质量监控框架及解决方案总结
概述随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,
spark
和hive应用开发在部门内部较为常见。
浪尖聊大数据-浪尖
·
2023-10-28 05:08
大数据
java
数据分析
人工智能
数据库
Spark
与Iceberg整合查询操作-查询快照,表历史,data files Manifests 查询快照,时间戳数据...
1.8.6
Spark
与Iceberg整合查询操作1.8.6.1DataFrameAPI加载Iceberg中的数据
Spark
操作Iceberg不仅可以使用SQL方式查询Iceberg中的数据,还可以使用DataFrame
a-tao必须奥利给
·
2023-10-28 03:58
spark
大数据
hadoop
分布式
hdfs
Scala【集合常用方法和函数操作(下)】
前言接上次(应该是很久之前写的Scala集合常用方法和函数操作(上)的内容),当时Scala差不多是过了一遍了,但是由于学习
Spark
的过程中,好多方法和函数都是Scala中的,而且思路基本和Scala
让线程再跑一会
·
2023-10-28 03:50
Scala
scala
开发语言
后端
spark
sql动态分区数超上限报错
sethive.exec.dynamic.partition=true;(查看语句:sethive.exec.dynamic.partition;)sethive.exec.dynamic.partition.mode=nonstrict;注:该属性默认是strict,即限制模式,避免全部分区字段都是动态的。应该必须至少一个分区字段是指定有值即静态的,且必须放在最前面。设置为nonstrict之后
小战牛
·
2023-10-28 03:48
Flink Streaming-Sink
大数据技术AIFlink/
Spark
/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料100篇原创内容公众号圣诞节快乐该连接器提供了对Flink文件系统抽象支持的文件系统中的分区文件的访问.文件系统连接器本身就被包括在
hyunbar
·
2023-10-28 02:49
Flink
大数据
flink
big
data
hadoop
Spark
Streaming【实例演示】
前言1、环境准备启动Zookeeper和Kafka集群导入依赖:org.apache.
spark
spark
-core_2.123.2.4org.apache.
spark
spark
-streaming_2.123.2.4org.apache.
spark
spark
-streaming-kafka
让线程再跑一会
·
2023-10-28 02:15
Spark
spark
大数据
hadoop 3.x 案例3:datanode 异常
页面显示有的文件是损坏的,需要使用fsck来检查image.png二.解决方案通过fsck检查根目录,看是否有损坏的文件hdfsfsck/image.png将检查到的损坏的文件进行删除hdfsfsck/
spark
-jars-movehdfsfsck
只是甲
·
2023-10-28 01:17
Fei
Spark
|身体觉知
早晨被闹铃闹了几次从迷迷糊糊到终于起身发现第一次被闹醒后到起身前的那段睡眠会无限非常依赖床的几乎这是身体的本能如果这时候动用意志力一旦只要能从床上坐起过几分钟是能醒过来的但是若顺着身体的感受再睡一会儿是很舒服的最近我会倾向后一种更多尊重身体的感受以前确实会以时间为准但其实早上醒来的状态和晚上的睡眠关系很大让身体在需要休息时休息给自己安排一个好的睡眠我发现一开始其实也不容易做到虽然我没有很晚睡但有时
Cynthia雯霏
·
2023-10-28 00:04
x86 架构的机载计算机,它来了!
All
spark
2-x86采用Intel酷睿11代或12代CPU,x86架构,适用于无人机等机器人运行SLAM、VIO等复杂逻辑和高精度的机器视觉任务。
阿木实验室
·
2023-10-27 23:49
x86架构
电脑
Intel酷睿11代CPU
英特尔
用
Spark
-Scala 训练 LightGBM 模型
Spark
-scala可以使用LightGBM模型,既可以进行分布式训练,也可以进行分布式预测,支持各种参数设置。支持模型保存,并且保存后的模型和Python等语言是可以相互调用的。
程序员的隐秘角落
·
2023-10-27 22:05
jupyter中设置python版本
本人最近在jupyternotebook中学习
spark
,但是总是提示一下错误;Exception:Pythoninworkerhasdifferentversion2.7thanthatindriver3.6
kexiaohua
·
2023-10-27 22:52
中文文档 py
spark
.sql.DataFrameStatFunctions
DataFrame的统计函数的功能。8.1corr(col1,col2,method=None)以双精度值计算DataFrame的两列的相关性。目前只支持personal相关系数.DataFrame.corr()andDataFrameStatFunctions.corr()互为别名。参数:●col1–第一列的名称●col2–第二列的名称●method–相关方法,目前只支持personal相关系数
cassie_xs
·
2023-10-27 22:17
spark
on yarn 时,使用rest api 查看job的信息,然而看官方文档,没有明确告诉url到底是什么
首先,打开
spark
streaming的web页面,按F12打开控制台,点击Executors,发现有一个allexecutors请求,暴露出了restapi的地址http://ip:8088/proxy
Jaming R
·
2023-10-27 22:48
spark
Python &
Spark
操作常见数据库整理
Pythonmysql使用pymysql操作,连接主要配置参数:config={'host':"host",'port':3306,'database':"database",'user':"user",'password':"password"}#使用pymysql库。importpymysql#配置连接参数config={'host':"host",'port':3306,'database'
一只当归
·
2023-10-27 21:43
Could not write class xxx because it exceeds JVM code size limits...too large
:CouldnotwriteclassxxxbecauseitexceedsJVMcodesizelimits...toolarge问题描述开发环境报错原因解决方法参考文献问题描述自己写了一个很普通的
spark
sql
钓的不是鱼
·
2023-10-27 20:10
java
spark
scala
java
maven
jvm
Hive on
Spark
版本:2.3.3版本兼容性
spark
安装配置YARN配置Hive配置属性细节配置
Spark
调整细节常见问题(绿色已解决,将从此列表中删除)推荐配置设计文档Hiveon
Spark
为Hive提供了Apache
Spark
金刚_30bf
·
2023-10-27 19:16
Spark
初探总结
1.
spark
:分布式/流式数据处理,学习算法2.数据处理:RDD->ResilientDistributedDatasets转换map,floatMap,groupByKey...动作count,collect
shaun_x
·
2023-10-27 18:06
如何在
spark
中使用scikit-learn和tensorflow等第三方python包
目录1打包需要的python包2修改
spark
配置文件1打包需要的python包首先我们用conda包管理工具对我们需要的python包进行虚拟环境创建:condacreate-npython37--copy-y-qpython
BGoodHabit
·
2023-10-27 17:47
Spark
python
spark
scikit-learn
tensorflow
Spark
SQL 字符串函数汇总
本文总结一些常用的字符串函数。还是在databricks社区版。字符串截取函数:substr\substring字符串的长度函数len\length字符串定位函数instr字符串分割函数split\split_part字符串去空格函数:trim\ltrim\rtrim字符串补足函数:lpad\rpad字符串拼接函数:concat\concat_ws字符串替换函数:replace\regexp_re
颗颗豌豆向太阳
·
2023-10-27 15:20
spark
sql
大数据
spark
sql dataframe字符串类型的列拼接一个常量字符串的方法
spark
示例数据://
spark
-2.3.0-bin-hadoop2.7//examples//src//main//resources//people.json数据内容:{“name”:“Michael
tanhaidi
·
2023-10-27 15:48
大数据开发
sql
spark
Spark
SQL和Hive中的函数(一):字符串函数
本系列文章主要介绍
Spark
SQL/Hive中常用的函数,主要分为字符串函数、JSON函数、时间函数、开窗函数以及在编写
Spark
SQL代码应用时实用的函数算子五个模块。
大数据学习与分享
·
2023-10-27 15:47
Hive
Spark
hive
sparksql
大数据
函数
SQL
Spark
On Hive原理和配置
目录一、
Spark
OnHive原理(1)为什么要让
Spark
OnHive?
吗喽也是命
·
2023-10-27 11:40
spark
hive
大数据
Spark
UI中Shuffle dataSize 和shuffle bytes written 指标区别
背景本文基于
Spark
3.1.1目前在做一些知识回顾的时候,发现了一些很有意思的事情,就是
Spark
UI中ShuffleExchangeExec的dataSize和shufflebyteswritten
鸿乃江边鸟
·
2023-10-27 11:39
spark
大数据
spark
ui
大数据
【
spark
客户端】
Spark
SQL CLI详解:怎么执行sql文件、注释怎么写,支持的文件路径协议、交互式模式使用细节
文章目录一.
Spark
SQLCommandLineOptions(命令行参数)二.ThehivercFile1.withoutthe-i2..hiverc介绍三.支持的路径协议四.支持的注释类型五.
Spark
SQLCLI
roman_日积跬步-终至千里
·
2023-10-27 10:13
spark
spark
sql
大数据
Spark
Conf
Spark
Conf代表应用配置,构造函数中带有boolean标志,是否从systemproperties(非systemenv)加载所有
spark
.开头的设置。
clive0x
·
2023-10-27 09:52
Spark
-SQL 相关
相关链接DESCRIBETABLEhttps://
spark
.apache.org/docs/3.3.2/sql-ref-syntax-aux-describe-table.htmlSQLconceptSQL
zhixingheyi_tian
·
2023-10-27 08:01
Spark
Sql
sql
数据库
database
1024程序员节
spark
报错:apache.
spark
.memory.TaskMemoryManager - Failed to allocate a page (6710 bytes), try again.
报错信息和截图17510[Executortasklaunchworkerfortask2.0instage1.0(TID3)]WARNorg.apache.
spark
.memory.TaskMemoryManager-Failedtoallocateapage
小辉懂编程
·
2023-10-27 08:57
报错问题
spark
apache
大数据
Hadoop 请求数据长度 Requested Data length 超过配置的最大值
一、问题现象
Spark
任务速度变慢,也不失败。DataNode内存足够CPU负载不高GC时间也不长。查看DataNode日志,发现有些日志出现很多NettyRPC超时。
_lizhiqiang
·
2023-10-27 06:49
#
Hadoop
hadoop
大数据
分布式
Spark
配置
本地模式本地模式是学习和实验
spark
的绝佳方式。本地模式还未计划最终部署到多节点
Spark
群集的分析,报告和应用程序提供了方便的开发环境要在本地模式下工作,首先需要安装
spark
版本以便本地使用。
Liam_ml
·
2023-10-27 05:36
Hudi数据湖-基于Flink、
Spark
湖仓一体、实时入湖保姆级教学
目录Hudi源码编译Hudi扫盲基于
Spark
-shell集成Hudi基于
Spark
-Hive集成Hudi手动创建HIVE表基于
Spark
SQL集成Hudi自动创建HIVE表基于FlinkSQL集成Hudi
笑一笑、
·
2023-10-27 01:04
BigData
spark
flink
big
data
使用Flink Streaming Query 查询Hudi(出现包冲突以及Hive 3.1.3 编译Hudi 时间戳异常)
org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormatClassNotFoundExceptionKeywords:Hudi编译Hive,Flink对Hudi进行StreamingQuery,Hudi包冲突,编译Hudi版本:Hadoop3.2.2
Spark
3.2.4Flin
Such Devotion
·
2023-10-27 01:31
Hudi
Hive
flink
大数据
hive
Hudi 0.14.0 编译
1编译环境Java1.8maven3.9.3hadoop3.3.4hive3.1.3
spark
3.2.1flink1.16.0hudi0.14.02hudi准备2.1源码$gitclonehttps:/
跟着大数据和AI去旅行
·
2023-10-27 01:00
大数据企业级实战
hudi
Spark
入门
Spark
Spark
背景什么是
Spark
官网:http://
spark
.apache.org
Spark
是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源
janlle
·
2023-10-26 22:22
Kafka与
Spark
案例实践
例如,实时计算引擎
Spark
。接下来通过一个完整案例,运用Kafka和
Spark
来合理完成。
程序猿小乙
·
2023-10-26 22:34
java
kafka
spark
分布式
spark
通信原理源码分析
spark
2.0以后采用Netty通信框架通信分为两端,driver端和executor端。
二十赶朝暮__
·
2023-10-26 21:12
上一页
55
56
57
58
59
60
61
62
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他