E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
spark
集成 ClickHouse 和 MySQL (读和写操作)(笔记)
目录前言:一.
spark
读出1.
spark
读出MySQL表数据1.2
spark
读出ClickHouse表数据二.
spark
写入1.
spark
写入MySQL表数据2.
spark
写入ClickHouse表数据前言
小辉懂编程
·
2023-09-29 06:25
spark
spark
clickhouse
笔记
2022-美团-大数据研发工程师-秋招面经
OOM的问题Q3:字节的KV存储库、内存和缓存的关系Q4:介绍伴随同行项目Q5:项目是否具有分层,比如dao、util、处理层,也就是springboot的那一套Q6:数据量级多大、数据存储格式是什么、
spark
LaiYoung1022
·
2023-09-28 18:57
2022届秋招
2022届秋招
美团
大数据研发
Spark
相关配置参数
executor占用内存=executor_instances*(executor.memory+max(executor.memoryOverhead,OffHeap.size)+executor.py
spark
.memory
攻城狮Kevin
·
2023-09-28 15:25
Spark
spark
大数据
spark
相关网站
Spark
的五种JOIN策略解析https://www.cnblogs.com/jmx-bigdata/p/14021183.html万字详解整个数据仓库建设体系(好文值得收藏)https://mp.weixin.qq.com
qq_40135006
·
2023-09-28 15:23
spark
大数据
分布式
spark
相关网站
maven-assembly-plugin(官方标准打包插件)https://blog.csdn.net/qq_43529621/article/details/106550551Git重置本地分支为远程分支https://www.cnblogs.com/CF1314/p/14276355.htmlgitcherry-pick用法详解https://www.jianshu.com/p/e05bf9
qq_40135006
·
2023-09-28 15:51
spark
大数据
分布式
Py
spark
实现KMeans机器学习聚类算法(一)
Py
spark
实现KMeans机器学习聚类算法(一)环境配置:
spark
2.1.1python3.5.2IPython5.1.0这里配置了py
spark
默认以ipython模式启动。
数据之禅
·
2023-09-28 14:03
Exception in thread “main“ java.sql.SQLException: No suitable driver
Exceptioninthread"main"java.sql.SQLException:Nosuitabledriveratjava.sql.DriverManager.getDriver(DriverManager.java:315)atorg.apache.
spark
.sql.execution.datasources.jdbc.JDBCOptions
南城守护
·
2023-09-28 12:19
java
开发语言
AI创作系统ChatGPT商业运营版源码+AI绘画/支持GPT联网提问/支持Midjourney绘画+Prompt应用+支持国内AI提问模型
一、AI创作系统
Spark
Ai创作系统是基于国外很火的ChatGPT进行开发的Ai智能问答系统。
白云如幻
·
2023-09-28 12:01
人工智能
程序源码
ChatGPT
人工智能
chatgpt
源码软件
AI作画
midjourney
最新AI智能写作系统ChatGPT源码/支持GPT4.0+GPT联网提问/支持ai绘画Midjourney+Prompt+MJ以图生图+思维导图生成
一、AI创作系统
Spark
Ai系统是基于很火的GPT提问进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美,可以说
Spark
Ai是目前国内一款的ChatGPT对接OpenAI软件系统。
白云如幻
·
2023-09-28 12:59
人工智能
网站源码
教程
人工智能
chatgpt
源码软件
AI作画
midjourney
AI写作
Flink基础系列8-Flink on yarn运行wordcount程序
hello.txt文件hellowordhellohdfshellomapreducehelloyarnhellohivehello
spark
helloflink一.Maven配置Flink依赖的配置org
只是甲
·
2023-09-28 11:10
大数据和数据仓库
#
Flink
flink
flink
on
yarn
flink
程序运行
【flink】flink实现wordCount(java)
文章目录前言一、wordCount1、有界wordCount2、无界wordCount3、pom.xml前言之前学习了
spark
,现在正在学习flink,感觉很类似,记录下flink的学习过程,请大家参考
叁滴水
·
2023-09-28 11:09
flink
flink
wordcount
求各区域热门商品Top3 - HiveSQL
背景:这是尚硅谷
Spark
SQL练习题,本文用HiveSQL进行了实现。
小刘新鲜事儿
·
2023-09-28 09:18
Hive
hive
最新AI写作系统ChatGPT源码/支持GPT4.0+GPT联网提问/支持ai绘画Midjourney+Prompt应用+MJ以图生图+思维导图生成
一、智能创作系统
Spark
Ai创作系统是基于国外很火的ChatGPT进行开发的Ai智能问答系统。
白云如幻
·
2023-09-28 09:13
人工智能
网站源码
教程
人工智能
源码软件
chatgpt
midjourney
AI写作
joblib并行的小总结,看完基本上怎么优化就清楚了。
bad-interaction-of-multiprocessing-and-third-party-libraries在我庸常的如草木一般成住坏空的生命中,如果我要做并行计算,大规模计算(TB级别)我会直接开py
spark
yowerimuseveni
·
2023-09-28 08:10
spark
提交应用程序的执行脚本
start.sh#!/bin/bash##########################################################################FileName:start.sh#Author:dai#########################################################################source
大数据翻身
·
2023-09-28 07:07
spark
kafka
大数据
spark
读写clickhouse
官网文档:https://clickhouse.tech/docs/zh/
spark
读取clickhouse数据一:这种jdbc的连接加载的是全量表数据valprop=newjava.util.Propertiesprop.setProperty
大数据翻身
·
2023-09-28 07:37
ClickHouse
spark
scala
big
data
spark
读取、保存.csv文件、并指定编码格式
一、用
spark
实现读取csv文件核心代码:val
spark
=
Spark
Session.builder().master("local[*]").appName("app").getOrCreate()
大数据翻身
·
2023-09-28 07:06
csv
apache
spark
py
spark
常用功能记录
前言py
spark
中很多常用的功能,过段时间没有使用就容易忘记,需要去网上搜索,这里总结一下,省的以后还去去搜,供自己以后参考。
qq_42693848
·
2023-09-28 07:05
python
spark
spark
窗口函数对多列数据进行排名示例
如果我们要select同学的id,语文成绩,语文成绩排名,数学成绩,数学成绩排名,英语成绩,英语成绩排名。可以使用以窗口函数##创建表createtablet_window(idstring,chineseint,mathint,englishint);##插入数据insertintot_windowvalues('1',99,88,77),('2',77,99,88),('3',88,77,99
houzhizhen
·
2023-09-28 07:04
spark
大数据
分布式
Py
spark
读写csv,txt,json,xlsx,xml,avro等文件
1.
Spark
读写txt文件读:df=
spark
.read.text("/home/test/testTxt.txt").show()+-------------+|value|+-----------
大数据翻身
·
2023-09-28 07:29
spark
python
big
data
hdfs
azure
分布式搭建(hadoop+hive+
spark
)
地址规划hadoop-master192.168.43.141hadoop-slave1192.168.43.142hadoop-slave2192.168.43.143核心软件包下载链接链接:https://pan.baidu.com/s/1OwKLvZAaw8AtVaO_c6mvtw?pwd=1234提取码:1234MYSQL5.6:wgethttp://repo.mysql.com/mysq
旖旎沐心
·
2023-09-28 07:48
分布式
hadoop
hive
50、
Spark
性能优化之高性能序列化类库
所以,进行
Spark
性能优化的第一步,就是进行序列化的性能优化。
Spark
自身默认就会在一些地方对数据进行序列化,比如Shuffle。
ZFH__ZJ
·
2023-09-28 05:14
Scala的小总结和计算信息熵
在工作中,我通常使用py
spark
和Java调用
spark
进行数据处理。考虑到python的性能和java代码的繁复性,以及公司特有的jar包没有python版本,便开始使用scala进行大数据处理。
Dotartisan
·
2023-09-28 03:44
Spark
SQL 教程
一、什么是
Spark
SQL
Spark
SQL是
Spark
用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。
printf200
·
2023-09-28 02:44
-大数据入门-1-Hadoop-hdfs伪分布式部署
Hadoop大象广义:以apachehadoop软件为主的生态圈(hivesqoop
spark
flink…)狭义:apachehadoop软件官网APAche:www.apache.orgCDH:http
吾..二..二
·
2023-09-28 02:19
若泽大数据=Hadoop
Hudi第一章:编译安装
添加环境变量二、hudi编译1.上传解压2.修改pom1.添加仓库2.修改依赖的组件版本2.修改源码兼容hadoop33.手动安装Kafka依赖1.上传jar包2.install到maven本地仓库4.解决
spark
超哥--
·
2023-09-28 01:00
Hudi学习专栏
hudi
大数据架构师——音乐数据中心平台离线数仓综合项目(三)
文章目录音乐数据中心平台离线数仓综合项目第二个业务:机器详细信息统计需求模型设计数据处理流程1.将数据导入MySQL业务库2.使用Sqoop工具抽取数据到HiveODS层3.使用
Spark
SQL对ODS
讲文明的喜羊羊拒绝pua
·
2023-09-27 23:11
大数据
大数据
hive
hadoop
Azkaban
Superset
Hive+
Spark
离线数仓工业项目--ODS层及DWD层构建(1)
目标:自动化的ODS层与DWD层构建实现-掌握Hive以及
Spark
中建表的语法规则-实现项目开发环境的构建-自己要实现所有代码注释-ODS层与DWD层整体运行测试成功数仓分层回顾目标:回顾一站制造项目分层设计实施
骨灰级收藏家
·
2023-09-27 23:38
hive
大数据
Spark
hive
spark
hadoop
数仓工业项目
DWD层构建
实训笔记——
Spark
SQL编程
实训笔记——
Spark
SQL编程
Spark
SQL编程一、准备
Spark
SQL的编程环境1.1创建
Spark
SQL的编程项目,scala语言支持的1.2引入编程依赖:二、
Spark
SQL程序编程的入口2.1SQLContext2.2HiveContext2.3
Spark
Session
cai-4
·
2023-09-27 22:44
实训
笔记
spark
sql
DataFlow编程模型与
Spark
Structured streaming
流式(streaming)和批量(batch):流式数据,实际上更准确的说法应该是unboundeddata(processing),也就是无边界的连续的数据的处理;对应的批量计算,更准确的说法是boundeddata(processing),亦即有明确边界的数据的处理。近年来流式计算框架编程接口的标准化,傻瓜化,SQL化日渐有走上台面的趋势。各家计算框架都开始认真考虑相关的问题,俨然成为大家竞争
天地不仁以万物为刍狗
·
2023-09-27 22:37
Spark
Spark
Hive电商数仓实战
项目描述以电商数据为基础,详细介绍数据处理流程,结合hive数仓、
spark
开发采用多种方式实现大数据分析。
GoAI
·
2023-09-27 20:14
数据仓库
大数据
python
hive
电子商务
Spark
Structured Streaming Source Sink整理
Source源码调用StructuredStreamingReadRecords.pngStructuredStreaming在Source阶段的调用过程如上图1.在start时会启动StreamExecution内部属性microBatchThread线程,在线程内部调用runBatches方法;2.在方法内执行triggerExecutor.execute调用runBatch方法;3.调用so
lioversky
·
2023-09-27 15:25
基于Kafka+Flink+Redis的电商大屏实时计算案例
由于Flink的“真·流式计算”这一特点,它比
Spark
Streaming要更适合大屏应用。本文从笔者的实际工作经验抽象出简单的模型,并简要叙述计算流程(当然大部分都是源码)。数据格式与接入简化的子订
zhisheng_blog
·
2023-09-27 15:42
clickhouse 早期版本与
spark
结合导致报错
报错信息:53:46ERRORc.t.f.core.vertx.DefaultErrorHandler-servicehandlingoccurerrorcom.****.platform.common.exception.DQLQueryException:Jobabortedduetostagefailure:Task0instage98.0failed1times,mostrecentfai
无我_a50f
·
2023-09-27 12:03
spark
java web_在Java Web中使用
Spark
MLlib训练的模型
PMML是一种通用的配置文件,只要遵循标准的配置文件,就可以在
Spark
中训练机器学习模型,然后再web接口端去使用。
圆山中庸
·
2023-09-27 11:55
spark
java
web
Java应用|使用Apache
Spark
MLlib构建机器学习模型
一、引言1.1
Spark
MLlib简介Apache
Spark
MLlib(MachineLearninglibrary)是一个开源机器学习框架,建立在Apache
Spark
之上,支持分布式计算和大规模数据处理
青年老年程序员
·
2023-09-27 11:21
java
apache
spark-ml
Java应用|使用Apache
Spark
MLlib构建机器学习模型【下】
如果您觉得本博客的内容对您有所帮助或启发,请关注我的博客,以便第一时间获取最新技术文章和教程。同时,也欢迎您在评论区留言,分享想法和建议。谢谢支持!四、无监督学习4.1聚类4.1.1K-MeansK-Means是一种常见的无监督学习算法,用于将一组数据分成k个簇,使得每个数据点都属于离其最近的簇。K-Means的目标是最小化所有数据点到其所属簇中心的距离的平方和。K-Means算法的基本流程如下:
青年老年程序员
·
2023-09-27 11:21
java
apache
spark-ml
spark
集成clickhouse报错: .ClassNotFound Failed to find data source: clickhouse. Please find packages at
Exceptioninthread"main"java.lang.ClassNotFoundException:Failedtofinddatasource:clickhouse.Pleasefindpackagesathttp://
spark
.apache.org
小辉懂编程
·
2023-09-27 11:48
报错问题
spark
clickhouse
大数据
Spark
集成ClickHouse(笔记)
目录前言:一.配置环境1.安装clickhouse驱动2.配置clickhouse环境二.
spark
集成clickhouse直接上代码,里面有一些注释哦!
小辉懂编程
·
2023-09-27 11:16
spark
spark
clickhouse
笔记
CDH-py
spark
-xgboost TypeError: ‘JavaPackage‘ object is not callable
使用CDH版本的py
spark
进行xgboost训练时,一直报一个错误“TypeError:‘JavaPackage’objectisnotcallable”。
一个魁梧的中年男人
·
2023-09-27 09:47
pyspark
spark
big
data
java
Hadoop期末复习
2、大数据计算模式及其代表产品批处理计算:MapReduce、
Spark
流计算:Storm、Flume图计算:PowerGraph查询分析计算:Hive、Cassandra3、云计算、大数据和物联网的联系云计算为大数据提供技术基础
在屋顶藏着李的哥
·
2023-09-27 07:15
hadoop
big
data
mapreduce
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制`TableInputFormat`来实现我们的需求了,我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`
Spark
kikiki5
·
2023-09-27 06:35
最新ChatGPT网站系统源码+支持GPT4.0+支持AI绘画Midjourney绘画+支持国内全AI模型
一、
Spark
AI创作系统
Spark
Ai系统是基于很火的GPT提问进行开发的Ai智能问答系统。
白云如幻
·
2023-09-27 03:18
人工智能
程序源码
教程
人工智能
最新AI创作系统+ChatGPT网站源码+支持GPT4.0+支持ai绘画+支持国内全AI模型
一、AI创作系统
Spark
Ai系统是基于很火的GPT提问进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美,可以说
Spark
Ai是目前国内一款的ChatGPT对接OpenAI软件系统。
白云如幻
·
2023-09-27 03:48
程序源码
人工智能
网站源码
人工智能
源码软件
ChatGPT
AI作画
最新AI创作系统ChatGPT商业运营源码+AI绘画+详细图文搭建部署教程
一、AI创作系统
Spark
Ai系统是基于很火的GPT提问进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美,可以说
Spark
Ai是目前国内一款的ChatGPT对接OpenAI软件系统。
白云如幻
·
2023-09-27 03:16
人工智能
教程
网站源码
人工智能
chatgpt
源码软件
AI作画
py
spark
通过JDBC链接mysql(DataFrame)
一前言Mysql版本:8.0.21
spark
版本:3.1.1hadoop版本:2.7.5JDBC驱动程序版本:mysql-connector-java-5.1.46.tar.gz二、正文1、先在mysql
梦痕长情
·
2023-09-27 00:59
笔记
spark
python
数据库
CDH6.3.2 的py
spark
读取excel表格数据写入hive中的问题汇总
CDH版本为:6.3.2
spark
版本为:2.4python版本:2.7.5操作系统:CentOSLinux7集群方式:yarn-cluster一、在linux中将excel文件转换成CSV文件,然后上传到
梦痕长情
·
2023-09-27 00:57
excel
hive
hadoop
Flink算子大全
Flink和
Spark
类似,也是一种一站式处理的框架;既可以进行批处理(DataSet),也可以进行实时处理(DataStream)。
江畔独步
·
2023-09-26 18:02
Flink
flink
RDD依赖关系
Spark
中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系窄依赖:一个父RDD的一个分区只会对应于一个子RDD的一个分区。
maya_data
·
2023-09-26 17:54
spark
的数据扩展
会导致数据扩展的操作;如何避免数据扩展;一countDistinct操作1.扩展原因
Spark
的countdistinct操作可能会导致数据扩展的原因是,它需要在执行操作之前对所有不同的值进行分组。
盛源_01
·
2023-09-26 14:25
spark
大数据
分布式
上一页
72
73
74
75
76
77
78
79
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他