E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark集群搭建
Spark
SQL 结构化数据处理流程及原理是什么?
Spark
SQL结构化数据处理流程及原理是什么?
Spark
SQL可以使用现有的Hive元存储、SerDes和UDF。它可以使用JDBC/ODBC连接到现有的BI工具。
我想去吃ya
·
2024-08-31 16:18
spark
sql
hive
数据库
大数据
【Mysql】通过Keepalived搭建mysql双主高可用集群
VIP(虚拟ip)hadoop01192.168.10.200centos7_x865.7192.168.10.253hadoop03192.168.10.202centos7_x865.7二、mysql
集群搭建
两台节点
维运
·
2024-08-31 15:13
数据库
mysql
数据库
简单的PHP订单小程序
$totalqty=0;#总数$totalamount=0.0;#总金额define('TIREPRICE',100);#轮胎单价define('OILPRICE',50);#油耗单价define('
SPARK
PRICE
董.
·
2024-08-31 09:01
php
小程序
chrome
Py
Spark
操作DataFrame常用方法
文章目录PY
SPARK
DataFrame操作.na1.
百流
·
2024-08-30 16:07
PySpark使用笔记
spark
python
大数据
常见的实时数仓方案
实时部分以消息队列的方式实时增量消费,一般以Flink+Kafka的组合实现,维度表存在关系型数据库或者HBase;离线部分一般采用T+1周期调度分析历史存量数据,每天凌晨产出,更新覆盖前一天的结果数据,计算引擎通常会选择Hive或者
Spark
北极冰雨
·
2024-08-30 05:27
大数据
大数据
Spark
MLlib 数据预处理-特征变换
2019独角兽企业重金招聘Python工程师标准>>>Tokenizer(分词器)算法介绍:Tokenization将文本划分为独立个体(通常为单词)。RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符。或者可以指定参数“gaps”来指明正则“patten”表示“tokens”而不是分隔符,这样来为分词结果找到所有可能匹配的情况。调用
weixin_33841722
·
2024-08-29 14:40
大数据
人工智能
scala
spark
应用程序转换_4.
Spark
特征提取、转换和选择 - 简书
在实际机器学习项目中,我们获取的数据往往是不规范、不一致、有很多缺失数据,甚至不少错误数据,这些数据有时又称为脏数据或噪音,在模型训练前,务必对这些脏数据进行处理,否则,再好的模型,也只能脏数据进,脏数据出。这章我们主要介绍对数据处理涉及的一些操作,主要包括:特征提取特征转换特征选择4.1特征提取特征提取一般指从原始数据中抽取特征。4.1.1词频-逆向文件频率(TF-IDF)词频-逆向文件频率(T
weixin_39956182
·
2024-08-29 14:10
spark应用程序转换
Spark
权威指南读书笔记(二):结构化API
API主要指三种核心分布式集合类型API:Dataset、DataFrame、SQL表和视图DataFrame和Dataset类型DataFrame和Dataset是具有行和列的类似于数据表的集合类型
Spark
kaiker
·
2024-08-29 11:23
Spark
-RDD迭代器管道计算
一、上下文《
Spark
-Task启动流程》中讲到我们提交Stage是传入的是这个Stage最后一个RDD,当Task中触发ShuffleWriter、返回Driver数据或者写入Hadoop文件系统时才触发这个
隔着天花板看星星
·
2024-08-29 07:24
spark
大数据
scala
每天一个数据分析题(五百零五)- 提升方法
A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python,SQL,统计学,数据分析理论,深度学习,可视化,机器学习,
Spark
跟着紫枫学姐学CDA
·
2024-08-29 05:43
数据分析题库
数据分析
每天一个数据分析题(五百零六)- 装袋方法
A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python,SQL,统计学,数据分析理论,深度学习,可视化,机器学习,
Spark
跟着紫枫学姐学CDA
·
2024-08-29 05:43
数据分析
数据挖掘
spark
mllib 特征学习笔记 (一)
Py
Spark
MLlib特征处理详解Py
Spark
MLlib提供了丰富的特征处理工具,帮助我们进行特征提取、转换和选择。以下是Py
Spark
MLlib中常用的特征处理类及其简要介绍。
路人与大师
·
2024-08-29 03:57
spark-ml
学习
笔记
Spark
MLlib 特征工程系列—特征转换VectorSizeHint
Spark
MLlib特征工程系列—特征转换VectorSizeHintVectorSizeHint是
Spark
提供的一个特征转换器,用于指定向量列的大小(即维度)。
不二人生
·
2024-08-29 03:56
Spark
实战
spark-ml
机器学习
spark
Openstack 与 Ceph
集群搭建
(下): Openstack部署
文章目录文章参考部署节点准备1.修改Host文件与hostname名称2.安装NTP软件3.网卡配置信息4.开启Docker共享挂载5.安装python虚拟环境6.安装kolla-ansible7.加载AnsiblegalaxyrequirementsOpenstack安装前预配置1.配置密码2.配置multinode文件3.修改全局配置文件Openstack正式安装1.启动bootstrap-s
范枝洲
·
2024-08-29 01:43
系统运维
openstack
ceph
clickhouse
集群搭建
文章目录安装clickhouse修改集群配置文件启动clickhouse集群测试集群的可用性安装clickhouse本次用了4台服务器搭建clickhouse集群,使用rpm安装方式在4台服务器上安装clickhouse,步骤如下:sudoyuminstall-ycurlcurl-shttps://packagecloud.io/install/repositories/altinity/clic
颍天
·
2024-08-28 14:56
clickhouse
数据库
每天一个数据分析题(五百零二)- 分割式聚类算法
B.CentroidMethodC.Ward’sMethodD.以上皆非数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python,SQL,统计学,数据分析理论,深度学习,可视化,机器学习,
Spark
跟着紫枫学姐学CDA
·
2024-08-28 13:19
数据分析题库
算法
数据分析
聚类
读写分离
集群搭建
目录一、配置读写分离集群1、环境说明2、数据准备3、配置主库GRP1_RWW_01配置dm.ini配置dmmal.ini配置dmarch.ini配置dmwatcher.ini启动主库设置OGUID修改数据库模式4、配置备库GRP1_RWW_02配置dm.ini配置dmmal.ini配置dmarch.ini配置dmwatcher.ini启动备库设置OGUID修改数据库模式5、配置备库GRP1_RWW
奥德彪的蕉
·
2024-08-28 11:41
达梦
数据库
服务器
oracle
sql
运维
Spark
Streaming 如何保证消费Kafka的数据不丢失不重复
目录
Spark
Streaming接收Kafka数据的方式有两种:Receiver接收数据和采用Direct方式。
K. Bob
·
2024-08-28 10:02
Spark
Spark
Spark
Sql
Spark
SQL基本介绍什么是
Spark
SQL?用于处理结构化数据的
Spark
模块。可以通过DataFrame和DataSet处理数据。
李思缘的大数据之路
·
2024-08-28 09:00
spark
sparksql
Spark
SQL优化查询性能的方法
一、Py
Spark
如何提高程序的运行效率和性能Py
Spark
的运行效率和性能受到多个因素的影响,包括数据大小、算法复杂度、硬件资源等。
大数据海中游泳的鱼
·
2024-08-28 09:57
Spark
大数据
优化
spark
大数据
Spark
on YARN
Apache
Spark
和ApacheHadoopYARN是两个紧密相关的项目,它们经常一起使用来处理大规模数据集。
静听山水
·
2024-08-28 09:26
Spark
spark
大数据
分布式
打造扛得住的MySQL数据库架构视频教程-数据库结构优化 高可用架构设计
打造扛得住的MySQL数据库架构视频教程-数据库结构优化高可用架构设计30套数据库系列Mysql/SQLServer/Redis/Mongodb/Nosql精讲训练营项目实战,数据库设计,架构设计,性能管理,
集群搭建
cd137a460a79
·
2024-08-28 04:10
分享一个基于
Spark
的招聘数据可视化与分析系统Hadoop大数据源码(源码、调试、LW、开题、PPT)
作者:计算机源码社个人简介:本人八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流!学习资料、程序开发、技术解答、文档报告如需要源码,可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|基
计算机源码社
·
2024-08-27 20:05
大数据
大数据
spark
毕业设计项目
计算机毕业设计源码
计算机毕设论文
hadoop
计算机课程设计
spark
采坑集锦之用kafka作为DStream数据源,并行度问题
在
Spark
Streaming中作为数据源的Kafka怎样接收多主题发送的数据呢?
方兵兵
·
2024-08-27 16:41
spark采坑集锦
Hbase BulkLoad用法
要导入大量数据,Hbase的BulkLoad是必不可少的,在导入历史数据的时候,我们一般会选择使用BulkLoad方式,我们还可以借助
Spark
的计算能力将数据快速地导入。
kikiki4
·
2024-08-27 15:42
Spark
-- 基础开发和RDD相关知识总结!!!
目录一、基础开发1.Anaconda2.案例(基本代码)3.案例(链式编程)3.
spark
-submit3.StandAlone模式4.
Spark
OnYarn模式二、RDD1.RDD模型2.RDD常用算子
Alfie-
·
2024-08-27 12:13
Spark
spark
大数据
Spark
-第三周
1.
spark
context初始化源码分析
Spark
源码(7)-
Spark
Context初始化源码分析_太与旅
spark
源码-CSDN博客
Spark
源码学习(一):
Spark
Context初始化源码分析
fightingD&W
·
2024-08-27 12:13
Spark
spark
大数据
分布式
Spark
-第五周
spark
onyarn运行流程
Spark
onYarn模式下执行过程_
spark
onyarn作业执行流程-CSDN博客yarnclient与yarncluster区别
Spark
onYarn用执行流程图解(
fightingD&W
·
2024-08-27 12:13
Spark
spark
大数据
Spark
-第六周
1.
spark
sql运行流程【
Spark
精讲】一文讲透
Spark
SQL执行过程_
spark
sql执行过程-CSDN博客摸鱼大数据——
Spark
SQL——
Spark
SQL的运行机制-CSDN博客2.熟练使用
fightingD&W
·
2024-08-27 12:13
Spark
spark
大数据
分布式
Hbase BulkLoad用法
要导入大量数据,Hbase的BulkLoad是必不可少的,在导入历史数据的时候,我们一般会选择使用BulkLoad方式,我们还可以借助
Spark
的计算能力将数据快速地导入。
kikiki1
·
2024-08-27 04:22
数据库基础:mysql主从
集群搭建
position:表示从file的哪个位置开始;binlog_do_db:表示同步哪一个库在后面的slave配置中,这三个结果都需要使用到。4.Slave(6.85)节点配置配置从库(1)修改my.cnf文件,在[mysqld]加入下面的内容:#服务的唯一编号server-id=2#开启mysqlbinlog功能log-bin=mysql-bin#binlog记录内容的方式,记录被操作的每一行bi
2401_84049040
·
2024-08-27 00:58
程序员
数据库
mysql
android
Py
Spark
,一个超级强大的 Python 库
也许能够开启我们的智慧之门,一个普通的方法,也许能在危急时刻挽救我们于水深火热,一个新颖的思维方式,也许能激发我们无尽的创造力,一个独特的技巧,也许能成为我们的隐形盾牌……神奇的Python库之旅,第14章目录一、初识Py
Spark
炒青椒不放辣
·
2024-08-26 22:18
Python
库之旅
python
Python
库之旅
PySpark
基于Zookeeper搭建Kafka高可用集群
基于Zookeeper搭建Kafka高可用集群一、Zookeeper
集群搭建
为保证集群高可用,Zookeeper集群的节点数最好是奇数,最少有三个节点,所以这里搭建一个三个节点的集群。
数字游牧人0v0
·
2024-08-26 16:58
大数据BigData
kafka
java-zookeeper
zookeeper
大数据
zookeeper+KAFKA
集群搭建
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、集群管理等。因为Kafka集群是把状态信息保存在Zookeeper中的,并且Kafka的动态扩容是通过Zookeeper来实现的,所以需要优先搭建Zookeer
懵逼的运维弟弟
·
2024-08-26 16:28
Linux
zookeeper+KAFKA
集群搭建
(十五)Flink 内存管理机制
在大数据领域,很多开源框架(Hadoop、
Spark
、Storm)都是基于JVM运行,但是JVM的内存管理机制往往存在着诸多类似OutOfMemoryError的问题,主要是因为创建大量的实例,超过JVM
springk
·
2024-08-26 16:27
Flink全景解析
flink
大数据
实时数据
flink
内存管理
内存管理机制
面试笔记8.24
正确答案:在我的项目中涉及大数据开发时,我通常会采用分布式的架构,比如使用Hadoop或者
Spark
等大数据处理框架。我会在集群中部署多台服务器,通过分布式计算和存储来处理大规模数据。
励志秃头码代码
·
2024-08-26 16:55
面试
职场和发展
计算机毕业设计Hadoop+
Spark
知识图谱体育赛事推荐系统 体育赛事热度预测系统 体育赛事数据分析 体育赛事可视化 体育赛事大数据 机器学习 大数据毕业设计 大数据毕设 机器学习 人工智能
开发技术前端:vue.js、element-ui、echarts后端:springboot、mybatis大数据:
spark
、hadoop数据库:mysql关系型数据库、neo4j图数据库算法:协同过滤推荐算法
计算机毕业设计大全
·
2024-08-26 13:43
Kylin系列-入门
Kylin系列-入门ApacheKylin是一个开源的分布式分析引擎,提供Hadoop/
Spark
之上的SQL查询接口及多维分析(OLAP)能力,以支持超大规模数据。
Dingdangr
·
2024-08-26 13:34
kylin
【赵渝强老师】
Spark
中的RDD
RDD(ResilientDistributedDataset)叫做弹性分布式数据集,它是
Spark
中最基本、也是最重要的的数据模型。
赵渝强老师
·
2024-08-26 11:52
大数据技术
spark
大数据
分布式
基于
spark
+hadoop+hive大数据分析的电影推荐系统的设计与实现
开发介绍1.1开发环境二、系统介绍2.1图片展示三、部分代码设计3.1.部分代码如下:**总结****大家可以帮忙点赞、收藏、关注、评论啦****有问题评论区交流**一、开发介绍1.1开发环境技术栈:
spark
毕设木哥
·
2024-08-26 06:26
spark
spark
hadoop
hive
spring
java
每天一个数据分析题(五百)- 关联规则
.预测(Prediction)数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python,SQL,统计学,数据分析理论,深度学习,可视化,机器学习,
Spark
跟着紫枫学姐学CDA
·
2024-08-26 04:40
数据分析题库
数据分析
数据挖掘
每天一个数据分析题(四百九十)- 主成分分析与因子分析
C.协方差矩阵D.相关系数矩阵数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python,SQL,统计学,数据分析理论,深度学习,可视化,机器学习,
Spark
跟着紫枫学姐学CDA
·
2024-08-26 04:07
数据分析题库
数据分析
数据挖掘
12.
Spark
Core-
Spark
-RDD持久化
(1)persist算子使用方法:varrdd=sc.textFile("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count()//或者其他操作StorageLevel说明:StorageLevel的构造函数:classStorageLevelprivate(privatevar_useDisk:Boolean,#是否
__元昊__
·
2024-08-25 23:43
vue2上传大文件到minio分片上传
项目中使用到的类库:
spark
-md5、axios、element-ui;npminstall
spark
-md5--Snpminstallaxios--S页面上传示例文件上传任务数:{{taskQueueRunningNum
zhou周大哥
·
2024-08-25 17:35
vue.js
javascript
ecmascript
大数据技术——RDD编程初级实践
RDD编程初级实践1、需求描述2、环境介绍3、数据来源描述4、数据上传及上传结果查看5、数据处理过程描述1.py
spark
交互式编程2.编写独立应用程序实现数据去重3.编写独立应用程序实现求平均值问题6
@璿
·
2024-08-25 03:04
spark
手动修改zk类型的kafka offset
.*.87.125:2181查找并修改ae_
spark
这个topic的消费者组的offset值对于每个分区(0、1、2),需要分别查看和修改offset值查看和修改分区0的offset值查看当前offset
Keep hunger
·
2024-08-24 23:45
开发记录
kafka
分布式
每天一个数据分析题(四百八十七)- 非监督学习
C.Minkowski距离D.笛卡尔距离数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python,SQL,统计学,数据分析理论,深度学习,可视化,机器学习,
Spark
跟着紫枫学姐学CDA
·
2024-08-24 23:13
数据分析题库
数据分析
学习
数据挖掘
每天一个数据分析题(四百八十八)- 非监督学习
C.Minkowski距离D.笛卡尔距离数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python,SQL,统计学,数据分析理论,深度学习,可视化,机器学习,
Spark
跟着紫枫学姐学CDA
·
2024-08-24 23:13
数据分析题库
数据分析
学习
数据挖掘
黑猴子的家:
Spark
RDD 行动算子 Action
1、reduce(1)原理通过f函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的(2)源码defreduce(f:(T,T)=>T):T=withScope{valcleanF=sc.clean(f)valreducePartition:Iterator[T]=>Option[T]=iter=>{if(iter.hasNext){Some(iter.reduceLeft(cleanF))
黑猴子的家
·
2024-08-24 22:03
Redis
集群搭建
1.环境:centos6.7、redis-6.2.62.模式:5主+20丛+5备丛(即:1主-4从-1备丛)3.服务器环境检查及安装查看服务器是否安装了gccrpm-qgcc若没有安装,则进行gcc安装yuminstall-ygcc4.redis下载前往redis官网下载https://redis.io/downloadredis-6.2.6.tar.gz5.将redis-6.2.6.tar.gz
丿似锦
·
2024-08-24 21:00
数据库
redis
bootstrap
前端
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他