E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark安装部署
Spark
随机森林算法原理、源码分析及案例实战
图1.
Spark
与其它大数据处理工具的活跃程度比较回页首环境要求操作系统:Linux,本文采用的Ubuntu10.04,大家可以根据自己的喜好使用自己擅长的Linux发行版Java与Scala版本:Scala2.10.4
黑谷子
·
2023-12-15 19:51
spark
scala
源码
spark
学习之旅(2)之之RDD常用方法
RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。
浩哥的技术博客
·
2023-12-15 19:51
spark
spark
大数据
spark
从表中采样(随机选取)一定数量的行
在
Spark
SQL中,你可以使用TABLESAMPLE来按行数对表进行采样。
不负长风
·
2023-12-15 19:46
数据分析
spark
IntelliJ IDEA创建一个
spark
的项目
在开始之前,需要说明的是要跑通基本的wordcount程序,是不需要在windows上安装hadoop和
spark
的,因为idea在跑程序的时候,会按照pom.xml配置文件,从指定的repository
刘文钊1
·
2023-12-15 19:45
intellij-idea
spark
java
spark
链接hive时踩的坑
使用
spark
操作hive,使用metastore连接hive,获取hive的数据库时,当我们在
spark
中创建数据库的时候,创建成功。
YuPangZa
·
2023-12-15 18:00
大数据中踩过的坑
spark
hive
大数据
spark
写入 mysql 报错
报错信息如下:"C:\ProgramFiles\Java\jdk1.8.0_291\bin\java.exe""-javaagent:D:\Hadoopruanjian\IDEA\IntelliJIDEA2021.3.2\lib\idea_rt.jar=60971:D:\Hadoopruanjian\IDEA\IntelliJIDEA2021.3.2\bin"-Dfile.encoding=UTF
南城守护
·
2023-12-15 18:17
spark
mysql
android
物联网、大数据、云计算的区别与联系
Hadoop、
Spark
海量数据云计算将计算资源虚拟化并按需卖给用户。方便计算资源的管理提高计算资源利用率。openstack、docker虚拟化二、相互关系粗略地看,可以认为物联网产生
weixin_30455067
·
2023-12-15 18:46
Py
Spark
大数据处理详细教程
今天,我很高兴与您分享我的最新博客,专注于探索Py
Spark
DataFrame的强大功能。无论您是刚入门的数据分析师,还是寻求深入了解大数据技术的专业人士,这里都有丰富的知识和实用的技巧等着您。
数据科学知识库
·
2023-12-15 18:35
大数据
Python
Pyspark
python
Pyspark
大数据
spark
DataFrame
大数据分析与应用实验任务十一
大数据分析与应用实验任务十一实验目的通过实验掌握
spark
Streaming相关对象的创建方法;熟悉
spark
Streaming对文件流、套接字流和RDD队列流的数据接收处理方法;熟悉
spark
Streaming
陈希瑞
·
2023-12-15 17:49
数据分析
spark
大数据基础知识
为了一场紧急考试,没有正经系统学习过大数据知识的我开始恶补概念涉及Hadoop、Hbase、
Spark
、Flink、Flume、Kafka、Sqoop、HDFS、Hive、Mapreduce、Impala
偶余杭
·
2023-12-15 17:22
大数据分析与应用实验任务十二
大数据分析与应用实验任务十二实验目的:通过实验掌握
spark
机器学习库本地向量、本地矩阵的创建方法;熟悉
spark
机器学习库特征提取、转换、选择方法;实验任务:一、逐行理解并参考编写运行教材8.3.1、
陈希瑞
·
2023-12-15 17:41
数据分析
数据挖掘
HBase 高可用集群详细图文
安装部署
目录一、HBase
安装部署
1.1Zookeeper正常部署1.2Hadoop正常部署1.3HBase安装1.4HBase的配置文件1.4.1hbase-env.sh1.4.2hbase-site.xml1.4.3regionservers1.4.4
Stars.Sky
·
2023-12-15 17:38
HBase
hbase
数据库
大数据
Zabbix 6 详细
安装部署
教程
目录一、安装MySQL数据库二、安装zabbix监控平台三、编辑配置文件四、启动服务五、zabbix-web安装zabbixweb出图展示乱码问题解决方案zabbix的
安装部署
非常简单,官方提供了四种安装途径
Stars.Sky
·
2023-12-15 17:08
zabbix
HeartBeat监控Redis状态
目录一、概述二、
安装部署
三、配置四、启动服务五、查看数据一、概述使用heartbeat可以实现在kibana界面对redis服务存活状态进行观察,如有必要,也可在服务宕机后立即向相关人员发送邮件通知二、
季风泯灭的季节
·
2023-12-15 17:01
ELK技术栈
redis
elk
HeartBeat
HeartBeat监控springboot服务状态
目录一、环境准备二、
安装部署
2.1下载安装包到指定文件夹,并解压2.2复制证书文件2.3编辑配置文件2.4设置模板2.5启动服务2.6检查es是否收到数据一、环境准备部署模式:单节点部署。
季风泯灭的季节
·
2023-12-15 17:31
ELK技术栈
linux
运维
服务器
elk
spring
boot
ELK架构监控MySQL慢日志
目录一、架构概述二、
安装部署
三、Filebeat配置四、Logstash配置一、架构概述本文使用将使用filebeat收集mysql日志信息,发送到redis中缓存,由logstash从redis中取出
季风泯灭的季节
·
2023-12-15 16:22
ELK技术栈
elk
架构
mysql
spark
源码阅读——shuffle写
groupByKey这个操作一般会产生两个RDD:(map操作)MapPartitionsRDD(隐式转换之后聚合)ShuffledRDDdefgroupBy[K](f:T=>K,p:Partitioner)(implicitkt:ClassTag[K],ord:Ordering[K]=null):RDD[(K,Iterable[T])]=withScope{valcleanF=sc.clean(
WJL3333
·
2023-12-15 15:14
hive/
spark
用法记录
1.cast()更改数据类型cast(column_nameastype)2.get_dt_date()自定义日期操作函数(返回不带横线的日期)selectget_dt_date();–获取当前日期,返回20170209selectget_dt_date(get_date(-2));–获取当前日期偏移,转为不带横杆的格式selectget_dt_date(‘2017-02-02’,-2);–201
eight_Jessen
·
2023-12-15 14:17
sql
编程基础
hive
spark
hadoop
spark
四种运行模式
1.
spark
的核心组件1.1Driver
Spark
驱动器节点,用于执行
Spark
任务中的main方法,负责实际代码的执行工作。
坨坨的大数据
·
2023-12-15 14:44
ELK(六)—Filebeat
安装部署
目录一、介绍1.1特点1.2使用原因1.3结构图1.4工作流程二、
安装部署
2.1下载2.2启动2.3监控日志文件2.4自定义字段三、连接Elasticsearch四、工作原理一、介绍Filebeat是一个轻量级的日志和文件数据收集器
哈密猿
·
2023-12-15 13:48
运维
elk
jenkins
运维
HeartBeat监控Mysql状态
目录一、概述二、
安装部署
三、配置四、启动服务五、查看数据一、概述使用heartbeat可以实现在kibana界面对Mysql服务存活状态进行观察,如有必要,也可在服务宕机后立即向相关人员发送邮件通知二、
季风泯灭的季节
·
2023-12-15 13:47
ELK技术栈
mysql
数据库
MetricBeat
elk
计算机毕业设计Python+
Spark
知识图谱微博舆情预警系统 微博舆情分析 微博推荐系统 微博可视化 微博数据分析 微博大数据 微博爬虫 微博预测系统 大数据毕业设计 大数据毕业设计 机器学习
开发框架前端:vue.jselement-ui后端:springbootmybatis中间件:
spark
hadoophiveflink数据库:mysql关系型数据库neo4j图数据库算法:协同过滤推荐算法
计算机毕业设计大神
·
2023-12-15 12:19
【基础知识】大数据概述
发展历程中国开源生态图谱2023参考内容中国开源生态图谱2023.pdf技术组件说明数据集成sqoop、dataX、flume数据存储hdfs、kafka数据处理mapreduce、hive、impala、
spark
偏振万花筒
·
2023-12-15 12:39
大数据
MySQL主从架构搭建
MySQL主从架构搭建选择主备机器192.168.10.1(主)192.168.20.1(备)密码:%]YYGjp/=V$wMySQL版本选择8.0.23MySQL
安装部署
步骤解压文件tar-xvfmysql
清盏涂墨衣
·
2023-12-15 09:23
mysql
架构
数据库
SQLE 3.0 部署实践
本文是SQLE1024特别活动|SQL质量提升官活动征稿活动的第一篇,作者详细记录了体验SQLE3.0
安装部署
的全过程和体验感受。SQLE介绍SQLE是爱可生自
爱可生开源社区
·
2023-12-15 09:35
mysql
Gitlab基础篇: Gitlab docker
安装部署
、Gitlab 设置账号密码
文章目录1、环境准备2、配置1)、初始化2)、修改gitlab配置文件3)、修改docker配置的gitlab默认端口gitlab进阶配置gitlab设置账号密码1、环境准备安装dockergitlab前确保docker环境,如果没有搭建docker请查阅“Linuxdocker安装文档”docker下载gitlab容器dockerpullgitlab/gitlab-ce2、配置1)、初始化doc
一码归一码@
·
2023-12-15 08:19
容器
分布式理论&中间件搭建
gitlab
docker
eureka
高效压缩位图RoaringBitmap的原理与应用
目录位图法简述RoaringBitmap的思路Container原理ArrayContainerBitmapContainerRunContainer时空分析Container的创建与转换RBM的应用Lucene
Spark
GreenplumRedisTheEnd
zxfBdd
·
2023-12-15 08:23
数据结构和算法
RoaringBitMap在ClickHouse和
Spark
之间的实践-解决数据仓库预计算多维分析问题
前面在
Spark
多维分析去重计数场景优化案例中说了一下
Spark
计算在多维分析场景中的弊端,多维度分析会导致数据量指数级膨胀,搭配上去重计算字段越多,膨胀倍数也是线性增长,通过BitMap这个案例也更加让我们明白了
小满锅lock
·
2023-12-15 08:23
clickhouse
spark
数据仓库
大数据
Spark
SQL & ClickHouse RoaringBitmap64格式支持
ClickHouse新版使用roaring64map(https://github.com/RoaringBitmap/CRoaring/blob/af9fafb72edcfb88f7adc781eaea4e7e95f68d01/cpp/roaring64map.hh)来支持64位Int计算,采用了和之前不同的序列化和反序列化方式(https://github.com/ClickHouse/Cli
fz1989
·
2023-12-15 08:47
使用DockerUI结合内网穿透工具轻松实现公网访问和管理docker容器
文章目录前言1.
安装部署
DockerUI2.安装cpolar内网穿透3.配置DockerUI公网访问地址4.公网远程访问DockerUI5.固定DockerUI公网地址前言DockerUI是一个docker
一棵西兰花
·
2023-12-15 07:55
cpolar
docker
容器
运维
cpolar
内网穿透
《Py
Spark
大数据分析实战》-07.
Spark
本地模式安装
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-15 07:31
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
【
Spark
精讲】
Spark
存储原理
目录类比HDFS的存储架构
Spark
的存储架构存储级别RDD的持久化机制RDD缓存的过程Block淘汰和落盘类比HDFS的存储架构 HDFS集群有两类节点以管理节点-工作节点模式运行,即一个NameNode
话数Science
·
2023-12-15 07:29
Spark精讲
Spark
大数据
spark
大数据
【
Spark
精讲】RDD特性之数据本地化
通过RDD的首选运行位置可以让RDD的某个分区的计算任务直接在指定的主机上运行,从而实现了移动计算而不是移动数据的目的,减少了网络传输的开销,如
Spark
中HadoopRDD能够
话数Science
·
2023-12-15 07:58
Spark精讲
Spark
大数据
spark
大数据
【
Spark
精讲】
Spark
任务运行流程
目录
Spark
任务执行流程编辑Client模式Cluster模式Yarn任务运行流程YARN-CLIENT模式YARN-CLUSTER模式编辑故障排查YARN-CLIENT模式导致的网卡流量激增问题YARN-CLUSTER
话数Science
·
2023-12-15 07:58
Spark精讲
Spark
大数据
spark
大数据
【
Spark
精讲】
Spark
作业执行原理
目录基本流程主要组件Driver端Executor端Job提交执行流程Task提交Task执行基本流程用户编写的
Spark
应用程序最开始都要初始化
Spark
Context。
话数Science
·
2023-12-15 07:58
Spark精讲
Spark
大数据
spark
大数据
【硬刚大数据】我们在学习
Spark
的时候,到底在学习什么?
很多小伙伴在群里或者私信留言问我关于
Spark
的学习路径问题。
Spark
发展至今,应该说已经
王知无(import_bigdata)
·
2023-12-15 07:27
硬刚大数据系统性专栏
hbase
spark
big
data
Spark
安装
本文搭建环境为:Mac+ParallelDesktop+CentOS7+JDK7+Hadoop2.6+Scala2.10.4+IDEA14.0.5——————————————————————————————————————————————————一、CentOS安装■安装完成后记得保存快照。■环境准备CentOS7下载:http://mirrors.163.com/centos/7/isos/x8
weixin_30755393
·
2023-12-15 07:27
大数据
scala
java
新手入门:
Spark
部署实战入门
Spark
简介整体认识Apache
Spark
是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
weixin_34256074
·
2023-12-15 07:27
scala
java
开发工具
Spark
Paimon 中为什么我指定的分区没有下推
目前使用的版本信息如下:
Spark
3.5.0Paimon0.6.0paimon的建表语句如下:CREATETABLE`table_demo`(`user_id`stringCOMMENT'fromdeserializer
鸿乃江边鸟
·
2023-12-15 07:51
spark
Paimon
spark
大数据
Paimon
关于新手入门:
Spark
部署实战入门
Spark
简介整体认识Apache
Spark
是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
IT资讯科技
·
2023-12-15 07:18
大数据
IT资讯
互联网科技
人工智能
大数据
程序员
编程语言
hadoop
Spark
on Yarn 安装配置实验(3.1.1)
子任务二:
Spark
onYarn安装配置本任务需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体要求如下:1、从宿主机/opt目录下将文件
spark
-3.1.1-bin-hadoop3.2
芝士小熊饼干
·
2023-12-15 07:44
spark
大数据
分布式
hadoop
【
Spark
精讲】
Spark
Shuffle详解
目录Shuffle概述Shuffle执行流程总体流程中间文件ShuffledRDD生成Stage划分Task划分Map端写入(ShuffleWrite)Reduce端读取(ShuffleRead)
Spark
Shuffle
话数Science
·
2023-12-15 07:14
Spark精讲
Spark
大数据
spark
大数据
Spark
单机搭建实战指南
摘要:本文将详细介绍如何在单台机器上搭建
Spark
分布式计算框架,涵盖环境准备、安装配置、运行测试等多个方面,帮助读者轻松上手
Spark
开发。
wcuuchina
·
2023-12-15 07:13
spark
spark
大数据
分布式
《Py
Spark
大数据分析实战》-03.了解Hive
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-15 06:42
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
每日一读 11.27
spark
2:
Spark
Session思考与总结1http:/
Vicor
·
2023-12-15 06:12
Xxl-Job在Linux环境下
安装部署
文章目录Xxl-Job简介环境准备安装下载安装包解压安装包初始化数据库文件修改配置文件打包启动访问Xxl-Job简介Xxl-Job是一个分布式任务调度平台,作者是美团的研发工程师许雪里,Xxl命名的由来盲猜是作者的名字首字母,Job为任务。环境准备在Linux环境下安装Xxl-Job需要以下环境:JDK:Xxl-Job是Java写的,因此应用启动必须有JDKmaven:Xxl-Job中有maven
Jayden
·
2023-12-15 05:28
开发工具的常用技巧
linux
运维
服务器
xxl-job安装
Scala教程
1.1.4Scala语言特点1.2Scala环境搭建1.3IDEA中Scala插件安装1.4HelloWorld案例1.4.1创建IDEA项目工程第一章Scala入门1.1概述1.1.1为什么学习Scala
Spark
Tanzhiyong97
·
2023-12-15 05:34
scala
spark
intellij-idea
Hive增强的聚合、多维数据集、分组和汇总
大家注意防寒保暖进入正题,本文主要对照Hive介绍Hive、
Spark
、Presto查询
对许
·
2023-12-15 04:17
#
数据湖仓
#
Hive
#
Spark
hive
数据仓库
spark
Centos7+Oracle12c
安装部署
Jira8.19和confluence7.13
准备环境数据库:oracle12c(Linux)操作系统:Centos7.*两台(一台安装数据库,一台安装Jira和Confluence应用)Jdk1.8(Linux)Jira安装包(Linux)、Confluence安装包(Linux)所有安装包都在移动硬盘中。安装数据库关闭Centos7防火墙,禁止防火墙开机自启#关闭防火墙systemctlstopfirewalld.service#禁止防火
Java斯坦森
·
2023-12-15 03:19
jira
linux
centos
oracle
confluence
K8s 详细
安装部署
流程
1.环境准备1.1服务器配置要求3台机器,操作系统CentOS7.9-64位系统硬件配置:2GB或更多RAM,2个CPU或更多CPU,硬盘20GB或更多集群中所有机器之间网络互通可以访问外网,需要拉取镜像禁止swap分区1.2服务器配置要求软件版本操作系统CentOS7.9_x64Docker20-ceKubernetes1.231.3服务器配置要求服务器名称服务器IPmaster192.168.
hxy6
·
2023-12-15 02:01
kubernetes
容器
云原生
docker
java
上一页
44
45
46
47
48
49
50
51
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他