E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark大数据平台
大数据之
Spark
知识体系完整解读
Spark
简介
Spark
是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey
金乐笑
·
2024-01-18 20:15
spark
streaming实时写入hive
pom文件
spark
-streaming-kafka-0-10_2.112.1.0
spark
-core_2.11
spark
-sql_2.11scala-library采用的是scala2.11.8实现逻辑
会飞的蜗牛66666
·
2024-01-18 16:11
从术语到
Spark
,10篇必读大数据学习资源
大数据文摘作品编译:王一丁、王梦泽、夏雅薇本文给想进入大数据领域的朋友提供了一系列的资源,由浅入深,比如“需要了解的51条大数据术语”、“学习python的四个理由”、“十一个必须要参加的大数据会议”等有趣的话题。相信各种背景的朋友都会在这篇文章中有所收获。之前,我们已就数据可视化进行了深入探讨。这次,我们将从更基本的概念讲起,以便在涉足更复杂的数据科学和商业智能之前能够真正理解大数据。文中会引领
金光闪闪耶
·
2024-01-18 13:45
构建高效数据生态:数据库、数据仓库、数据湖、
大数据平台
与数据中台解析_光点科技
本文将深入探讨数据库、数据仓库、数据湖、
大数据平台
以及数据中台的功能和价值,帮助您构建一个符合自身业务需求的高效数据生态系统。
光点数据治理
·
2024-01-18 12:24
数据库
数据仓库
大数据
情报研判分析系统开发,可视化大数据研判平台建设
情报研判分析系统功能:1、大数据多维度预测分析:通过
大数据平台
和算法对历史数据
d13823153201
·
2024-01-18 12:08
情报研判系统开发
大数据
数据分析
数据挖掘
公安情报大数据分析研判平台建设解决方案,情报信息平台建设
公安情报大数据分析研判平台建设解决方案,情报信息平台建设公安情报大数据分析研判平台建设解决方案,通过构建汇聚公安内部各警种部门和公安外部单位各类社会数据的
大数据平台
,以公安数据业务为基础、情报需求为主导
d13823153201
·
2024-01-18 12:37
情报研判系统开发
可视化
大数据
人工智能
数据分析
django大数据_草稿本01
文档Learning_
Spark
/5.
Spark
Streaming/ReadMe.mdatmaster·LeslieZhoa/Learning_
Spark
#在py
spark
下运行frompy
spark
.ml.featureimportHashingTF
哈都婆
·
2024-01-18 09:15
django
作为刚入职的小白,怎么才能学好大数据 ?
大数据学习方向一、大数据运维之Linux基础打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,
Spark
,Storm,docker,openstack等。
铁拳虎
·
2024-01-18 09:40
大数据学习
大数据开发
大数据入门
数据分析
Hadoop
Kafka
大数据
大数据技术
人工智能
spark
Linux
大数据
大数据学习
大数据开发
Spark
Session对象操作--学习笔记
1,
Spark
Session对象操作frompy
spark
.sqlimport
Spark
Sessionfrompy
spark
import
Spark
Conffrompy
spark
.sqlimportfunctionsasF
祈愿lucky
·
2024-01-18 07:35
大数据
学习
笔记
javascript
大数据知识点
Spark
:
Spark
RDD的概念:RDD是
Spark
中最基本的数据抽象,是一个不可变、可分区、里面的元素可并行计算的集合。
꧁༺朝花夕逝༻꧂
·
2024-01-18 07:29
hbase
数据库
大数据
py
spark
笔记:over
1方法介绍在Py
Spark
中,over函数是一个非常重要的概念,尤其是在使用窗口函数(例如row_number,rank,dense_rank,lead,lag等)时。
UQI-LIUWJ
·
2024-01-18 07:27
python库整理
笔记
Python进阶知识:整理1 -> py
Spark
入门
1编写执行入口#1.导包frompy
spark
import
Spark
Conf,
Spark
Context#2.创建
Spark
Conf类对象conf=
Spark
Conf().setMaster("local
是小蟹呀^
·
2024-01-18 07:57
Python
python
spark
Spark
SQL函数定义
目录窗口函数SQL函数分类
Spark
原生自定义UDF函数Pandas的UDF函数ApacheArrow框架基本介绍基于Arrow完成PandasDataFrame和
Spark
DataFrame互转基于Pandas
Sisi525693
·
2024-01-18 07:23
spark
sql
大数据
Spark
—shell,Hbase—shell
Spark
:
SPARK
SQLresults=
spark
.sql("SELECT*FROMpeople")//读取JSON文件valuserScoreDF=
spark
.read.json("hdfs://
꧁༺朝花夕逝༻꧂
·
2024-01-18 07:21
spark
大数据
分布式
003-90-15【
Spark
SQL&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王大爷家女儿用GPT学习DataSet的基本操作
003-90-14【
Spark
SQL&DF&DS】慈航寺庙山脚下八卦田旁油菜花海深处人家王大爷家女儿用GPT学习DataSet的基本操作【
Spark
SQL&DF&DS】Dataset的创建和使用【
Spark
SQL
一杯派蒙
·
2024-01-18 06:53
spark
gpt
学习
spark
大数据
笔记
spark
-udf函数
udf函数自定义frompy
spark
.sqlimport
Spark
Sessionfrompy
spark
.sql.typesimport*创建连接ss=
Spark
Session.builder.getOrCreate
中长跑路上crush
·
2024-01-17 23:34
Spark阶段
spark
大数据
分布式
常用图算法实现--
Spark
使用
Spark
实现PageRank,强连通分量等图算法PageRank数据准备边:1211523242526273134251151261676871788189810914911011013111211112113141412151
zealscott
·
2024-01-17 19:45
Flink的ListState在小规模场景下的缓存提速和接口优化丰富的实践
1.背景笔者的
大数据平台
XSailboat中包含以DAG方式可视化的离线分析和实时计算的开发、运维功能。
OkGogooXSailboat
·
2024-01-17 18:36
大数据平台开发技术
flink
缓存
spring
Aviator表达式扩展--数组、列表负向序号索引以及自己的JSON库支持方括号([])赋值
1.背景笔者开发的大数据
大数据平台
XSailboat中的DataStudio模块包含基于DAG图的实时计算可视化开发功能,实现了Flink计算任务的可视化开发(想要了解更多,可以查看《Flink的DAG
OkGogooXSailboat
·
2024-01-17 18:36
大数据平台开发技术
json
java
关于Flink在一条计算管道中配置流和数据流通过广播方式合流的情形下,无保存点和检查点重跑时,让配置流先行,数据流等延迟几秒再进入合流节点的思考
1.背景笔者带领的团队在自研的
大数据平台
XSailboat上进行专家策略规则的计算管道开发时,遇到这样一种情形:计算管道中存在一条配置流和数据流通过广播方式合流的情形。
OkGogooXSailboat
·
2024-01-17 18:36
flink
linq
大数据
本地运行Flink退出时java.nio.file.DirectoryNotEmptyException、目录没有正常删除解决方法
1.背景在开发
大数据平台
XSailboat中的查看Flink任务的状态数据工具时,用StateProcessAPI解析保存点数据,将其从HDFS上读取出来再将其解析过后下沉到HDFS以CSV格式保存,然后由其它接口提供对这个文件的分页加载功能
OkGogooXSailboat
·
2024-01-17 18:05
大数据平台开发问题解决笔记
flink
java
nio
Flink的Reduce算子,Name-Position形式的Row数据在使用保存点/检查点重新启动的时候,变成了Position-Based形式的Row解决
1.背景
大数据平台
XSailboat提供了基于ApacheFlink的实时计算管道开发功能。DataStudio的实时计算管道开发功能中提供了分区规约节点(keyBy+reduce)。
OkGogooXSailboat
·
2024-01-17 18:05
flink
python
大数据
数据标签设计 --
大数据平台
(XSailboat)的数据标签模块
原先就有在
大数据平台
XSailboat中增加“数据标签”模块的设想,现在有这样的需求,正好趁此机会将其实现。
OkGogooXSailboat
·
2024-01-17 18:35
大数据平台开发技术
大数据
基于
大数据平台
(XSailboat)的计算管道实现MySQL数据源的CDC同步--flink CDC
1.背景笔者在先前的一篇文档《数据标签设计–
大数据平台
(XSailboat)的数据标签模块》提到了关于数据标签的模块,现已实现并应用于项目中。
OkGogooXSailboat
·
2024-01-17 18:05
大数据平台开发技术
大数据
mysql
flink
2024.1.16 用户画像day01 - 项目介绍
名词解释一.项目介绍整体流程:项目介绍-elasticSearch-业务数据源导入-离线指标开发-Flume实时采集-Nginx日志埋点数据-结构化流实时指标-制作报表数仓开发用户画像实时开发hive-
spark
白白的wj
·
2024-01-17 15:40
spark
大数据
分布式
python
kafka
zookeeper
hive
2024.1.15
Spark
阶段原理,八股,面试题
目录1.简述什么是
Spark
?
白白的wj
·
2024-01-17 15:38
spark
大数据
分布式
python
kafka
hadoop
hive
Apache Zeppelin学习记录1
它支持多种编程语言(如Scala、Python、R、SQL等)和数据处理工具(如Apache
Spark
、Hadoo
旻璿gg
·
2024-01-17 15:01
大数据
python
zeppelin
Python 与批处理:数据处理、系统管理和任务调度
批处理学习大数据篇|大数据实操三剑客之一的批处理目录批处理的概念使用场景框架选择选型如何选docker安装hivePython操作hivedocker安装
spark
py
spark
操作dataframe如果使用
Wade_Crab
·
2024-01-17 15:23
python
开发语言
大数据
关于CarbonData+
Spark
SQL的一些应用实践和调优经验分享
大数据时代,中大型企业数据的爆发式增长,几乎每天都能产生约100GB到10TB的数据。而企业数据分系统构建与扩张,导致不同应用场景下大数据冗余严重。行业亟需一个高效、统一的融合数仓,从海量数据中快速获取有效信息,从而洞察机遇、规避风险。\\在这样的现状下,CarbonData诞生了,作为首个由中国贡献给Apache社区的顶级开源项目,CarbonData提供了一种新的融合数据存储方案,以一份数据同
weixin_34075551
·
2024-01-17 15:31
大数据
人工智能
后端
R 安装 devtools 报错信息
在编译
spark
源码时遇到
spark
r有依赖R环境,当然一般用不到
spark
r时可以不加入编译在安装R环境和一些依赖包时遇到一些问题Rscript-e"install.packages(c('knitr
第一次看海
·
2024-01-17 15:00
r语言
java
开发语言
Yahoo的
Spark
实践
Yahoo的
Spark
实践Yahoo是大数据巨头中对
Spark
最情有独钟的一家。这次峰会,Yahoo贡献了三个演讲,让我们一一道来。
chuanjiaoye5017
·
2024-01-17 15:30
人工智能
数据库
操作系统
spark
sql实践开发后端引擎
写在前面:一转眼的时间,2024年了,翻看了一下博客首页,已有8年的码领,自从去年开启博客关注才能预览,至今已有1500个粉丝,比其他短视频平台的粉丝还要多,经年累月,8年一瞬,在码代码的道路上越来越不快乐,为何不快乐,因为寻觅不到快乐的源泉。-------------“何以解忧,唯有暴富”需求开发一个系统,主要是将数仓中治理完用于检索的数据灌入Elasticsearch中,一般情况,开源的一些系
第一次看海
·
2024-01-17 14:28
spark
sql
大数据
py
spark
_2_入门篇(编写我们的第一个程序WordCount)
跟着Leo学习Py
Spark
chapter2——编写我们的第一个程序WordCount上一章我们大致讲了一下py
spark
的基本理论和重要概念,如果想系统化且更深入地理解
spark
中的概念,还请移步官方文档
NikolasNull
·
2024-01-17 12:32
2018-06
spark
北美会议ppt下载
https://github.com/397090770/
spark
-summit-north-america-2018-06/tree/master/ppt
生活的探路者
·
2024-01-17 12:11
StreamX流批一体一站式
大数据平台
:大数据Flink可视化工具的革命性突破,让你的数据更高效、更直观!
介绍:StreamX,开源的流批一体一站式
大数据平台
,致力于让Flink开发更简单。它极大地降低了学习成本和开发门槛,使开发者可以专注于最核心的业务。
知识分享小能手
·
2024-01-17 12:15
学习心得体会
大数据
大数据
flink
学习
智慧校园
大数据平台
业务系统介绍
常见业务系统以下是智慧校园常见的业务系统。这是某个智慧校园业务系统的数据流情况,我们可以发现业务系统和数据中心并未完全数据交互共享,因此我们在规划建设智慧校园大数据时需要协调各个职能部门的资源确认业务系统的数据接口。同时由于各个业务系统之间数据不统一,我们在采集数据过程中还需进行数据转换,转换成我们所需的数据格式,这些都带来大量的工作量。学校业务系统的数据类型和属性很多,有数百种。我们进行数据的归
shawn_song1212
·
2024-01-17 11:02
大数据
智慧校园
大数据平台
功能模块
学校概况模块智慧校园
大数据平台
的“学校概况”模块,主要给学校和院系领导使用,能够从宏观、全局把控学校教学、管理、科研、资产等各个方面的整体情况,可以预测学校的发展趋势并且给出决策建议。
shawn_song1212
·
2024-01-17 11:02
大数据
智慧城市
智慧校园
大数据平台
概述
背景2015年是中国的智慧校园大数据元年,政府、企业、学校、研究者、管理者、教师、社会公众等都开始关注智慧校园大数据,相关政策文件、研究机构、学术活动、市场产品等开始纷纷出现。然而,我国的智慧校园大数据研究与实践领域整体还处于起步探索阶段,是在“摸着石头过河”,涉及一系列关键问题亟待解决(如教育数据的自然采集、教育数据的安全管理与隐私保护、教育数据的无缝流转与开放共享、教育数据的深度挖掘以及学习分
shawn_song1212
·
2024-01-17 11:01
大数据
智慧城市
智慧校园
大数据平台
架构
数据计算与分析挖掘
大数据平台
涵盖了
shawn_song1212
·
2024-01-17 11:56
大数据
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有
Spark
kikiki2
·
2024-01-17 11:48
介绍 Apache
Spark
的基本概念和在大数据分析中的应用
Apache
Spark
是一个开源的分布式计算系统,它旨在处理大规模数据集并提供高性能和易用性。
Spark
提供了一个统一的编程模型,可以在多种编程语言中使用,包括Scala、Java、Python和R。
酷爱码
·
2024-01-17 11:45
经验分享
spark
大数据
分布式
Hive架构设计
我们知道MapReduce和
Spark
它们提供了高度抽象的编程接口便于用户编写分布式程序,它们具有极好的扩展性和容错性,能够处理超大规模的数据集。
跟着大数据和AI去旅行
·
2024-01-17 08:12
大数据企业级实战
hive
Spark
master HA
1.原理只针对
Spark
自带的Standalone资源调度框架,因为Yarn本身就是高可用的Standalone集群只有一个Master,如果Master挂了就无法提交应用程序,需要给Master进行高可用配置
乔一波一
·
2024-01-17 08:34
计算机毕业设计之全网独家
Spark
租房爬虫数据分析与推荐系统 租房大数据 租房app 租房数据分析 租房爬虫 房源推荐系统 房源数据分析 房源可视化
一、网站·登录与注册、注销·短信验证码修改密码·我的信息:身份证实名认证·租房业务流程(预约+看房+支付+完成+评价)、进度步骤条展示·支付宝沙箱支付·房屋浏览、中介信息查看·房屋推荐(基于mahout协同过滤算法)·房屋评价、点赞与收藏二、后端·统计主页、个人信息(带头像上传)、权限管理、用户管理、资讯管理、通知管理、日志管理、评论管理、轮播图管理、房屋管理、中介管理、订单管理。·中介权限可以登
haochengxu2022
·
2024-01-17 08:34
数据分析
爬虫
推荐系统
spark
爬虫
数据分析
推荐系统
最新使用宝塔反代openai官方API接口搭建详细教程及502 Bad Gateway错误问题解决
二、实现前提一台海外VPS服务器OpenAI官方的API_KEY第三方网站系统或插件关于第三方网站系统或插件,可以看另一篇文章介绍《
Spark
Ai系统详情及搭建部署文档》:https://www.yuque
白云如幻
·
2024-01-17 06:16
教程
运维
ChatGPT
gateway
chatgpt
nginx
spark
之checkpoint原理机制
当RDD使用cache机制从内存中读取数据,如果数据没有读到,会使用checkpoint机制读取数据。此时如果没有checkpoint机制,那么就需要找到父RDD重新计算数据了,因此checkpoint是个很重要的容错机制。checkpoint就是对于一个RDDchain(链)如果后面需要反复使用某些中间结果RDD,可能因为一些故障导致该中间数据丢失,那么就可以针对该RDD启动checkpoint
临界爵迹
·
2024-01-17 06:44
大数据
spark
checkpoint
spark
之shuffle参数优化
spark
.shuffle.file.buffer默认32kshufflewritetask端的缓冲区,到达阈值后,溢写到磁盘。
临界爵迹
·
2024-01-17 06:43
大数据
spark
Spark
面试
1、
Spark
如何保证宕机迅速恢复?
lune_Lucky
·
2024-01-17 05:30
大数据
big
data
spark
Apriori
Apriori算法原理总结-刘建平FPTree算法原理总结-刘建平PrefixSpan算法原理总结-刘建平用
Spark
学习FPTree算法和PrefixSpan算法-刘建平
BluthLeee
·
2024-01-17 05:41
基于
spark
的淘宝用户行为数据分析及其可视化研究
数据准备1、数据来源:淘宝用户购物行为数据集数据的相关介绍:数据的一条记录包括:用户id,商品id,商品类目id,行为类型(行为类型:pv——点击,buy——购买,cart——加入购物车,fav——收藏),时间戳数据包含了2017年11月25日至2017年12月3日之间淘宝用户的数据行为用户数量:987994商品数量:4162024用户数量:987994商品类目数量:9439所有行为数量:1001
简单的小呆瓜
·
2024-01-17 02:14
spark
spark
数据分析
大数据
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他