E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——Spark
windows本地搭建mml
spark
分布式机器平台流程
文章目录windows本地搭建mml
spark
分布式机器平台流程安装环境py
spark
环境
spark
环境java环境hadoop环境1.修改hadoop配置文件下的jdk地址为自己的实际地址2.修改bin
安替-AnTi
·
2023-10-24 14:36
机器学习
windows
分布式
mmlspark
lightgbm
spark
hadoop
java
Spark
简单回顾
星光下的赶路人star的个人主页 大鹏一日同风起,扶摇直上九万里文章目录1、
Spark
1.1
Spark
入门1.1.1
Spark
星光下的赶路人star
·
2023-10-24 11:32
Spark
1024程序员节
大数据
spark
Spark
SQL之LogicalPlan概述
逻辑计划本质上是一种中间过程表示,与
Spark
平台无关,后续阶段会进一步将其映射为可执行的物理计划。
Spark
SQL逻辑计划在实现层面被定义为LogicalPlan类。
RainTicking
·
2023-10-24 11:03
大数据
scala
大数据
【
Spark
ML】第 5 章:Recommendations
大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流个人主页-Sonhhxg_柒的博客_CSDN博客欢迎各位→点赞+收藏⭐️+留言系列专栏-机器学习【ML】自然语言处理【NLP】深度学习【DL】foreword✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。如果你对这个系列感兴趣的话,可以关注订阅哟文章目录
Sonhhxg_柒
·
2023-10-24 09:22
使用Spark的下一代机器学习
spark-ml
大数据
人工智能
1024程序员节
电影评分数据分析案例-
Spark
SQL
#cording:utf8frompy
spark
.sqlimport
Spark
Sessionfrompy
spark
.sql.typesimportIntegerType,StringType,StructTypeimportpy
spark
.sql.functionsasFif
菜鸟一千零八十六号
·
2023-10-24 08:52
数据分析
spark
sql
Spark
SQL概述与基本操作
目录一、
Spark
SQL概述(1)概念(2)特点(3)
Spark
SQL与Hive异同(4)
Spark
的数据抽象二、
Spark
Session对象执行环境构建(1)
Spark
Session对象(2)代码演示三
菜鸟一千零八十六号
·
2023-10-24 08:22
spark
sql
大数据
Spark
SQL的Shuffle分区设定及异常数据处理API(去重、缺失值处理)
一、
Spark
SQL的Shuffle分区数目设定在允许
spark
程序时,查看WEBUI监控页面发现,某个Stage中有200个Task任务,也就是说RDD有200分区Partion。
菜鸟一千零八十六号
·
2023-10-24 08:49
ajax
前端
javascript
Spark
学习笔记
dataframecreate创建dataframevaltraining=ss.createDataFrame(Seq((1.0,Vectors.dense(0.0,1.1,0.1)),(0.0,Vectors.dense(2.0,1.0,-1.0)),(0.0,Vectors.dense(2.0,1.3,1.0)),(1.0,Vectors.dense(0.0,1.2,-0.5)))).toD
小小兰哈哈
·
2023-10-24 07:31
Spark
之DataFrame操作大全
Spark
Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。
果粒多
·
2023-10-24 07:23
#
Spark
大数据常见错误及解决方案
/bin/
spark
-shell启动
spark
时遇到异常:java.net.BindException:Can'tassignrequestedaddress:Service'
spark
Driver'failedafter16retries
果粒多
·
2023-10-24 07:53
大数据-BigData
中国智能创客素质教育晨报
【Planet
Spark
获得3200万卢比pre-A轮融资】印度游戏化学习解决方案初创公司Planet
Spark
宣布完成3200万卢比(约合44.88万美元)的pre-A轮融资,投资方为:IndianAngelNetwork
81224ff12082
·
2023-10-24 05:35
Tableau第三课
3.2、香港不同地区酒店数量与价格四、气泡图与词云4.1、不同类型电影数量与票房4.2、动作电影动态气泡图4.3、词云图制作五、本次课程作业一、上次课程回顾https://blog.csdn.net/
Spark
OnYarn
Spark on yarn
·
2023-10-24 05:16
Tableau入门实战
流计算概述(林子雨慕课课程)
11.1.2流计算概念与典型框架11.2流计算处理流程11.3流计算的应用11.4开源流计算框架Storm11.4.1Storm简介11.4.2Storm设计思想11.4.3Storm框架设计11.5
Spark
Spark
StreamingSamza
几窗花鸢
·
2023-10-24 04:16
大数据应用
大数据
hadoop
Java实现一个简单的GitHub仓库信息爬取
云计算实践作业需要采用
Spark
,Flink实现,其中需要用到爬虫进行数据的的爬取,来保证数据的来源和有效且“大量”。
adventure.Li
·
2023-10-24 03:41
#
Java理论与实践
java
github
python
es第十篇:Elasticsearch for Apache Hadoop
esforapachehadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce、hive、pig、cascading、
spark
)与es交互。
lvtula
·
2023-10-24 02:24
ElasticSearch
大数据学习04 Scala的学习
大数据学习04Scala的学习在
Spark
学习之前,先进行对Scala的学习提示:已经有Scala基础的同学可以先跳过这部分文章目录大数据学习04Scala的学习Scala是什么一、Scala入门1.为什么学习
燕大扎克伯格
·
2023-10-24 01:12
Scala
大数据
Spark
scala
spark
big
data
Scala教程
Scala是一门综合了面向对象和函数式编程概念的静态类型的编程语言,它运行在标准的java平台上,可以与所有的Java类库无缝操作
Spark
,Kafka等底层都是Scala编写的1.1.2Scala的发展马丁
三暮辰
·
2023-10-24 01:05
Scala
scala
java
big
data
Flink(1)-概述
目前比较流行的大数据处理引擎Apache
Spark
,基本上已经取代了MapReduce成为当前大数据处理的标准。随着数据的不断增长,人们逐渐意识到对实时数据处理的重要性。
鱼跃鹰飞
·
2023-10-23 23:24
大厂真题
高频面试题
大数据
flink
大数据
kafka
面试
1注解知识点-@Valid用法
前提:在pom.xml导入org.hibernatehibernate-validator5.4.1.Final1.客户端传入参数publicclas
sPark
EnterpriseModelextendsBaseModel
堕落小怪兽
·
2023-10-23 20:53
Spark
(三十八)数据倾斜解决方案之提高shuffle操作reduce并行度
一、背景1、第一个和第二个方案,都不适合做。2、第三个方案,提高shuffle操作的reduce并行度将reducetask的数量,变多,就可以让每个reducetask分配到更少的数据量,这样的话,也许就可以缓解,或者甚至是基本解决掉数据倾斜的问题。提升shufflereduce端并行度,怎么来操作?1、很简单,主要给我们所有的shuffle算子,比如groupByKey、countByKey、
文子轩
·
2023-10-23 19:15
【无标题】
Spark
和Hadoop的MapReduce对比
spark
和mapreduce对比速度:
Spark
的设计目标是比MapReduce更快,这要归功于它的内存处理能力。
浩海紫冰
·
2023-10-23 19:54
mapreduce
spark
hadoop
最新AI智能写作创作系统源码V2.6.4/AI绘画系统/支持GPT联网提问/支持Prompt应用
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统+AI绘画系统,支持OpenAIGPT全模型+国内AI全模型。
只恨天高
·
2023-10-23 17:29
人工智能
程序源码
教程
AI写作
AI作画
gpt
源码软件
人工智能
prompt
midjourney
Spark
-checkpoint检查点
Spark
中对于数据的保存除了缓存操作外,还提供了一种检查点的机制,检查点是为了通过血缘关系实现容错辅助,血缘关系过长会造成容错成本过高,如果在中间阶段设立检查点进行容错,当后续节点出现问题是,从检查点开始重新建立血缘会减少开销
布莱安托
·
2023-10-23 16:43
Spark
简介
spark
特点
spark
是基于内存计算的大数据并行计算框架具有如下特点:运行速度快
Spark
使用先进的DAG执行引擎,基于内存的执行速度可比HadoopMapReduce快上百倍,基于磁盘的执行速度也能快十倍容易使用支持使用
博弈史密斯
·
2023-10-23 16:22
Spark
常用RDD算子详解!!!
文章目录1.Transformation转换算子1.1Value类型1.1.1map()映射1.1.2mapPartitions()以分区为单位执行Map1.1.3map()和mapPartitions()区别1.1.4mapPartitionsWithIndex()带分区号1.1.5flatMap()压平1.1.6glom()分区转换数组1.1.7groupBy()分组1.1.8GroupBy之
子清.
·
2023-10-23 14:16
#
SparkCore
spark
spark
rdd算子的简单练习
统计发布招聘岗位最多的五个地区objectfrist_test{defmain(args:Array[String]):Unit={val
spark
Conf=new
Spark
Conf().setMaster
南辰x
·
2023-10-23 14:15
spark
scala
intellij-idea
Mongo+
Spark
本文转载自:http://www.mongoing.com/tj/mongodb_shanghai_
spark
介绍按照官方的定义,
Spark
是一个通用,快速,适用于大规模数据的处理引擎。
亮亮-AC米兰
·
2023-10-23 14:15
Spark
Mongo
Spark
Spark
核心编程—RDD算子(转换算子)
文章目录持续更新中一、RDD转换算子(一)Value类型1、map2、mapPartitions3、mapPartitionWithIndex4、flatMap5、glom6、groupBy7、filter8、sample9、distinct10、coalesce11、repartition12、sortBy(二)双Value类型1、intersection2、union3、subtract4、z
Jerry Hong
·
2023-10-23 14:43
Spark
大数据面试
spark
big
data
hadoop
spark
算子详解 java_
spark
RDD算子详解3
Actions算子本质上在Actions算子中通过
Spark
Context执行提交作业的runJob操作,触发了RDDDAG的执行。
拐个王子回古墓
·
2023-10-23 14:12
spark
算子详解
java
Spark
RDD算子详解
RDD方法=>RDD算子(Operator操作)RDD的方法和Scala集合对象的方法不一样,集合对象的方法都是在同一个节点的内存中完成的。RDD的方法可以将计算逻辑发送到Executor端(分布式节点)执行。为了区分不同的处理效果,所以将RDD的方法称之为算子。RDD的方法外部的操作都是在Driver端执行的,而方法内部的逻辑代码是在Executor端执行。算子字面看还是以计算为主,RDD不存放
数据求学家
·
2023-10-23 14:42
spark
大数据开发
big
data
spark
大数据
scala
利用py
spark
练习
spark
RDD算子的操作练习实验
实验名称RDD算子的操作实验实验目的掌握RDD算子的基本用法实验资源student.txt实验环境VMwareWorkstationUbuntu16.04JupyterNotebookPy
spark
实验内容
墨风 倾城
·
2023-10-23 14:11
python
spark
Spark
中transformation和Action的RDD算子
Spark
中transformation和Action的RDD算子区别transformationtransformation是在现有的RDD上通过一定方法转换生成新的RDD,转换时延时执行(lazy)
lds_include
·
2023-10-23 14:41
大数据
Spark
大数据的Spark
大数据
RDD常见转化算子和行动算子
spark
提供了丰富的用于操作RDD的方法,这些方法被称为算子。一个创建完成的RDD只支持两种算子:转化算子和行动算子。转化算子负责对RDD中的数据进行计算并转化为新的RDD。
东流-beyond the label
·
2023-10-23 14:41
spark学习
Spark
RDD&算子 基本操作
1.RDD
Spark
提供了两种创建RDD的方式:(1)由一个已经存在的Scala集合进行创建。
傍ྂ离ྂ
·
2023-10-23 14:40
Scala
Spark
spark
scala
Spark
Sql读取Snappy Parquet压缩文件报错:java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.unc...
版本信息
Spark
-sql:2.2.0.cloudera2
Spark
-core:2.2.0.cloudera2JDK:1.8Scala:2.11.11问题描述在通过
Spark
SqlAPI读取SnappyParquet
Producer晨
·
2023-10-23 13:10
kafka 数据可靠性深度解读
目前越来越多的开源分布式处理系统如Cloudera、ApacheStorm、
Spark
等都支持与Kafka集成。如果想学习Java工程化、高性能及分布式、深入浅出。
程序员日常填坑
·
2023-10-23 09:11
spark
开发环境搭建
1、下载工具下载开发工具lunaeclipse或者IntellijIDEA(官网下载的scalaforeclipse如果不能用可以使用luna)2、安装jdk配置环境变量建议jdk1.8,jdk版本请确定好,是64位还是32位。(1)环境变量添加java_home,变量值写入jdk安装路径;(2)环境变量找到path,没有则新建,变量值入%JAVA_HOME%\bin;%JAVA_HOME%\jr
请叫我刚爷
·
2023-10-23 08:12
Spark
任务中Partition分区与HDFS中的Block数据块
hdfs-block位于存储空间;
spark
-partition位于计算空间;hdfs-block的大小是固定的;
spark
-partition大小是不固定的;hdfs-block是有冗余的、不会轻易丢失
liuzx32
·
2023-10-23 07:32
Spark
- 动态注册UDF
昨天有位大哥问小弟一个
Spark
问题,他们想在不停
Spark
程序的情况下动态更新UDF的逻辑,他一问我这个问题的时候,本猪心里一惊,
Spark
**还能这么玩?
kikiki2
·
2023-10-23 06:08
spark
-core-转载
第1章RDD概念1.1RDD为什么会产生 RDD:ResilientDistributedDataset弹性分布式数据集 RDD是
Spark
的基石,是实现
Spark
数据处理的核心抽象。
zuoseve01
·
2023-10-23 05:28
spark
Spark
系列之(五)——案例一:搜索引擎日志分析
1.数据描述2.业务分析3.jieba入门4.需求1:搜索关键词统计5.需求2:用户和关键词组合分析6.需求3:热门搜索时间段7.提交集群运行
浩 k
·
2023-10-23 05:58
大数据
spark
Spark
Streaming系列-5、应用案例: 百度搜索风云榜
传送门:大数据系列文章目录官方网址:http://
spark
.apache.org/、http://
spark
.apache.org/sql/目录业务场景初始化环境创建Topic模拟日志数据StreamingContextUtils
技术武器库
·
2023-10-23 05:57
大数据专栏
spark
大数据
kafka
hadoop
转:大数据真实案例:
Spark
在美团的实践
美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以HiveSQL为主,底层计算引擎为MapRed
爱萨萨
·
2023-10-23 05:57
技术-大数据
大数据
案例分析
美团
spark
Spark
Core系列-7、SougoQ日志分析
传送门:大数据系列文章目录官方网址:http://
spark
.apache.org/、https://databricks.com/
spark
/about目录回顾介绍业务需求准备工作HanLP中文分词样例类
技术武器库
·
2023-10-23 05:27
大数据专栏
搜索引擎
大数据
Spark
实时搜索日志实时分析
目录1业务场景2初始化环境2.1创建Topic2.2模拟日志数据2.3StreamingContextUtils工具类3实时数据ETL存储4实时状态更新统计4.1updateStateByKey函数4.2mapWithState函数5实时窗口统计1业务场景百度搜索风云榜(http://top.baidu.com/)以数亿网民的单日搜索行为作为数据基础,以搜索关键词为统计对象建立权威全面的各类关键词
赵广陆
·
2023-10-23 05:26
spark
spark
big
data
hadoop
基于
Spark
Streaming的实时日志分析系统实践
Spark
Streaming 在数据平台日志解析功能的应用
前言目前业界基于Hadoop技术栈的底层计算平台越发稳定成熟,计算能力不再成为主要瓶颈。多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性,这些软性要求,逐渐成为日志分析系统面对的主要问题。2018年线上线下融合已成大势,苏宁易购提出并践行双线融合模式,提出了智慧零售的大战略,其本质是数据驱动,为消费者提供更好的服务,苏宁日志分析系统作为数据分析的第一环节,为数据运营打下了坚实基础。数据分析
bcdk1188
·
2023-10-23 05:56
大数据
分布式
数据库
hadoop
spark
Spark
(11) --
Spark
实现ip地址查询案例及Sogou日志分析(scala版)
1.
Spark
实现ip地址查询案例1.1需求分析 在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。
erainm
·
2023-10-23 05:56
大数据学习
spark
大数据
Spark
对SogouQ日志分析
2.2样例类SogouRecord3业务实现3.1读取数据3.2搜索关键词统计3.3用户搜索点击统计3.4搜索时间段统计3.5完整代码1业务需求使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用
Spark
赵广陆
·
2023-10-23 05:56
spark
Spark
内核调度
目录一、DAG(1)概念(2)Job和Action关系(3)DAG的宽窄依赖关系和阶段划分二、
Spark
内存迭代计算三、
spark
的并行度(1)并行度设置(2)集群中如何规划并行度四、
spark
任务调度五
菜鸟一千零八十六号
·
2023-10-23 05:55
spark
大数据
分布式
spark
搜狗日志数据分析实战
一.数据来源本次示例所用数据是来自搜狗实验室的用户查询日志。搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。数据下载地址为:http://www.sogou.com/labs/resource/q.php。可以根据自己需求下载不同版本数据,这里下载的是迷你版本的ta
RiverCode
·
2023-10-23 05:25
Spark
spark
数据分析实战
上一页
57
58
59
60
61
62
63
64
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他