E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark问题总结
Spark
概念知识笔记
最近总结了个人的各项能力,发现在大数据这方面几乎没有涉及,因此想补充这方面的知识,丰富自己的知识体系,大数据生态主要包含:Hadoop和
Spark
两个部分,
Spark
作用相当于MapReduceMapReduce
kuntoria
·
2024-09-07 05:21
大数据秋招面经之
spark
系列
文章目录前言
spark
高频面试题汇总1.
spark
介绍2.
spark
分组取TopN方案总结:方案2是最佳方案。
wq17629260466
·
2024-09-06 19:54
大数据
spark
每天一个数据分析题(五百一十四)- 决策树算法
D.叶结点(leafnode)数据分析认证考试介绍:点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python,SQL,统计学,数据分析理论,深度学习,可视化,机器学习,
Spark
跟着紫枫学姐学CDA
·
2024-09-06 15:20
数据分析题库
算法
数据分析
决策树
【
Spark
高级应用】使用
Spark
进行高级数据处理与分析
Spark
高级应用使用
Spark
进行高级数据处理与分析引言在大数据时代,快速处理和分析海量数据是每个企业面临的重大挑战。
爱技术的小伙子
·
2024-09-06 10:47
大数据
spark
ajax
大数据
spark
读取csv文件
测试
spark
读取本地和hdfs文件frompy
spark
.sqlimport
Spark
Session
spark
=
Spark
Session.builder\.appName("ExamplePy
Spark
Script
静听山水
·
2024-09-06 10:44
Spark
spark
Spark
Streaming业务逻辑处理的一些高级算子
packagecom.
spark
scala.streamingimportorg.apache.log4j.{Level,Logger}impor
看见我的小熊没
·
2024-09-06 09:43
sparkStreaming
scala
spark
big
data
scala
Spark
一些个人总结
文章目录前言一、
Spark
是什么二、
Spark
用来做什么三、
Spark
的优势是什么四、为什么用
Spark
五、
Spark
解决了什么
问题总结
前言随着大数据技术的发展,一些更加优秀的组件被提了出来,比如现在最常用的
易逑实战数据
·
2024-09-06 09:39
大数据
spark
big
data
scala
spark
任务优化参数整理
以下参数中有sql字眼的一般只有
spark
-sql模块生效,例外的时候会另行说明,此外由于总结这些参数是在不同时间段,当时使用的
spark
版本也不一样,因此要注意是否有效,如果本博主已经试过的会直接说明
尘世壹俗人
·
2024-09-06 09:08
大数据Spark技术
spark
大数据
分布式
Spark
与Kafka进行连接
在Java中使用
Spark
与Kafka进行连接,你可以使用
Spark
Streaming来处理实时流数据。以下是一个简单的示例,展示了如何使用
Spark
Streaming从Kafka读取数据并进行处理。
傲雪凌霜,松柏长青
·
2024-09-06 07:27
后端
大数据
spark
kafka
Spark
入门:KMeans聚类算法
聚类(Clustering)是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性,根据某一给定的相似度度量方式(如欧式距离)找到相似的样本,并根据距离将样本划分成不同的组。聚类属于典型的无监督学习(UnsupervisedLearning)方法。与监督学习(如分类器)相比1,无监督学习的训练集没有人为标注的结果。在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
17111_Chaochao1984a
·
2024-09-06 05:46
算法
spark
kmeans
Spark
MLlib模型训练—聚类算法 K-means
Spark
MLlib模型训练—聚类算法K-meansK-means是一种经典的聚类算法,广泛应用于数据挖掘、图像处理、推荐系统等领域。
不二人生
·
2024-09-06 04:14
Spark
ML
实战
算法
spark-ml
聚类
Spark
MLlib模型训练—聚类算法 Bisecting K-means
Spark
MLlib模型训练—聚类算法BisectingK-means由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响,因此在传统的KMeans算法的基础上进行算法改进,对初始中心点选取比较严格
不二人生
·
2024-09-06 04:14
Spark
ML
实战
算法
spark-ml
聚类
DAG (directed acyclic graph) 作为大数据执行引擎的优点
TL;DR-ConceptuallyDAGmodelisastrictgeneralizationofMapReducemodel.DAG-basedsystemslike
Spark
andTezthatareawareofthewholeDAGofoperationscandobetterglobaloptimizationsthansystemslikeHadoopMapReducewhicha
joeywen
·
2024-09-06 04:43
分布式计算
Storm
Spark
Storm
杂谈
Storm
spark
DAG
Spark
的Web界面
http://localhost:4040/jobs/在顶部导航栏上,可以点击以下选项来查看不同类型的
Spark
应用信息:Jobs-此视图将列出所有已提交的作业,并提供每个作业的详细信息,如作业ID、名称
静听山水
·
2024-09-06 04:40
Spark
spark
最全金融数据_Py
Spark
-3(2),大数据开发学习的三个终极问题及学习路线规划
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新需要这份系统化资料的朋友,可以戳这里获取frompy
spark
.ml.evaluationimportBinaryClassificationEv
2401_84185145
·
2024-09-05 23:38
大数据
面试
学习
文章汇总 | 2018
12月RIA便签学习法10月财富最好的定义
Spark
分布式原理及碰到的三个坑在不断解决问题(矛盾)的过程进步9月《韭菜的自我修养》-股票交易是零和游戏吗?
学习之术
·
2024-09-05 22:27
Ingest Pipeline & Painless Script
包含3个字段,tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"hadoop,elasticsearch,
spark
折纸虚桐
·
2024-09-05 22:03
ES学习笔记
elasticsearch
Spark
作业提交
一.作业提交1.1作业提交模式
spark
作业提交使用
spark
-submit命令,作业提交模式有cluster和client两种。
Tom无敌宇宙猫
·
2024-09-05 22:26
spark
大数据
分布式
Spark
基础
一.基础1.RDD机制 1.rdd分布式弹性数据集,简单的理解成⼀种数据结构,是
spark
框架上的通⽤货币。所有算⼦都是基于rdd来执⾏的,不同的场景会有不同的rdd实现类,但是都可以进⾏互相转换。
Tom无敌宇宙猫
·
2024-09-05 22:26
spark
大数据
分布式
Apache
Spark
简介
Apache
Spark
是一个快速而通用的数据处理引擎,用于大规模数据处理和分析。它是由加州大学伯克利分校研究实验室开发的开源项目。
不知名的小Q
·
2024-09-05 17:52
eclipse
java
spring
maven
spark
streaming优点和缺点
优点:
spark
streaming会被转化为
spark
作业执行,由于
spark
作业依赖DAGScheduler和RDD,所以是粗粒度方式而不是细粒度方式,可以快速处理小批量数据,获得准实时的特性;以
spark
scott_alpha
·
2024-09-05 15:42
Spark
Spark
是一个快速的、通用的集群计算系统,主要用于大规模数据处理。它最早由加州大学伯克利分校的AMPLab开发,并于2010年开源,后来由Apache软件基金会管理。
傲雪凌霜,松柏长青
·
2024-09-05 11:20
后端
大数据
spark
大数据
分布式
Windows系统下的
Spark
环境配置
一:
Spark
的介绍Apache
Spark
是一个开源的分布式大数据处理引擎,它提供了一整套开发API,包括流计算和机器学习。
eeee~~
·
2024-09-05 11:19
3:大数据技术
实用教程
spark
大数据
分布式
kafka消费者重复消费同一个topic
场景是
spark
streaming消费kafka数据在这里
spark
stream和kafka都是单节点的集群模式。同时起两个不同的groupid的应用,发现会发生后起来的应用消费不到数据。
小琳ai
·
2024-09-05 10:06
大数据
kafka
重复消费
consumer
Hbase BulkLoad用法
要导入大量数据,Hbase的BulkLoad是必不可少的,在导入历史数据的时候,我们一般会选择使用BulkLoad方式,我们还可以借助
Spark
的计算能力将数据快速地导入。
kikiki2
·
2024-09-05 07:29
MySQL最常见的8种SQL错误解决方法
现将《ApsaraDB专家诊断报告》中出现的部分常见SQL
问题总结
如下,供大家参考。1、LIMIT
JAVA开发之路
·
2024-09-05 06:52
EMR组件部署指南
本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScala
Spark
Hive准备工作所有操作都在
ivwdcwso
·
2024-09-05 00:05
运维
EMR
大数据
开源
运维
9.2
spark
内存管理之 UnifiedMemoryManager
图片来源https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-
spark
-memory-management/index.html1
GongMeng
·
2024-09-04 20:46
Sublime text3+python3配置及插件安装
rayson_666(Rayson开发分享)个人专研技术方向:微服务方向:springboot,springCloud,Dubbo分布式/高并发:分布式锁,消息队列RabbitMQ大数据处理:Hadoop,
spark
raysonfang
·
2024-09-04 19:23
java.io.InvalidClassException(
spark
任务运行失败)
背景:客户集群内偶尔会出现java.io.InvalidClassException:org.apache.kudu.
spark
.kudu.KuduRDD;localclassincompatible:
LATASA
·
2024-09-04 09:30
spark
java
大数据
【conda 】完美掌控 Conda 配置:高级设置与实用技巧
目录一、`conda`配置文件详细设置1.基本设置2.高级配置3.其他配置选项二、实用命令1.更新`conda`配置2.显示当前配置3.添加和删除频道三、解决常见问题1.包冲突2.网络问题3.包缓存
问题总结
在数据科学和开发工作中
丶2136
·
2024-09-04 04:54
conda
conda
使用pgrs在wsl中为postgres写拓展
duckdb,zombodb,datafusion等等产品都是数据组合流思路体现,把这套功法练到大成,处于2024年,综合数据规模/相应速度/和数据应用层解耦,就有了一个最佳答案.比以前hadoop,
spark
wangmarkqi
·
2024-09-04 03:19
rust
数据库
切片上传记录
核心就是1前端分片2后端组装3md5校验
Spark
-md5介绍用md5就是为了防止文件被篡改,小的文件直接可以用整个文件传入,返回文件md5,但是越大的文件(超过2G),如果用整文件的方式,时间会很久,
Miya_Ye
·
2024-09-04 00:32
前端
切片上传
阿里云服务器内存型r7、r8a、r8y实例区别参考
这几个实例规格,相比于活动内的经济型e、通用算力型u1实例来说,这些实例规格等性能更强,与计算型和通用型相比,它的内存更大,因此这些内存型实例规格主要适用于数据库、中间件和数据分析与挖掘,Hadoop、
Spark
阿里云最新优惠和活动汇总
·
2024-09-03 22:41
微信小程序换行符、hidden属性、图片高度、背景图不显示问题
微信小程序
问题总结
1.换行符\n1.1微信小程序的换行符为\n,只能在text标签中使用,才能进行换行1.2当后端返回数据中存在换行符\n,并且在text标签中仍不进行换行显示,(原因是后端返回的\n被转译成了字符串无法识别为换行符
小可要敲三万行代码
·
2024-09-03 15:38
微信小程序
小程序
hive学习记录
Hive将HQL(HiveQueryLanguage)转化成MapReduce程序或其他分布式计算引擎(如Tez、
Spark
)的任务进行计算。
2302_80695227
·
2024-09-03 12:46
hive
学习
hadoop
计算机毕业设计hadoop+
spark
知识图谱房源推荐系统 房价预测系统 房源数据分析 房源可视化 房源大数据大屏 大数据毕业设计 机器学习
5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.
spark
计算机毕业设计大全
·
2024-09-03 07:05
Spark
- SQL查询文件数据
那么我们可以利用
spark
-sql直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会
spark
了,因为我就只会sql。使用方法csv
spark
.sql("select*fromcsv.
kikiki5
·
2024-09-03 07:39
Spark
-submit提交任务的常用参数
#参数名称#含义--clusterc3prc-hadoop#--masterMASTER_URL#可以是
spark
://host:port,mesos://host:port,yarn,yarn-cluster
liuzx32
·
2024-09-02 20:22
Spark
MLlib模型训练—回归算法 Random forest regression
Spark
MLlib模型训练—回归算法Randomforestregression随机森林回归(RandomForestRegression)是一种集成学习方法,通过结合多个决策树的预测结果来提升模型的准确性和稳健性
不二人生
·
2024-09-02 17:54
Spark
ML
实战
spark-ml
回归
随机森林
Leetcode刷题记录 - 链表问题
链表
问题总结
常出现的几种链表问题文章目录链表问题前言问题一:倒数第k个元素问题二:中间位置的结点`问题三:环形链表问题4:未完待续问题5:未完待续前言无法高效获取长度,无法根据偏移快速访问元素,是链表的两个劣势
石语予木
·
2024-09-02 15:11
leetcode刷题
leetcode
java
单链表
【Flutter和H5数据传递问题】window.postMessage方法引起的数据问题
Flutter前言问题双引号问题请求数据
问题总结
前言距离上一篇博客已经过了很长时间了,这次在做公司项目中又遇到了新的问题,决定还是写出来看看各位大神对此有什么看法,分享一下各位的想法。
阿菜同学
·
2024-09-02 10:41
flutter
前端
h5
通信
Spark
MLlib LinearRegression线性回归算法源码解析
线性回归一元线性回归hθ(x)=θ0+θ1xhθ(x)=θ0+θ1x——————–1多元线性回归hθ(x)=∑mi=1θixi=θTXhθ(x)=∑i=1mθixi=θTX—————–2损失函数J(θ)=1/2∑mi=1(hθ(xi)−yi)2J(θ)=1/2∑i=1m(hθ(xi)−yi)2—————31/2是为了求导时系数为1,平方里是真实值减去估计值我们的目的就是求其最小值最小二乘法要求较为
SmileySure
·
2024-09-02 09:33
Spark
人工智能算法
Spark
MLlib
Spark
MLlib模型训练—回归算法 GLR( Generalized Linear Regression)
Spark
MLlib模型训练—回归算法GLR(GeneralizedLinearRegression)在大数据分析中,线性回归虽然常用,但在许多实际场景中,目标变量和特征之间的关系并非线性,这时广义线性回归
猫猫姐
·
2024-09-02 08:28
Spark
实战
回归
spark-ml
线性回归
spark
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理
下面介绍其原理,并用
Spark
MLlib机器
陈敬雷-充电了么-CEO兼CTO
·
2024-09-02 07:52
算法
大数据
人工智能
算法
自然语言处理
分类
nlp
ai
人工智能
chatgpt
【python】python指南(十四):**操作符解包字典传参
大学的时候参加ACM/ICPC一直使用的是C语言,实习的时候做一个算法策略后台用的是php,毕业后做策略算法开发,因为要用
spark
,所以写了scala,后来用基于storm开发实时策略,用的java。
LDG_AGI
·
2024-09-01 21:17
Python
python
开发语言
人工智能
机器学习
图像处理
深度学习
计算机视觉
3/26 日精进
今天有两个客户打电话询问车辆维修以外的关系不是很大的
问题总结
不管是什么事情客户能够想到你就是客户对自己的认可
刘磊stely
·
2024-09-01 13:51
大数据毕业设计hadoop+
spark
+hive微博舆情情感分析 知识图谱微博推荐系统
+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到hdfs;(三)使用hive数仓技术建表建库,导入.csv数据集;(四)离线分析采用hive_sql完成,实时分析利用
Spark
qq_79856539
·
2024-09-01 11:16
javaweb
大数据
hadoop
课程设计
基于hadoop+
spark
的旅游大数据分析平台
S2023132基于hadoop+
spark
的旅游大数据分析平台使用BeautifulSoup爬取数据,爬取成功以后使用
spark
分析数据,将分析的结果保存到mysql,flask读取mysql数据,结合
源码空间站11
·
2024-09-01 11:16
hadoop
spark
旅游
大数据毕业设计天hadoop+
spark
+hive游戏推荐系统 游戏数据分析可视化大屏 steam游戏爬虫 游戏大数据 机器学习 知识图谱 计算机毕业设计 机器学习 深度学习 人工智能 知识图谱
|—||一、选题的目的和意义用户往往因为不能及时查看游戏信息而造成许多烦恼。另一方面,游戏商城平台没能进行系统的管理与维护使游戏信息没能及时的更新。而传统的游戏信息管理,采用的还是手工备案、人工查询的方式。但是随之游戏信息的增多这种管理方式的工作量不断加大,这种做法就存在费时费力、缺乏时效性、不利于调动人员的积极性等缺点。一旦网站建立好之后,一方面,用户可以在第一时间在系统里查询所需的信息,另一方
2401_84159688
·
2024-09-01 11:45
程序员
大数据
hadoop
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他