Spark2 第7页

基于spark2.0文本分词+多分类模型

文本分类sparkspark2.0开始引入dataframe作为RDD的上层封装，以屏蔽RDD层次的复杂操作，本文使用sparkmilib中ml机器学习库进行新闻文本多分类预测，包含数据预预处理，分词，

weixin_34202952·2022-12-12 09:39

PySpark大数据计算教程

PySpark大数据计算教程了解如何将Spark与Python结合使用，包括SparkStreaming、机器学习、Spark2.0DataFrames等！

IT教程精选·2022-12-12 07:36

Spark：spark2.4.0安装

软件准备：Indexof/dist/spark，选择跟hadoop集成的版本1，解压：tar-zxvfspark-2.4.0-bin-hadoop2.6.tgzmvspark-2.4.0-bin-hadoop2.6sparkvim/etc/profile.d/bigdata-etc.shexportSPARK_HOME=/opt/sparkexportPATH=$PATH:$SPARK_HOME/

Joseph25·2022-12-11 13:27

hadoop+hive+spark安装

hadoop+hive+spark安装大数据环境安装和配置1.虚拟机环境配置2.hadoop3.2.3环境安装3.mysql5.7.29环境安装4.hive3.1.2环境安装5.spark2.4.5编译安装大数据环境安装和配置版本详情

代码&诗·2022-12-06 23:51

使用Spark操作Hudi

开发环境:hadoop2.7.6hive2.3.7spark2.4.51、pom文件maven-alihttp://maven.aliyun.com/nexus/content/groups/public

雾岛与鲸·2022-12-04 18:42

云计算 - 4 - Spark的安装与应用

云计算-4-Spark的安装与应用目标Spark的安装：1、下载配置Scala1.1下载Scala1.2配置Scala的路径1.3测试Scala是否安装完成2、下载配置Spark2.1下载Spark2.2

SYSU_Zhiyuan·2022-12-03 09:41

Spark：基于PySpark的逻辑回归和决策树模型对泰旦尼克号幸存者预测的机器学习流程

模型模型训练模型预测Titanic幸存者预测：决策树模型官网文档https://spark.apache.org/docs/2.4.5/api/python/pyspark.ml.html环境Python3spark2.4.8jupyternot

小明同学YYDS·2022-11-27 21:28

Spark2.1.0模型设计与基本架构（上）

随着近十年互联网的迅猛发展，越来越多的人融入了互联网——利用搜索引擎查询词条或问题；社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上；女孩子们现在少了逛街，多了在各大电商平台上的购买；喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈。在国内随着网民数量的持续增加，造成互联网公司的数据在体量、产生速度、多样性等方面呈现出巨大的变化。互联网产生的数据相较于传统软件产生的数据，有

weixin_30460489·2022-11-20 22:10

PySpark 单机版(含spark-submit)

PySpark单机版(含spark-submit)前提条件JDK1.8Python3.7下载Spark2https://spark.apache.org/downloads.htmlhttps://archive.apache.org

yoshubom·2022-11-20 10:17

spark的spark.sql.hive.caseSensitiveInferenceMode参数含义

本文针对spark的spark.sql.hive.caseSensitiveInferenceMode的参数含义及使用进行梳理、总结1.参数含义Spark2.1.1引入了一个新的配置项:spark.sql.hive.caseSensitiveInferenceMode

java编程艺术·2022-10-30 19:17

spark的spark.sql.hive.caseSensitiveInferenceMode参数含义 - INFER_AND_SAVE

本文针对spark的spark.sql.hive.caseSensitiveInferenceMode的参数含义及使用进行梳理、总结1.参数含义Spark2.1.1引入了一个新的配置项:spark.sql.hive.caseSensitiveInferenceMode

灵佑666·2022-10-30 19:16

Hudi源码|bootstrap源码分析总结（写Hudi）

ApacheHudibootstrap源码简要走读，不了解Hudibootstrap的可以参考：利用HudiBootstrap转化现有Hive表的parquet/orc文件为Hudi表版本Hudi0.12.0Spark2.4.4

董可伦·2022-10-18 17:47

大数据技术Spark3.0详解

1、Spark3.0新功能（1）通过自适应查询执行，动态分区修剪和其他优化，与Spark2.4相比，TPC-DS的性能提高了2倍（2）符合ANSISQL（3）pandasAPI有重大改进，包括Python

wespten·2022-10-04 14:04

Apache Spark基础知识

我的spark学习笔记，基于Spark2.4.0目录一、简介二、RDD编程1RDD介绍2RDD操作2.0读操作2.1常用Tramsformation算子2.2常用Action算子2.3传递方法、对象、变量

终回首·2022-09-28 06:50

Apache Spark启动spark-sql报错

解决UnrecognizedHadoopmajorversionnumber4解决Thedir:/tmp/hiveonHDFSshouldbewritable问题参考资料一、问题出现版本：ApacheSpark2.4.0ApacheSpark3.0.0

终回首·2022-09-21 13:06

Hive on Spark Error while processing statement: FAILED: Execution Error, return code 30041

系统环境CDH6.3.1Hive2.1.1Spark2.4.0-cdh6.3.1具体问题Hue上执行查询语句：SELECTcount(1)fromdop_test1.t_bill_reg_infohiveserver2

bertramlau·2022-09-07 20:11

Spark SQL执行多次join后越来越慢，最后出现OOM

目录背景项目简介出现的问题分析解决参考背景项目简介Spark2.4.8版本，主要使用SparkSQL的功能。简单的来说，就是使用sparkSession.sql(sql)来实现的。

94甘蓝·2022-09-06 08:47

CDH优化(收藏篇)

ClouderaManagement1.2优化：Zookeeper1.3优化：HDFS1.4优化：YARN+MapReduce1.5优化：Kafka1.6优化：HBase1.7优化：Hive1.8优化：Oozie、Hue、Solr、Spark2

000X000·2022-08-18 01:39

Kafka集成SparkStreaming

注意：从Spark2.3.0开始，不推荐使用Kafka0.8支持。SparkStreaming从Kafka接收数据，转换为sp

weixin_42073629·2022-07-16 15:00

HDFS、Yarn、Hive…MRS中使用Ranger实现权限管理全栈式实践

摘要：Ranger为组件提供基于PBAC的鉴权插件，供组件服务端运行，目前支持Ranger鉴权的组件有HDFS、Yarn、Hive、HBase、Kafka、Storm和Spark2x，后续会支持更多组件

华为云开发者联盟·2022-07-15 11:00

什么是 Apache Spark？大数据分析平台如是说

自从ApacheSpark2009年在U.C.Berkeley的AMPLab默默诞生以来，它已经成为这个世界上最重要的分布式大数据框架之一。

Joker_Ye·2022-07-04 15:50

比较 Spark 和 MapReduce 执行迭代应用Pagerank的性能差异

2.实验设置1)Ubuntu18.04、jdk1.8、云主机、IDEA2020.3.42)Hadoop2.10.1、Spark2

张嘉睿大聪明·2022-06-27 10:34

Spark Streaming之流式词频统计（Socket数据源）

开发环境：系统：Win10开发工具：scala-eclipse-IDE项目管理工具：Maven3.6.0JDK1.8Scala2.11.11Spark2.4.3Spark运行环境：系统：LinuxCentOS7

碣石观海·2022-06-14 22:18

Hudi 集成 Hive

环境:hudi0.10.1spark2.4.5hive2.3.7hadoop2.7.5将编译好的hudijar,copy到hivelib目录下:cp/Users/xxx/cloudera/lib/hudi

雾岛与鲸·2022-05-31 07:42

elasticsearch-spark用法

从5.0版本开始，elasticsearch-hadoop就支持Spark2.0。

wwwwwzh·2022-05-22 21:43

elasticsearch-spark的用法

从5.0版本开始，elasticsearch-hadoop就支持Spark2.0。目前spark支持的数据源有：（1）文件系统：LocalF

ZepheryWen·2022-05-22 21:00

spark 2.3 alter table partition 造成分区create_time丢失

简介使用spark2.3进行hive表修改分区信息是，会造成hive元数据的create_time置为0。

MasonMa.sy·2022-04-24 15:10

【源码学习-spark2.1.1和yarn2.11】SparkOnYarn部署流程（二）ApplicationMaster_CoarseGrainedExecutorBackend

002-源码spark-2.1.1版SparkOnYarn部署流程-ApplicationMasterSparkOnYarn部署流程-CoarseGrainedExecutorBackendSparkOnYarn部署流程-ApplicationMaster如果走集群模式的话，bin/javaorg.apache.spark.deploy.yarn.ApplicationMaster当该命令提交后，

Aponson·2022-03-25 07:17

【源码学习-spark2.1.1和yarn2.11】SparkOnYarn部署流程（一）从sparksubmit提交到yarn启动进程ApplicationMaster

001-源码spark-2.1.1版SparkOnYarn部署流程-SparkSubmit源码三步1.整体框架2.框架组件、通信3.任务的划分、调度、执行这里基于spark-2.1.1版本的源码，官网现在是spark-3.0.0和spark-2.1.1的源码还是有很多区别的。官网下载：https://www.apache.org/dyn/closer.lua/spark/spark-2.1.1/s

Aponson·2022-03-25 07:46

Spark2.0机器学习系列之12：线性回归及L1、L2正则化区别与稀疏解

概述线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x)。Spark中实现了：（1）普通最小二乘法（2）岭回归（L2正规化）（3）Lasso（L1正规化）。（4）局部加权线性回归（5）流式数据可以适用于线上的回归模型，每当有新数据达到时，更新模型的参数，MLlib目前使用普通的最小二乘支持流线性回归。除了每批数据到达时，模型更新最新的数据外，实际上与线下的执行是类似的。本文采用的符号:拟合

weixin_30709809·2022-03-23 08:26

Spark2 Linear Regression线性回归

本文使用SparkMllib搭建简单的线性回归例子数据下载地址packageSparkMlibCourse3importorg.apache.log4j.{Level,Logger}importorg.apache.spark.sql.{DataFrame,SQLContext}importorg.apache.spark.{SparkConf,SparkContext}importorg.apa

kicilove·2022-03-23 08:10

spark学习记录

登陆默认在“/root”目录linux目录结构Java8安装Zookeeper安装Hadoop安装Spark2.3HA集群分布式安装SparkRDDsparksqldockermysqlsparksessionlinux

mo明奇妙·2022-03-18 18:06

pycharm远程连接spark的初始安装以及问题

2.再虚拟机搭建spark2.配置pycharm1.新建项目2.开菜单"Tools->Deployment->Configuration…”3.新建一个通过SFTP把本地文件远程发布到虚拟机的设置。

吃再多糖也不长胖·2022-03-18 05:26

pycharm 远程连接运行pyspark

pycharm新建项目，添加如下远程sshinterpreter解释器，输入连接要连接的host和username将linux中spark下的pyspark复制到python中由于是spark2.0因此只支持

晚点吧·2022-03-18 05:24

Pycharm下连接hive的两种方式！！解决各种姿势报错

windowpycharm下用spark连接hive操作数据一、在/opt/soft/spark234/conf下导入hive-site.xml二、把mysql的驱动包mysql-connector-java

WCL0520·2022-03-18 04:19

SparkSql概念总结

SparkSql目录SparkSql1、SparkonHive和HiveonSpark2、DataFrame和DataSet3、SparkSql底层架构4、什么是谓词下推？

每日小新·2022-03-02 07:14

【spark2】【源码学习】【分区数】spark读取本地/可分割/单个的文件时是如何划分分区

大数据计算中很关键的一个概念就是分布式并行计算，意思就是将一份原始数据切分成若干份，然后分发到多个机器或者单个机器多个虚拟出来的内存容器中同时执行相同的逻辑，先分发(map)，然后聚合(reduce)的一个过程。那么问题是原始文件是怎么切分的呢，在spark读取不同的数据源，切分的逻辑也是不同的。首先spark是有改变分区的函数的，分别是Coalesce()方法和rePartition()方法，但

kyle0349·2022-02-28 10:35

pyspark入门系列 - 03 pyspark.sql.DataFrame函数汇总与实践

博客中代码基于spark2.4.4版本。不同版本函数会有不同，详细请参考官方文档。

铁甲大宝·2022-02-27 11:02

Spark on Yarn2.2.0资源分配

写在前面的文章修改自Spark1.3.0版本:参数本文主要讨论SparkonYarn内存分配情况，所以只需要关注以下几个内心相关的参数(该值来自spark2.2.0官网或者spark-shell--help

我猪妹打钱·2022-02-22 02:16

spark-sql-perf

测试环境：spark2.4.0spark-sql-perf_2.11-0.5.0-SNAPSHOT测试tpcds-kit通过tpcds-kit生成TPC-DS数据。

breeze_lsw·2022-02-21 10:12

Kafka+Spark Streaming进行网站黑名单实时过滤

开发环境：spark2.3kafka1.1.1黑名单数据是从mysql中获取的。

hipeer·2022-02-20 11:59

Spark UI页面样式文件加载错误的排查过程

问题描述spark以cluster模式运行在yarn上.我们访问这个正在运行着的SparkUI时,发现页面缺少样式,如下图.image.png排查我们之前使用Spark2.2.0时.也遇到过类似的情况,

海边的贝壳林·2022-02-18 05:38

第三十七天（4月27日）（补）

1学习时间学了一个番茄钟的spark2学习内容spark3学习总结很勉强的学习了一会，学习效果一般

forrse·2022-02-17 02:24

黑猴子的家：sample 随机抽样

1、Codevalsamplerdd=sc.makeRDD(Array("spark1","spark2","spark3","spark4","spark5","hadoop1","hadoop2",

黑猴子的家·2022-02-15 19:08

使用滑动窗口进行实时的热词统计

开发环境：kafka1.1.1spark2.3Java代码：packagecn.spark.streaming;importjava.util.Arrays;importjava.util.HashMap

hipeer·2022-02-15 02:55

使用docker安装spark2.4.3

前置说明在安装hbase之前,安装了hadoop,因为hbase的数据需要存放到hdfs中spark也与hadoop有关联,但是要理解spark仅仅用到hadoop的库,并不依赖hadoop程序,它不需要安装hadoop,spark仅依赖jdk.spark有四大集群模式:standalone,mesos,yarn,k8s根据数据量,确定使用最简单的standalone模式.下载https://ww

阿亚2011·2022-02-14 14:00

基于FlinkSql1.10.0 搭建实时数仓

开源框架与阿里云架构对比分类阿里云架构开源架构数据采集DTS、DataHubcanal、flume数据传输DTS、DataHubkafka数据存储Rds、AnalyticDBMysql、HBase数据计算阿里云实时计算Flink、spark2.2Binlog

卡戎li·2022-02-13 01:38

spark源码编译过程

本文环境：Scala2.11.8、Maven3.3.9、Spark2.3.01.下载源码1.png原因：1.spark对应不同的hadoop版本有不同的支持2.方便后期对源码的更改，并进行编译需要注意2

番茄ozz·2022-02-12 16:14

Hadoop集群+Spark集群搭建（一篇文章就够了）

Ubuntu16.04.6(ubuntu-16.04.6-server-amd64.iso)JDK1.8(jdk-8u201-linux-x64.tar.gz)Hadoop2.7.7(hadoop-2.7.7.tar.gz)Spark2.1.0

非法小恋·2022-02-11 14:22

HBase/Spark Guava依赖冲突解决方案

前言版本guava版本Spark2.2.012.0.1HBase1.0.0-cdh5.6.020.0由于guava的版本在16.0以后，不向后兼容，所以Spark程序中集成HBase是会报找不到依赖的方法错误

zfylin·2022-02-10 10:05

推荐频道

Spark2