Spark学习之路第29页

Java大数据学习~Hadoop初识三Yarn模式

Hbase做自己的，Spark也是做自己的,等等。这样的话就会造成资源的浪费，不能充分的把资源给利用

胖琪的升级之路·2024-01-10 05:55

Flink任务实战优化

一、Flink任务优化分析1.1参考Spark的优化方式对于任何的技术发展，后来的的技术架构都可以参考之前优秀竞品的设计思想或缺陷，然后

i7杨·2024-01-10 01:06

大数据OLAP引擎发展原因及特性分析

在大数据高速发展时期，多个技术团队基于OLAP的应用需求，开发出多种OLAP技术，如Hive、SparkSql、FlinkSql、Impala、Kylin、ClickHouse、Doris等，或者在实现其他应用需求的时候

i7杨·2024-01-10 01:31

笔记：分布式大数据技术原理（三）Spark

ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm

WeeeicheN·2024-01-09 22:17

Python学习之路-Hello Python

Python学习之路-HelloPythonPython解释器简介前面说到Python是解释型语言，Python解释器的作用就是用于"翻译"Python程序。

geobuins·2024-01-09 21:21

Python学习之路-编码风格

Python学习之路-编码风格设计哲学Python的设计哲学是“优雅”、“明确”、“简单”。它的重要准则被称为“Python之禅”。

geobuins·2024-01-09 21:21

Spark 源码分析（二）: Driver 注册及启动

一，org.apache.spark.deploy.master.Master这个Master就是前面Client发送的对象，是一个ThreadSafeRpcEndpoint。内部的recei

stone_zhu·2024-01-09 21:30

黑猴子的家：Spark SQL RDD vs DataFrames vs DataSet

在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？

黑猴子的家·2024-01-09 18:28

机器学习分布式架构

2.流计算（Storm，Spark，Flink）使用滑动窗口，在滑动窗口内的数据全部完成后再滑动到下一个时间窗口进行新一轮的数据处理，以分钟级别居多

小幸运Q·2024-01-09 17:27

ASP.NET Core学习之路01

本文章是我听B站杨中科的所做的笔记杨中科B站视频链接：.NET6教程，.NetCore2022视频教程，杨中科主讲_哔哩哔哩_bilibili什么是ASP.NETCore1、ASP.NETCore是.NET中做Web开发的框架2、ASP.NETCoreMVC3、ASP.NETCoreWebAPI：前后端分离、多端开发4、ASP.NETCoreMVC其实包含WebAPI5、侧重WebAPI6、需要你

虫儿Sound·2024-01-09 17:31

ASP.NET Core学习之路02

本文章是我听B站杨中科的所做的笔记杨中科B站视频链接：.NET6教程，.NetCore2022视频教程，杨中科主讲_哔哩哔哩_bilibili程序员的性能优化万金油：缓存什么是缓存缓存(Caching)是系统优化中简单又有效的工具，投入小收效大。数据库中的索引等简单有效的优化功能本质上都是缓存缓存的概念1、缓存命中2、缓存命中率3、缓存数据不一致多级缓存ASP.NETCore客户端响应缓存cach

虫儿Sound·2024-01-09 17:31

一起走的学习之路（553）

晚上和单位的同事聚了个餐，其实也就还是原来的那几个老面孔。吃饭的过程还是愉快的，但是这次显得有些尴尬的事，多了两个本来不是我们这一个群里的人。本来就一只两个人都是单位的同事，所以我们还是非常欢迎的。可是让大家非常不太舒服的，就是其中的一个人，到了我们的饭桌上，知道了，我们大家有一个群，就嚷嚷着要把他加进来。开始的时候大家也就糊弄着把这个事情给唐塞过去了。可是在吃饭的过程中，他就着这个事情接连提了不

小米雨路·2024-01-09 16:15

Spark---RDD(Key-Value类型转换算子)

文章目录1.RDDKey-Value类型1.1partitionBy1.2reduceByKey1.3groupByKeyreduceByKey和groupByKey的区别分区间和分区内1.4aggregateByKey获取相同key的value的平均值1.5foldByKey1.6combineByKey1.7sortByKey1.8join1.9leftOuterJoin1.10cogroup

肥大毛·2024-01-09 15:23

xgb模型json转pmml

一背景：在实际项目中往往会有不同种类的模型，如xgb的训练完保存为json格式、pkl格式以及原始booster的.model格式，预测需要用到pmml可以在spark中借助大数据的能力的跑因此需要对模型的格式进行转换

zcc_0015·2024-01-09 15:31

基于spark的Hive2Pg数据同步组件

一、背景Hive中的数据需要同步到pg供在线使用，通常sqoop具有数据同步的功能，但是sqoop具有一定的问题，比如对数据的切分碰到数据字段存在异常的情况下，数据字段的空值率高、数据字段重复太多，影响sqoop的分区策略，特别是hash分区，调用hash函数容易使得cpu高产生报警。同时sqoop的mapreduce任务对数据表的分割以及数据文件也会有一定的不均衡性。为了弥补这些问题，开发了基于

zcc_0015·2024-01-09 15:53

常见技术选型

MQRocketMQ,RabbitMQ,Kafka,ActiveMQNoSQLRedis,Memcache分布式计算Blink,Storm,SparkDB关系型TiDB,MySQL,MongoDB,CassandraKVLevelDB

独处人·2024-01-09 14:46

Java接入Apache Spark（入门环境搭建、常见问题）

Java接入ApacheSpark（环境搭建、常见问题）背景介绍ApacheSpark是一个快速的，通用的集群计算系统。

许忆·2024-01-09 13:12

Hive基础知识

2）其本质是将SQL语句转换为MapReduce/Spark程序进行运算，底层数据由HDFS分布式文件系统进行存储。3）可以理解Hive就是MapReduce/SparkSql的客户端。

巷子里的猫X·2024-01-09 13:52

Spark与Hive的集成与互操作

ApacheSpark和ApacheHive是大数据领域中两个非常流行的工具，用于数据处理和分析。Spark提供了强大的分布式计算能力，而Hive是一个用于查询和管理大规模数据的数据仓库工具。

晓之以理的喵~~·2024-01-09 11:30

Spark回归分析与特征工程

在大数据领域，ApacheSpark为回归分析提供了强大的工具和库，以处理大规模数据集。本文将深入探讨如何使用Spark进行回归分析以及如何进行特征工程，以提高模型性能。

晓之以理的喵~~·2024-01-09 11:00

Spark中的二分类与多分类问题的解决

机器学习中的分类问题是数据科学中的一个重要领域，而在大数据环境中使用ApacheSpark来解决二分类和多分类问题可以更好地处理大规模数据。

晓之以理的喵~~·2024-01-09 11:00

Spark与HBase的集成与数据访问

ApacheSpark和ApacheHBase分别是大数据处理和分布式NoSQL数据库领域的两个重要工具。

晓之以理的喵~~·2024-01-09 11:24

Golang学习之路一五变量和常量小结

Golang学习之路一五变量和常量小结packagemainimport"fmt"funcmain(){//声明初始化一个变量varxint=100varstrstring="helloworld"//

阿亮说技术·2024-01-09 11:53

golang学习之路2-基础认识(上)

文章目录前言一、变量与常量定义1.变量2.常量2.数据类型二、自增自减三、指针1.使用指针&及*2.空指针3.指针完整代码四、不支持语法1.自增自减--i及++i2.不支持内存地址(指针)加减3.不支持三元运算符4.条件判断只有boolfalse才是逻辑假五、字符串string1.原生输出2.len获取字符串长度3.拼接&格式化输出4.字符串切片前言学习一门语言，先认识下Golang的基础语法，例

十尾仙狸·2024-01-09 11:51

Golang学习之路一六运算符

Golang学习之路一六运算符算数运算符符号说明+相加-相减*相乘/相除%求余++自增–自减packagemainimport"fmt"funcmain(){a:=10b:=6//+fmt.Println

阿亮说技术·2024-01-09 11:16

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2024-01-09 09:18

绘本讲师学习之路的复盘

两年前，算是我人生中一个低谷。一个低的不能在低的低谷。让我改变了自己，改变了对人生和梦想的看法，也改变了我对孩子们的教育观。我开始不停的看书，不停的去输入，不停的想要改变自己的生活方式，我觉得我的生活不应该这样。也不能这样，我需要找到真的我自己，偶然之中我了解到了绘本，但今天我也不清楚我自己是怎么和绘本结缘的。记得看到的第一本书是《谁藏起来了》，现在想来那是一本真正的盗版书。因为那时就觉得很不舒服

两颗小榶果·2024-01-09 08:46

大数据之PySpark的RDD介绍

文章目录前言一、RDD简介二、RDD的特性三、RDD的特点总结前言之前的文章主要介绍Spark基础知识，例如集群角色、Spark集群运行流程等，接下来会进一步讨论Spark相对核心的知识，让我们拭目以待

敲键盘的杰克·2024-01-09 07:11

pyspark mysql rdd_PySpark之RDD操作

一、什么是RDDAResilientDistributedDataset(RDD),thebasicabstractioninSpark.Representsanimmutable,partitionedcollectionofelementsthatcanbeoperatedoninparallel

辉月有话说·2024-01-09 07:40

PySpark之Spark RDD的持久化

、cache()二、persist三、缓存级别四、释放缓存五、什么时候缓存数据当某个RDD被使用多次的时候，建议缓存此RDD数据当某个RDD来之不易，并且使用不止一次，建议缓存此RDD数据frompysparkimportSparkContext

飞Link·2024-01-09 07:07

PySpark-Spark SQL基本介绍

目录SparkSQL基本介绍SparkSQL特点SparkSQL与Hive的异同SparkSQL的数据结构SparkSQL的入门创建SparkSession对象DataFrame详解DataFrame基本介绍

Sisi525693·2024-01-09 07:37

2024.1.8 Day04_SparkCore_homeWork

目录1.简述Spark持久化中缓存和checkpoint检查点的区别2.如何使用缓存和检查点?

白白的wj·2024-01-09 07:37

Sisi525693·2024-01-09 07:06

spark-sql字段血缘实现

spark-sql字段血缘实现背景ApacheSpark是一个开源的大数据处理框架，它提供了一种高效、易于使用的方式来处理大规模数据集。

王糍粑的小夕·2024-01-09 07:32

Spark---RDD(双值类型转换算子)

1.1intersection对源RDD和参数RDD求交集后返回一个新的RDD函数定义：defintersection(other:RDD[T]):RDD[T]//建立与Spark框架的连接va

肥大毛·2024-01-09 07:32

PySpark的RDD持久化

February13·2024-01-09 07:32

Spark Core------算子介绍

RDD基本介绍什么是RDDRDD:英文全称ResilientDistributedDataset，叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合

小希 fighting·2024-01-09 07:01

Spark 中 BroadCast 导致的内存溢出(SparkFatalException)

背景本文基于Spark3.1.1open-jdk-1.8.0.352目前在排查Spark任务的时候，遇到了一个很奇怪的问题，在此记录一下。

鸿乃江边鸟·2024-01-09 07:31

PySpark之RDD的持久化

主要作用:提升Spark程序的计算效率注意事项:RDD的缓存可以存储在内存或者是磁盘上，甚至可以存储在Executor进程的堆外内存中。主要是放在内存中，因此缓存的数据是不太稳定可靠。

Sisi525693·2024-01-09 07:30

Hive基本操作

Hive是类SQL语法的数据查询、计算、分析工具，执行引擎默认的是MapReduce，可以设置为Spark、Tez。Hive分内部表和外部表，外部表在建表的同时指定一个

X晓·2024-01-09 06:45

某大厂大数据开发-外包面试

4.spark用过吗，用到的开发工具5.数据量多少，服务器台数6.数仓每层做了什么事，为什么这样做？

劝学-大数据·2024-01-09 06:42

大数据开发-某外包公司

1.用过那些组件2.说下HDFS读写流程3.说下varchar和char区别4.说下数据库的事务5.spark的部署模式有哪些6.数据库和数据仓库的区别7.内部表和外部表的区别8.说下数据中台、数据仓库和数据湖的区别

劝学-大数据·2024-01-09 06:10

spark读sqlserver出现的异常

前言Spark通过JDBC读取数据之前很早写过一篇博客，本以为所有通过jdbc读取的方式都一样，谁知道这次读sqlserver的时候竟然出现的很多异常，这里把异常的问题进行记录。

SunnyRivers·2024-01-09 06:39

PySpark & Dask 分布式集群环境搭建（Linux）

Spark分布式环境搭建_Linux版9.0具体思路：先进行单机配置，然后复制Linux虚拟机、分发配置好的框架。

蒲魔树的种子·2024-01-09 06:04

pyspark 引入虚拟环境依赖包以及向yarn集群提交任务攻略

以虚拟环境引入project_demo项目包，并向sparkyarn提交spark任务为例：将project_demo安装到虚拟环境中1）virtualenvlocal_venv#创建虚拟环境2）sourcelocal_venv

阿君聊风控·2024-01-09 06:33

anaconda创建虚拟环境

最近在做项目时需要提交pyspark任务到公司的Spark集群上，由于没有集群节点的相关权限，打算采用anaconda创建pyspark的虚拟环境来进行。

追梦菜鸟·2024-01-09 06:33

python虚拟环境可以运行pyspark_pyspark 与 python 环境配置

主要是解决包依赖问题，通过virtualenv来解决，需要打包环境和spark是slave端运行环境一致，通过anaconda来解决，则完全不需要保持与线上spark机环境一致，只需要是linux系统即可

weixin_39663729·2024-01-09 06:33

pyspark打包依赖包&使用python虚拟环境

一、anaconda创建python环境anaconda创建python环境在这篇博客中，已经很清楚地描述了如何通过anaconda来创建你需要的python环境：即合适的python版本和包含你需要的依赖包。二、打包python环境假设我们的python环境名称为py_env，那么在anaconda的安装目录下，会有这么一个目录：envs/py_env在Windows下，直接将使用压缩软件，将其

我就算饿死也不做程序员·2024-01-09 06:33

Linux 环境安装Pyspark

Anaconda安装1.Anaconda的下载前往官网下载Linux环境的Anaconda安装包：下载地址2.安装包上传安装1.将下载好的安装包上传到linux系统中2.解压安装包root@master:~/env/conda#sh./Anaconda3-2023.09-0-Linux-x86_64.sh按回车多次按空格，直到看到最后时候输入yes再次输入yes输入想要安装的路径，注意：最后一个a

LiyC;·2024-01-09 06:32

推荐频道

Spark学习之路

最新ChatGPT源码，AI绘画Midjourney绘画系统，GPT-4V识图理解+GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+自定义知识库一站式解决方案