python使用spark 第15页

极简pyspark

PySpark简要介绍PySpark是一个基于Spark的Python接口，它允许你在Python中使用Spark的强大功能，如大数据处理、实时数据处理等。

吉小雨·2024-01-28 18:13

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

pyspark在windows加载数据集训练模型出现以下错误java.net.SocketException:Connectionresetbypeer:socketwriteerroratjava.net.SocketOutputStream.socketWrite0

walk walk·2024-01-28 15:49

chatgpt赋能python：Python设置代理IP:如何让你的Python爬虫更加高效

Python设置代理IP:如何让你的Python爬虫更加高效Python使用代理IP是一个在网络爬虫中常见的技术。它能够让你轻松地避免被限制或封禁，从而更好地收集数据并加快爬虫的速度。

test100t·2024-01-28 14:50

spark-streaming与kafka的整合

1.概述在2.x中，spark有两个用来与kafka整合的代码，版本代号为0.8和0.10，由于在0.8，kafka有两套消费者api，根据高级api得到了Receiver-basedApproach，

王大为学习笔记·2024-01-28 14:47

[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema

1、开发环境spark-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame，为字段添加列信息参数nullable说明：Indicatesifvaluesofthisfieldcanbenullvaluesvalschema

林沐之森·2024-01-28 13:51

Python使用进阶 —— 运算符的使用（1）

什么是运算符？举个简单的例子:4+5=9例子中，4和5被称为操作数，+称为运算符。Python语言支持以下类型的运算符:算术运算符比较（关系）运算符赋值运算符逻辑运算符位运算符成员运算符身份运算符接下来让我们一个个来学习Python的运算符。Python算术运算符以下假设变量a为10，变量b为21：运算符描述实例+加-两个对象相加a+b输出结果31-减-得到负数或是一个数减去另一个数a-b输出结果

诗者才子酒中仙·2024-01-28 13:39

[AIGC大数据基础] Spark 入门

其中，Spark作为一个快速、通用的大数据处理引擎备受关注。本文将从“是什么、怎么用、为什么用”三个角度来介绍Spark。

程序员三木·2024-01-28 12:32

Impala-shell卡顿分析——记一次曲折的Debug经历

Impala-shell卡顿分析——记一次曲折的Debug经历问题发现最近准备在Impala中增加对UTF-8的支持，以修正跟Hive、Spark等基于Java的系统在UTF-8字符串上的不兼容表现（如

stiga-huang·2024-01-28 12:06

Impala元数据简介

Impala元数据简介背景Impala是一个高性能的OLAP查询引擎，与其它SQL-on-Hadoop的ROLAP解决方案如Presto、SparkSQL等不同的是，Impala对元数据（Metadata

stiga-huang·2024-01-28 12:05

Spark:Task Locality参考

DatalocalitycanhaveamajorimpactontheperformanceofSparkjobs.Ifdataandthecodethatoperatesonitaretogetherthencomputationtendstobefast.Butifcodeanddataareseparated

liuzx32·2024-01-28 12:38

python使用pyinstaller 快速打包成一个exe程序方案

使用PyInstaller是一种将Python脚本打包成独立可执行文件（.exe）的方便方法。以下是一个简单的步骤，以及相关的说明和代码示例：1.安装PyInstaller:pipinstallpyinstaller2.在终端中导航到你的Python脚本所在的目录:cdpath/to/your/script3.使用PyInstaller命令pyinstalleryour_script.py配置细节

搬砖的诗人Z·2024-01-28 10:40

Spark 的宽依赖和窄依赖

ApacheSpark中的依赖关系指的是转换操作（transformations）之间的依赖类型。这些依赖关系决定了任务是如何在集群上分布执行的。

小湘西·2024-01-28 08:52

Spark——Spark SQL逻辑计划（Logical Plan）、物理计划（Physical Plan）和Catalyst优化器（Catalyst Optimizer）

文章目录TreesRulesSparkSQL中使用CatalystAnalysis逻辑优化（LogicalOptimizations）物理计划（PhysicalPlanning）代码生成（CodeGeneration

Southwest-·2024-01-28 08:18

Spark——Spark覆盖分区表中指定的分区

问题描述Spark中向分区表写数据的时候，如果写入模式为“overwrite”，那会将整个表覆盖掉；如果写入模式为“ap

Southwest-·2024-01-28 08:18

Spark——Spark OOM Error问题汇总分析

.广播了大变量Executor端OOMError1.低效的查询2.不合适的Driver端和Executor端内存3.不合适的YARNContainer内存4.内存中缓存大量数据5.不合适任务并行度参考Spark

Southwest-·2024-01-28 08:17

Spark——Spark写MySQL太慢、很慢、非常慢的原因分析及优化方法

文章目录问题背景原因分析解决方法参考问题背景有这样一个业务场景：需要将通过Spark处理之后的数据写入MySQL，并在在网页端进行可视化输出。

Southwest-·2024-01-28 08:17

Spark——Spark/Hive向量化查询执行原理分析（Vectorization Query Execution）

文章目录什么是向量化查询执行列式存储Spark向量化查询执行Hive向量化查询执行参考什么是向量化查询执行在标准的查询执行系统中，每次只处理一行数据，每次处理都要走过较长的代码路径和元数据解释，从而导致

Southwest-·2024-01-28 08:47

Spark——Spark缓存临时视图（View）

文章目录RDD/Dataset缓存复用纯SQL结果缓存复用RDD/Dataset缓存复用我们知道在使用RDD和DatasetAPI开发Spark应用程序的时候，如果要缓存某个RDD或Dataset来进行复用

Southwest-·2024-01-28 08:47

Spark——Spark DataFrame导出为Excel文件

文章目录问题背景实现1.Maven依赖2.代码实现3.参数详解1.'sheet_name'!B3:C35。2.sheet_name[#All]参考问题背景有时候我们在进行一些表的计算之后，会生成一些指标，需要导出来给其它同事用，虽说可以将DataFrame直接写成表，然后通过工具(比如Hue)导出为Excel，但是步骤就多了，而且如果要导出的表比较多的话，就更浪费时间了，那么这时候调用第三方插件就

Southwest-·2024-01-28 08:17

Spark —— JSON对象/数组转成Spark Dataset/DataFrame

JSON转DataFrame在日常使用Spark处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构，那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能

Southwest-·2024-01-28 08:16

Spark——Spark读写MongoDB

文章目录Spark直连MongoDB1.通过SparkConf2.通过ReadConfig3.通过DataFrameReaderHive中创建映射表mongoexport导出文件参考如果我们要想通过Spark

Southwest-·2024-01-28 08:46

Spark——Spark读写Greenplum/Greenplum-Spark Connector高速写Greenplum

文章目录问题背景解决方式代码实现Spark写GreenplumSpark读Greenplum参考问题背景通过数据平台上的DataX把Hive表数据同步至Greenplum（因为DataX原生不支持GreenplumWriter

Southwest-·2024-01-28 08:42

Python网络爬虫实战——实验7：Python使用apscheduler定时采集任务实战

【实验内容】本实验主要介绍在Django框架中使用APScheduler第三方库实现对数据的定时采集。【实验目的】1、掌握APScheduler库的使用；2、学习在Django中实现多个定时任务调度；【实验步骤】步骤1Apscheduler简介与特点步骤2Apscheduler基本概念步骤3在Django中实现多个定时任务调度步骤1：Apscheduler简介与特点(1)简介APScheduler

武汉唯众智创·2024-01-28 07:41

Hive之set参数大全-18

指定在执行Spark上的动态分区裁剪时，用于评估分区数据大小的最大限制在Hive中，hive.spark.dynamic.partition.pruning.max.data.size是一个配置参数，用于指定在执行

OnePandas·2024-01-28 07:33

hive面试题

本质上是将SQL转换为MapReduce或者spark来进行计算，数据是存储在hdfs上，简单理解来说hive就是MapReduce的一个客户端工具。补充1：你可以说一下HQL转换为MR的任务流程吗？

韩顺平的小迷弟·2024-01-28 07:29

大数据——Flink 知识点整理

目录1.Flink的特点2.Flink和SparkStreaming的对比3.Flink和Blink、Alink之间的关系4.JobManager和TaskManager的职责5.Flink集群部署有哪些模式

Vicky_Tang·2024-01-28 06:17

python使用回溯算法搜索单词

对于在字母表中搜索单词的问题，这是一个二维空间问题，可以利用深度优先搜索算法和回溯算法来满足探索与退回的执行过程。给定一个字母表table以及一个单词word，试求在字母表中是否存在此单词，在字母表中可以任意位置为起点，每一步只能水平移动或者垂直移动，也就是只能在上下左右4个方向上移动。如下例子：添加图片注释，不超过140字（可选）添加图片注释，不超过140字（可选）对于该问题，如果想要在字母表中

X Y sawyer·2024-01-28 04:55

python使用回溯算法解决括号组合问题

对于给定k为括号的总对数，需要将能够组合的所有有效括号组合方式求出的问题。对于回溯算法是将解空间看做一定的结构，通常是作为树形结构或者图形结构，回溯算法实际上是一种类似枚举的探索尝试过程，主要是在探索尝试过程中寻找解决问题的解，当发现已不满足给定条件的时候，就进行回溯退回，并尝试其他的路径。对于括号问题有如下例子：添加图片注释，不超过140字（可选）添加图片注释，不超过140字（可选）括号组合问题

X Y sawyer·2024-01-28 04:54

python使用回溯算法解决获得最多金币问题

对于在棋盘上获得最多金币数的问题，金币在棋盘上的行进有一定规则，在遵守规则的条件下，求能够获得的最多金币数。假设一个mxn的棋盘grig上，每个位置放置着一定数量的grid[i][j]的金币，如果没有金币，则为0，金币在棋盘上按照如下规则进行移动:1.当到达某一个位置会收集该位置的所有金币，此位置金币数置为0。2.在棋盘上的每个位置可以向上下左右4个方位移动。3.出发点可以是棋盘上的任意位置。4.

X Y sawyer·2024-01-28 04:23

Apache Spark架构与特点

1.背景介绍ApacheSpark是一个开源的大数据处理框架，由AMLLabs公司开发，后被Apache软件基金会所支持。

OpenChat·2024-01-27 23:35

Spark-core

什么是SparkSpark是基于内存的快速，通用，可扩展的大数据分析引擎Spark的内置模块SparkCore是Spark可以离线处理的部分，实现了spark的基本功能，包含任务调度，错误恢复，与存储系统交互等模块

luckboy0000·2024-01-27 23:12

python使用jenkins-api结合mysql，从md文件中读取文件，实现批量构建

一：程序整体思想：1:公司发版流程为开发在gitlab上创建marddown文件，写上需要发版的工程，运维从git上获取需要发版的工程，手工build项目。2:程序的工作流程：从md文件中读取信息，使用正则表达式过滤想要的工程名，tag号，commit号，存入mysql中，然后从mysql中select出对应的信息，作为参数传递给Jenkins，执行build，并检查对应的信息。直接上程序：1:从

tcj0221·2024-01-27 22:38

【问题记录】06 python使用pytesseract报错：pytesseract.pytesseract.TesseractNotFoundError: tesseract is not inst

文章目录1、问题出现2、原因分析3、解决方法1、问题出现环境：Mac、Python3.9.6。Python：importpytesseractfromPILimportImage#用于读取图片image=Image.open("123.png")result=pytesseract.image_to_string(image)print(result1)使用pytesseract.image_to

joinclear·2024-01-27 20:18

python函数的使用

一、函数的定义Python使用保留字def定义一个函数，形式如下：def（）：return函数的调用过程与C语言类似。

D D D D C·2024-01-27 19:53

独家解读 | 滴滴机器学习平台架构演进之路

所谓大同是指大家所要处理的问题都相似，技术架构和选型也差不太多，比如都会使用GPU集群、采用Spark或K8s平台等。

csdn产品小助手·2024-01-27 19:18

apache 前30个开源项目

高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop分布式存储和计算框架大数据处理非常活跃4ApacheSpark

临水逸·2024-01-27 17:35

如何使用irsa将火花提交给亚马逊eks集群

Inpreviousarticle,IhaveintroducedhowwesubmitaSparkjobtoanEKScluster.Aslongaswe’reusingotherAWScomponentsforourpipelinestointeract

weixin_26755331·2024-01-27 15:26

Pyspark分类--LogisticRegression

LogisticRegression：逻辑回归分类classpyspark.ml.classification.LogisticRegression(featuresCol=‘features’,labelCol

Gadaite·2024-01-27 14:53

搭建大数据平台常用的端口号

journalnode默认的端口号9000：非高可用访问数rpc端口8020：高可用访问数据rpc8088：yarn的webUI的端口号8080：master的webUI，Tomcat的端口号7077：spark

修勾勾L·2024-01-27 13:51

Spark连接Hive的两种方式

一、使用hive-site.xml第一步：将集群中的hive-site.xml的内容复制出来，并放在idea项目的resources下，要求文件命名为：hive-site.xmldatanucleus.schema.autoCreateAlltruejavax.jdo.option.ConnectionURLjdbc:mysql://192.168.38.160:3306/hive_db?crea

修勾勾L·2024-01-27 13:50

项目中常用的utils

importcryptofrom'crypto'importSparkMD5from'spark-md5'importCryptoJsfrom'crypto-js'importJSEncryptfrom'jsencrypt'importstoragefrom

乐夫天命兮·2024-01-27 13:05

flume+kafka+SparkStreaming+mysql+ssm+高德地图热力图项目

第一步、编写python脚本，产生模拟数据#coding=UTF-8importrandomimporttimephone=["13869555210","18542360152","15422556663","18852487210","13993584664","18754366522","15222436542","13369568452","13893556666","1536669855

printf200·2024-01-27 12:24

【Scala-spark.mlib】分布式矩阵——分布式计算的基石与利器

分布式矩阵1.mlib.linalg.distributed包2.DistributedMatrix特质3.BlockMatrix类4.CoordinateMatrix类5.IndexedRowMatrix类6.RowMatrix类7.小结1.mlib.linalg.distributed包矩阵计算是很多科学计算的重要步骤，而分布式矩阵存储则是分布式计算的基础。根据不同的计算需求，需要将用于计

JimmyShis·2024-01-27 10:12

2019年12月10日

今天在公司继续看spark教程，这么说来我已经快一个月没啥正事了（望向每日记录Excel文档），究竟说明公司药丸还是我药丸……反正先做好多手准备【今天明明温度不低办公室的三恒系统却还是开着高温，仿佛电费不要钱

真昼之月·2024-01-27 08:49

Spark-RDD持久化

(1)persist算子使用方法：varrdd=sc.textFile("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count()//或者其他操作StorageLevel说明：StorageLevel的构造函数：classStorageLevelprivate(privatevar_useDisk:Boolean,#是否

printf200·2024-01-27 08:02

Spark SQL中掌控sql语句的执行 - 了解你的查询计划

本文翻译自BeinchargeofQueryExcutioninSparkSQL背景自spark2.x的sql以及申明行DataFrameAPi以来，在spark查询数据越来越方便。

鸿乃江边鸟·2024-01-27 08:18

Hadoop与Spark横向比较【大数据扫盲】

大数据场景下的数据库有很多种，每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性，都有其特定的使用场景。以下是一些常见的大数据数据库：1.**NoSQL数据库**：这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言，并强调水平扩展和高可用性。例如：-**键值存储**：如Redis，AmazonDynamoDB-**列式存储**：如ApacheCassandra，

super_journey·2024-01-27 07:51

python使用PaddleOCR实现《命名实体识别项目》OCR（已实现）（ai领域必看，简单易用）

1.简介：PaddleOCR是飞桨（PaddlePaddle）推出的一个端到端的光学字符识别开源工具集，支持中文、英文、数字以及特殊符号等各种类型的文字检测、识别和词语整体识别。该工具集使用PaddlePaddle深度学习框架技术，提供了多种OCR模型和算法，包括基于CNN+CTC、DenseNet+CTC等模型，能够针对不同场景和应用提供最优的OCR解决方案。同时，PaddleOCR还集成了OC

热爱生活的五柒·2024-01-27 07:30

使用spark mllib训练中文文本分类器的

importorg.apache.spark.mllib.classification.NaiveBayesimportorg.apache.spark.mllib.feature.HashingTFimportorg.apache.spark.mllib.linalg.Vectorsimportorg.apache.spark.sql.functions

DreamNotOver·2024-01-27 07:45

使用 Spark MLlib 使用 jieba 分词训练中文分类器

importorg.apache.spark.ml.classification.NaiveBayesimportorg.apache.spark.ml.feature.HashingTFimportorg.apache.spark.sql.functions

DreamNotOver·2024-01-27 07:45

推荐频道

python使用spark

极简pyspark

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

chatgpt赋能python：Python设置代理IP:如何让你的Python爬虫更加高效

spark-streaming与kafka的整合

[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema

Python使用进阶 —— 运算符的使用（1）

[AIGC大数据基础] Spark 入门

Impala-shell卡顿分析——记一次曲折的Debug经历

Impala元数据简介

Spark:Task Locality参考

python使用pyinstaller 快速打包成一个exe程序方案

Spark 的宽依赖和窄依赖

Spark——Spark SQL逻辑计划（Logical Plan）、物理计划（Physical Plan）和Catalyst优化器（Catalyst Optimizer）

Spark——Spark覆盖分区表中指定的分区

Spark——Spark OOM Error问题汇总分析

Spark——Spark写MySQL太慢、很慢、非常慢的原因分析及优化方法

Spark——Spark/Hive向量化查询执行原理分析（Vectorization Query Execution）

Spark——Spark缓存临时视图（View）

Spark——Spark DataFrame导出为Excel文件

Spark —— JSON对象/数组转成Spark Dataset/DataFrame

Spark——Spark读写MongoDB

Spark——Spark读写Greenplum/Greenplum-Spark Connector高速写Greenplum

Python网络爬虫实战——实验7：Python使用apscheduler定时采集任务实战

Hive之set参数大全-18

hive面试题

大数据——Flink 知识点整理

python使用回溯算法搜索单词

python使用回溯算法解决括号组合问题

python使用回溯算法解决获得最多金币问题

Apache Spark架构与特点

Spark-core

python使用jenkins-api结合mysql，从md文件中读取文件，实现批量构建

【问题记录】06 python使用pytesseract报错：pytesseract.pytesseract.TesseractNotFoundError: tesseract is not inst

python函数的使用

独家解读 | 滴滴机器学习平台架构演进之路

apache 前30个开源项目

如何使用irsa将火花提交给亚马逊eks集群

Pyspark分类--LogisticRegression

搭建大数据平台常用的端口号

Spark连接Hive的两种方式

项目中常用的utils

flume+kafka+SparkStreaming+mysql+ssm+高德地图热力图项目

【Scala-spark.mlib】分布式矩阵——分布式计算的基石与利器

2019年12月10日

Spark-RDD持久化

Spark SQL中掌控sql语句的执行 - 了解你的查询计划

Hadoop与Spark横向比较【大数据扫盲】

python使用PaddleOCR实现《命名实体识别项目》OCR（已实现）（ai领域必看，简单易用）

使用spark mllib训练中文文本分类器的

使用 Spark MLlib 使用 jieba 分词训练中文分类器